Add main LaTeX document for statistical learning course

2026-03-21 23:56:01 +01:00 · 2026-03-21 23:56:01 +01:00 · 9deb08ebba
commit 9deb08ebba
parent 25e99f99e8
2 changed files with 147 additions and 0 deletions
--- a/main.pdf
+++ b/main.pdf
--- a/main.tex
+++ b/main.tex
@ -0,0 +1,147 @@
+\documentclass[11pt,a4paper]{article}
+
+% --- Paquetages Fondamentaux ---
+\usepackage[utf8]{inputenc}
+\usepackage[T1]{fontenc}
+\usepackage[french]{babel}
+\usepackage{amsmath, amssymb, amsthm, amsfonts, mathrsfs}
+\usepackage{geometry}
+\usepackage{xcolor}
+\usepackage[most]{tcolorbox} % Pour les encadrés
+\usepackage{bm}
+
+\geometry{margin=2cm}
+
+% --- Configuration des encadrés (tcolorbox) ---
+\newtcolorbox{mybox}[1]{%
+    colback=gray!5,
+    colframe=black!75,
+    fonttitle=\bfseries,
+    title=#1,
+    arc=0mm,
+    boxrule=0.5pt
+}
+
+% --- Environnements Mathématiques ---
+\newtheorem{theorem}{Théorème}[section]
+\newtheorem{lemma}[theorem]{Lemme}
+\newtheorem{proposition}[theorem]{Proposition}
+\newtheorem{definition}[theorem]{Définition}
+\newtheorem{remark}{Remarque}[section]
+
+% --- Commandes Personnalisées ---
+\newcommand{\E}{\mathbb{E}}
+\newcommand{\R}{\mathbb{R}}
+\newcommand{\N}{\mathbb{N}}
+\newcommand{\Prob}{\mathbb{P}}
+\newcommand{\Var}{\mathbb{V}\text{ar}}
+\newcommand{\ind}{\bm{1}}
+\newcommand{\argmin}{\operatornamewithlimits{argmin}}
+\newcommand{\argmax}{\operatornamewithlimits{argmax}}
+\newcommand{\Ltwo}{L^2([0,1])}
+
+\title{\textbf{Cours Magistral : Fondements de l'Apprentissage Statistique}}
+\author{Synthèse de Théorie de l'Estimation et de l'Approximation}
+\date{Mars 2026}
+
+\begin{document}
+
+\maketitle
+
+\section{Cadre de l'Inférence Statistique}
+
+Soit $(\mathcal{X}, \mathcal{A})$ un espace mesurable. On considère un échantillon $\mathcal{D}_n = \{X_1, \dots, X_n\}$ de variables aléatoires (v.a.) indépendantes et identiquement distribuées (i.i.d.) selon une loi de probabilité inconnue $P$.
+
+\begin{definition}[Modèle Statistique]
+Un modèle statistique est un triplet $(\mathcal{X}, \mathcal{A}, \mathcal{P})$ où $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$ est une famille de lois de probabilité sur l'espace des observations.
+\begin{itemize}
+    \item Si $\Theta \subseteq \R^d$ avec $d < \infty$, le modèle est dit \textbf{paramétrique}.
+    \item Si $\Theta$ est de dimension infinie (ex: espace de fonctions), le modèle est \textbf{non-paramétrique}.
+\end{itemize}
+\end{definition}
+
+\section{Estimation Paramétrique}
+
+On suppose ici que $P = P_\theta$ pour un certain $\theta \in \Theta \subseteq \R^d$.
+
+\begin{mybox}{Définition : Estimateur du Maximum de Vraisemblance (EMV)}
+Soit $L_n(\theta ; X_1, \dots, X_n) = \prod_{i=1}^n p_\theta(X_i)$ la fonction de vraisemblance. L'estimateur du maximum de vraisemblance $\widehat{\theta}_n$ est défini par :
+\[ \widehat{\theta}_n \in \argmax_{\theta \in \Theta} \ell_n(\theta) \quad \text{où} \quad \ell_n(\theta) = \sum_{i=1}^n \log p_\theta(X_i) \]
+\end{mybox}
+
+\begin{proposition}[Méthode des Moments]
+Soit $m_k(\theta) = \E_\theta[X^k]$ le moment théorique d'ordre $k$. On définit le moment empirique par $\widehat{m}_k = \frac{1}{n} \sum_{i=1}^n X_i^k$. L'estimateur des moments $\widehat{\theta}_M$ est solution du système :
+\[ \forall k \in \{1, \dots, d\}, \quad m_k(\widehat{\theta}_M) = \widehat{m}_k \]
+\end{proposition}
+
+\section{Estimation de Densité Non-Paramétrique}
+
+On cherche à estimer une densité $f \in \mathcal{F}$ à partir de $X_1, \dots, X_n \sim f$.
+
+\subsection{Approche par Projection}
+Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$. On a $f = \sum_{k \in \mathbb{Z}} \alpha_k e_k$.
+
+\begin{mybox}{Définition : Estimateur par Projection}
+L'estimateur par projection tronqué à l'ordre $M$ est :
+\[ \widehat{f}_M(x) = \sum_{|k| \le M} \widehat{\alpha}_k e_k(x) \quad \text{où} \quad \widehat{\alpha}_k = \frac{1}{n} \sum_{i=1}^n e_k(X_i) \]
+\end{mybox}
+
+\begin{theorem}[Vitesse de convergence sur l'ellipsoïde de Sobolev]
+Soit $B(s, R) = \{ f \in \Ltwo : \sum_k |\alpha_k|^2 (1+|k|)^{2s} \le R^2 \}$. Pour $f \in B(s, R)$, le risque quadratique (MISE) vérifie :
+\[ \E \|\widehat{f}_M - f\|^2 \le \underbrace{\frac{R^2}{M^{2s}}}_{\text{Biais}^2} + \underbrace{\frac{2M+1}{n}}_{\text{Variance}} \]
+Le choix optimal $M \asymp n^{\frac{1}{2s+1}}$ conduit à une vitesse de convergence de $n^{-\frac{2s}{2s+1}}$.
+\end{theorem}
+
+\subsection{Approche par Noyau}
+
+\begin{mybox}{Définition : Estimateur de Parzen-Rosenblatt}
+Soit $K : \R \to \R$ une fonction d'intégrale 1 (noyau) et $h > 0$ la fenêtre. L'estimateur à noyau est :
+\[ \widehat{f}_{n,h}(x) = \frac{1}{nh} \sum_{i=1}^n K\left( \frac{x - X_i}{h} \right) \]
+\end{mybox}
+
+\begin{theorem}[Convergence en norme Hölderienne]
+Soit $f \in \Lambda(s, L)$ (Espace de Hölder) et $K$ un noyau d'ordre $k = \lfloor s \rfloor$. Alors :
+\[ \sup_{f \in \Lambda(s, L)} \E[|\widehat{f}_{n,h}(x) - f(x)|^2] \le C \left( h^{2s} + \frac{1}{nh} \right) \]
+L'équilibre est atteint pour $h^* \asymp n^{-\frac{1}{2s+1}}$.
+\end{theorem}
+
+\section{Théorie de la Régression}
+
+On observe $(X_i, Y_i) \in \mathcal{X} \times \R$ i.i.d. On cherche à minimiser le risque $R(f) = \E[(Y - f(X))^2]$.
+
+\begin{proposition}[Caractérisation de la solution Bayes]
+La fonction minimisant le risque quadratique sur l'ensemble des fonctions mesurables est la fonction de régression :
+\[ m(x) = \E[Y | X=x] \]
+\end{proposition}
+
+\subsection{Estimateur de Nadaraya-Watson}
+Il s'agit d'une version locale de la moyenne pondérée par un noyau $K$.
+
+\begin{mybox}{Théorème : Estimateur de Nadaraya-Watson}
+L'estimateur de la fonction de régression $m(x)$ est donné par :
+\[ \widehat{m}_n(x) = \frac{\sum_{i=1}^n Y_i K\left( \frac{x-X_i}{h} \right)}{\sum_{j=1}^n K\left( \frac{x-X_j}{h} \right)} \]
+\end{mybox}
+
+\subsection{Régularisation et Splines}
+Pour éviter l'overfitting dans un espace $\mathcal{F}$ de dimension infinie, on minimise le risque empirique pénalisé.
+
+\begin{definition}[Splines de lissage]
+La spline de lissage cubique est la solution de :
+\[ \widehat{f}_\lambda = \argmin_{f \in C^2([a,b])} \left\{ \frac{1}{n} \sum_{i=1}^n (Y_i - f(X_i))^2 + \lambda \int_a^b |f''(t)|^2 dt \right\} \]
+La solution est une spline cubique naturelle dont les nœuds sont les $X_i$.
+\end{definition}
+
+\section{Limites de l'Approximation Linéaire}
+
+On s'intéresse à la classe $\mathcal{F}_C = \{ f \mid \int_{\R^d} \|\bm{\omega}\|_1 |F(\bm{\omega})| d\bm{\omega} \le C \}$, où $F$ est la transformée de Fourier de $f$.
+
+\begin{mybox}{Théorème : Fléau de la dimension (Lower Bound)}
+Soit $w_N(\mathcal{F}_C)$ l'écart de Kolmogorov de dimension $N$. Il existe $\kappa > 0$ tel que :
+\[ \forall N \in \N^*, \forall d \in \N^*, \quad w_N(\mathcal{F}_C) \ge \kappa \frac{C}{d} N^{-1/d} \]
+\end{mybox}
+
+\begin{remark}
+Ce résultat montre que pour les méthodes linéaires (polynômes, séries trigonométriques), l'erreur d'approximation se dégrade exponentiellement avec la dimension $d$. C'est ce qui justifie l'usage de modèles non-linéaires comme les \textbf{réseaux de neurones}, qui permettent de briser ce fléau sous certaines conditions de régularité.
+\end{remark}
+
+\end{document}