\documentclass[11pt,a4paper]{article} % --- Paquetages Fondamentaux --- \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage[french]{babel} \usepackage{amsmath, amssymb, amsthm, amsfonts, mathrsfs} \usepackage{geometry} \usepackage{xcolor} \usepackage[most]{tcolorbox} % Pour les encadrés \usepackage{bm} \geometry{margin=2cm} % --- Configuration des encadrés (tcolorbox) --- \newtcolorbox{mybox}[1]{% colback=gray!5, colframe=black!75, fonttitle=\bfseries, title=#1, arc=0mm, boxrule=0.5pt } % --- Environnements Mathématiques --- \newtheorem{theorem}{Théorème}[section] \newtheorem{lemma}[theorem]{Lemme} \newtheorem{proposition}[theorem]{Proposition} \newtheorem{definition}[theorem]{Définition} \newtheorem{remark}{Remarque}[section] % --- Commandes Personnalisées --- \newcommand{\E}{\mathbb{E}} \newcommand{\R}{\mathbb{R}} \newcommand{\N}{\mathbb{N}} \newcommand{\Prob}{\mathbb{P}} \newcommand{\Var}{\mathbb{V}\text{ar}} \newcommand{\ind}{\bm{1}} \newcommand{\argmin}{\operatornamewithlimits{argmin}} \newcommand{\argmax}{\operatornamewithlimits{argmax}} \newcommand{\Ltwo}{L^2([0,1])} \title{\textbf{Cours Magistral : Fondements de l'Apprentissage Statistique}} \author{Synthèse de Théorie de l'Estimation et de l'Approximation} \date{Mars 2026} \begin{document} \maketitle \section{Cadre de l'Inférence Statistique} Soit $(\mathcal{X}, \mathcal{A})$ un espace mesurable. On considère un échantillon $\mathcal{D}_n = \{X_1, \dots, X_n\}$ de variables aléatoires (v.a.) indépendantes et identiquement distribuées (i.i.d.) selon une loi de probabilité inconnue $P$. \begin{definition}[Modèle Statistique] Un modèle statistique est un triplet $(\mathcal{X}, \mathcal{A}, \mathcal{P})$ où $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$ est une famille de lois de probabilité sur l'espace des observations. \begin{itemize} \item Si $\Theta \subseteq \R^d$ avec $d < \infty$, le modèle est dit \textbf{paramétrique}. \item Si $\Theta$ est de dimension infinie (ex: espace de fonctions), le modèle est \textbf{non-paramétrique}. \end{itemize} \end{definition} \section{Estimation Paramétrique} On suppose ici que $P = P_\theta$ pour un certain $\theta \in \Theta \subseteq \R^d$. \begin{mybox}{Définition : Estimateur du Maximum de Vraisemblance (EMV)} Soit $L_n(\theta ; X_1, \dots, X_n) = \prod_{i=1}^n p_\theta(X_i)$ la fonction de vraisemblance. L'estimateur du maximum de vraisemblance $\widehat{\theta}_n$ est défini par : \[ \widehat{\theta}_n \in \argmax_{\theta \in \Theta} \ell_n(\theta) \quad \text{où} \quad \ell_n(\theta) = \sum_{i=1}^n \log p_\theta(X_i) \] \end{mybox} \begin{proposition}[Méthode des Moments] Soit $m_k(\theta) = \E_\theta[X^k]$ le moment théorique d'ordre $k$. On définit le moment empirique par $\widehat{m}_k = \frac{1}{n} \sum_{i=1}^n X_i^k$. L'estimateur des moments $\widehat{\theta}_M$ est solution du système : \[ \forall k \in \{1, \dots, d\}, \quad m_k(\widehat{\theta}_M) = \widehat{m}_k \] \end{proposition} \section{Estimation de Densité Non-Paramétrique} On cherche à estimer une densité $f \in \mathcal{F}$ à partir de $X_1, \dots, X_n \sim f$. \subsection{Approche par Projection} Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$. On a $f = \sum_{k \in \mathbb{Z}} \alpha_k e_k$. \begin{mybox}{Définition : Estimateur par Projection} L'estimateur par projection tronqué à l'ordre $M$ est : \[ \widehat{f}_M(x) = \sum_{|k| \le M} \widehat{\alpha}_k e_k(x) \quad \text{où} \quad \widehat{\alpha}_k = \frac{1}{n} \sum_{i=1}^n e_k(X_i) \] \end{mybox} \begin{theorem}[Vitesse de convergence sur l'ellipsoïde de Sobolev] Soit $B(s, R) = \{ f \in \Ltwo : \sum_k |\alpha_k|^2 (1+|k|)^{2s} \le R^2 \}$. Pour $f \in B(s, R)$, le risque quadratique (MISE) vérifie : \[ \E \|\widehat{f}_M - f\|^2 \le \underbrace{\frac{R^2}{M^{2s}}}_{\text{Biais}^2} + \underbrace{\frac{2M+1}{n}}_{\text{Variance}} \] Le choix optimal $M \asymp n^{\frac{1}{2s+1}}$ conduit à une vitesse de convergence de $n^{-\frac{2s}{2s+1}}$. \end{theorem} \subsection{Approche par Noyau} \begin{mybox}{Définition : Estimateur de Parzen-Rosenblatt} Soit $K : \R \to \R$ une fonction d'intégrale 1 (noyau) et $h > 0$ la fenêtre. L'estimateur à noyau est : \[ \widehat{f}_{n,h}(x) = \frac{1}{nh} \sum_{i=1}^n K\left( \frac{x - X_i}{h} \right) \] \end{mybox} \begin{theorem}[Convergence en norme Hölderienne] Soit $f \in \Lambda(s, L)$ (Espace de Hölder) et $K$ un noyau d'ordre $k = \lfloor s \rfloor$. Alors : \[ \sup_{f \in \Lambda(s, L)} \E[|\widehat{f}_{n,h}(x) - f(x)|^2] \le C \left( h^{2s} + \frac{1}{nh} \right) \] L'équilibre est atteint pour $h^* \asymp n^{-\frac{1}{2s+1}}$. \end{theorem} \section{Théorie de la Régression} On observe $(X_i, Y_i) \in \mathcal{X} \times \R$ i.i.d. On cherche à minimiser le risque $R(f) = \E[(Y - f(X))^2]$. \begin{proposition}[Caractérisation de la solution Bayes] La fonction minimisant le risque quadratique sur l'ensemble des fonctions mesurables est la fonction de régression : \[ m(x) = \E[Y | X=x] \] \end{proposition} \subsection{Estimateur de Nadaraya-Watson} Il s'agit d'une version locale de la moyenne pondérée par un noyau $K$. \begin{mybox}{Théorème : Estimateur de Nadaraya-Watson} L'estimateur de la fonction de régression $m(x)$ est donné par : \[ \widehat{m}_n(x) = \frac{\sum_{i=1}^n Y_i K\left( \frac{x-X_i}{h} \right)}{\sum_{j=1}^n K\left( \frac{x-X_j}{h} \right)} \] \end{mybox} \subsection{Régularisation et Splines} Pour éviter l'overfitting dans un espace $\mathcal{F}$ de dimension infinie, on minimise le risque empirique pénalisé. \begin{definition}[Splines de lissage] La spline de lissage cubique est la solution de : \[ \widehat{f}_\lambda = \argmin_{f \in C^2([a,b])} \left\{ \frac{1}{n} \sum_{i=1}^n (Y_i - f(X_i))^2 + \lambda \int_a^b |f''(t)|^2 dt \right\} \] La solution est une spline cubique naturelle dont les nœuds sont les $X_i$. \end{definition} \section{Limites de l'Approximation Linéaire} On s'intéresse à la classe $\mathcal{F}_C = \{ f \mid \int_{\R^d} \|\bm{\omega}\|_1 |F(\bm{\omega})| d\bm{\omega} \le C \}$, où $F$ est la transformée de Fourier de $f$. \begin{mybox}{Théorème : Fléau de la dimension (Lower Bound)} Soit $w_N(\mathcal{F}_C)$ l'écart de Kolmogorov de dimension $N$. Il existe $\kappa > 0$ tel que : \[ \forall N \in \N^*, \forall d \in \N^*, \quad w_N(\mathcal{F}_C) \ge \kappa \frac{C}{d} N^{-1/d} \] \end{mybox} \begin{remark} Ce résultat montre que pour les méthodes linéaires (polynômes, séries trigonométriques), l'erreur d'approximation se dégrade exponentiellement avec la dimension $d$. C'est ce qui justifie l'usage de modèles non-linéaires comme les \textbf{réseaux de neurones}, qui permettent de briser ce fléau sous certaines conditions de régularité. \end{remark} \end{document}