diff --git a/main.pdf b/main.pdf new file mode 100644 index 0000000..8ed01a2 Binary files /dev/null and b/main.pdf differ diff --git a/main.tex b/main.tex new file mode 100644 index 0000000..6cbb71a --- /dev/null +++ b/main.tex @@ -0,0 +1,147 @@ +\documentclass[11pt,a4paper]{article} + +% --- Paquetages Fondamentaux --- +\usepackage[utf8]{inputenc} +\usepackage[T1]{fontenc} +\usepackage[french]{babel} +\usepackage{amsmath, amssymb, amsthm, amsfonts, mathrsfs} +\usepackage{geometry} +\usepackage{xcolor} +\usepackage[most]{tcolorbox} % Pour les encadrés +\usepackage{bm} + +\geometry{margin=2cm} + +% --- Configuration des encadrés (tcolorbox) --- +\newtcolorbox{mybox}[1]{% + colback=gray!5, + colframe=black!75, + fonttitle=\bfseries, + title=#1, + arc=0mm, + boxrule=0.5pt +} + +% --- Environnements Mathématiques --- +\newtheorem{theorem}{Théorème}[section] +\newtheorem{lemma}[theorem]{Lemme} +\newtheorem{proposition}[theorem]{Proposition} +\newtheorem{definition}[theorem]{Définition} +\newtheorem{remark}{Remarque}[section] + +% --- Commandes Personnalisées --- +\newcommand{\E}{\mathbb{E}} +\newcommand{\R}{\mathbb{R}} +\newcommand{\N}{\mathbb{N}} +\newcommand{\Prob}{\mathbb{P}} +\newcommand{\Var}{\mathbb{V}\text{ar}} +\newcommand{\ind}{\bm{1}} +\newcommand{\argmin}{\operatornamewithlimits{argmin}} +\newcommand{\argmax}{\operatornamewithlimits{argmax}} +\newcommand{\Ltwo}{L^2([0,1])} + +\title{\textbf{Cours Magistral : Fondements de l'Apprentissage Statistique}} +\author{Synthèse de Théorie de l'Estimation et de l'Approximation} +\date{Mars 2026} + +\begin{document} + +\maketitle + +\section{Cadre de l'Inférence Statistique} + +Soit $(\mathcal{X}, \mathcal{A})$ un espace mesurable. On considère un échantillon $\mathcal{D}_n = \{X_1, \dots, X_n\}$ de variables aléatoires (v.a.) indépendantes et identiquement distribuées (i.i.d.) selon une loi de probabilité inconnue $P$. + +\begin{definition}[Modèle Statistique] +Un modèle statistique est un triplet $(\mathcal{X}, \mathcal{A}, \mathcal{P})$ où $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$ est une famille de lois de probabilité sur l'espace des observations. +\begin{itemize} + \item Si $\Theta \subseteq \R^d$ avec $d < \infty$, le modèle est dit \textbf{paramétrique}. + \item Si $\Theta$ est de dimension infinie (ex: espace de fonctions), le modèle est \textbf{non-paramétrique}. +\end{itemize} +\end{definition} + +\section{Estimation Paramétrique} + +On suppose ici que $P = P_\theta$ pour un certain $\theta \in \Theta \subseteq \R^d$. + +\begin{mybox}{Définition : Estimateur du Maximum de Vraisemblance (EMV)} +Soit $L_n(\theta ; X_1, \dots, X_n) = \prod_{i=1}^n p_\theta(X_i)$ la fonction de vraisemblance. L'estimateur du maximum de vraisemblance $\widehat{\theta}_n$ est défini par : +\[ \widehat{\theta}_n \in \argmax_{\theta \in \Theta} \ell_n(\theta) \quad \text{où} \quad \ell_n(\theta) = \sum_{i=1}^n \log p_\theta(X_i) \] +\end{mybox} + +\begin{proposition}[Méthode des Moments] +Soit $m_k(\theta) = \E_\theta[X^k]$ le moment théorique d'ordre $k$. On définit le moment empirique par $\widehat{m}_k = \frac{1}{n} \sum_{i=1}^n X_i^k$. L'estimateur des moments $\widehat{\theta}_M$ est solution du système : +\[ \forall k \in \{1, \dots, d\}, \quad m_k(\widehat{\theta}_M) = \widehat{m}_k \] +\end{proposition} + +\section{Estimation de Densité Non-Paramétrique} + +On cherche à estimer une densité $f \in \mathcal{F}$ à partir de $X_1, \dots, X_n \sim f$. + +\subsection{Approche par Projection} +Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$. On a $f = \sum_{k \in \mathbb{Z}} \alpha_k e_k$. + +\begin{mybox}{Définition : Estimateur par Projection} +L'estimateur par projection tronqué à l'ordre $M$ est : +\[ \widehat{f}_M(x) = \sum_{|k| \le M} \widehat{\alpha}_k e_k(x) \quad \text{où} \quad \widehat{\alpha}_k = \frac{1}{n} \sum_{i=1}^n e_k(X_i) \] +\end{mybox} + +\begin{theorem}[Vitesse de convergence sur l'ellipsoïde de Sobolev] +Soit $B(s, R) = \{ f \in \Ltwo : \sum_k |\alpha_k|^2 (1+|k|)^{2s} \le R^2 \}$. Pour $f \in B(s, R)$, le risque quadratique (MISE) vérifie : +\[ \E \|\widehat{f}_M - f\|^2 \le \underbrace{\frac{R^2}{M^{2s}}}_{\text{Biais}^2} + \underbrace{\frac{2M+1}{n}}_{\text{Variance}} \] +Le choix optimal $M \asymp n^{\frac{1}{2s+1}}$ conduit à une vitesse de convergence de $n^{-\frac{2s}{2s+1}}$. +\end{theorem} + +\subsection{Approche par Noyau} + +\begin{mybox}{Définition : Estimateur de Parzen-Rosenblatt} +Soit $K : \R \to \R$ une fonction d'intégrale 1 (noyau) et $h > 0$ la fenêtre. L'estimateur à noyau est : +\[ \widehat{f}_{n,h}(x) = \frac{1}{nh} \sum_{i=1}^n K\left( \frac{x - X_i}{h} \right) \] +\end{mybox} + +\begin{theorem}[Convergence en norme Hölderienne] +Soit $f \in \Lambda(s, L)$ (Espace de Hölder) et $K$ un noyau d'ordre $k = \lfloor s \rfloor$. Alors : +\[ \sup_{f \in \Lambda(s, L)} \E[|\widehat{f}_{n,h}(x) - f(x)|^2] \le C \left( h^{2s} + \frac{1}{nh} \right) \] +L'équilibre est atteint pour $h^* \asymp n^{-\frac{1}{2s+1}}$. +\end{theorem} + +\section{Théorie de la Régression} + +On observe $(X_i, Y_i) \in \mathcal{X} \times \R$ i.i.d. On cherche à minimiser le risque $R(f) = \E[(Y - f(X))^2]$. + +\begin{proposition}[Caractérisation de la solution Bayes] +La fonction minimisant le risque quadratique sur l'ensemble des fonctions mesurables est la fonction de régression : +\[ m(x) = \E[Y | X=x] \] +\end{proposition} + +\subsection{Estimateur de Nadaraya-Watson} +Il s'agit d'une version locale de la moyenne pondérée par un noyau $K$. + +\begin{mybox}{Théorème : Estimateur de Nadaraya-Watson} +L'estimateur de la fonction de régression $m(x)$ est donné par : +\[ \widehat{m}_n(x) = \frac{\sum_{i=1}^n Y_i K\left( \frac{x-X_i}{h} \right)}{\sum_{j=1}^n K\left( \frac{x-X_j}{h} \right)} \] +\end{mybox} + +\subsection{Régularisation et Splines} +Pour éviter l'overfitting dans un espace $\mathcal{F}$ de dimension infinie, on minimise le risque empirique pénalisé. + +\begin{definition}[Splines de lissage] +La spline de lissage cubique est la solution de : +\[ \widehat{f}_\lambda = \argmin_{f \in C^2([a,b])} \left\{ \frac{1}{n} \sum_{i=1}^n (Y_i - f(X_i))^2 + \lambda \int_a^b |f''(t)|^2 dt \right\} \] +La solution est une spline cubique naturelle dont les nœuds sont les $X_i$. +\end{definition} + +\section{Limites de l'Approximation Linéaire} + +On s'intéresse à la classe $\mathcal{F}_C = \{ f \mid \int_{\R^d} \|\bm{\omega}\|_1 |F(\bm{\omega})| d\bm{\omega} \le C \}$, où $F$ est la transformée de Fourier de $f$. + +\begin{mybox}{Théorème : Fléau de la dimension (Lower Bound)} +Soit $w_N(\mathcal{F}_C)$ l'écart de Kolmogorov de dimension $N$. Il existe $\kappa > 0$ tel que : +\[ \forall N \in \N^*, \forall d \in \N^*, \quad w_N(\mathcal{F}_C) \ge \kappa \frac{C}{d} N^{-1/d} \] +\end{mybox} + +\begin{remark} +Ce résultat montre que pour les méthodes linéaires (polynômes, séries trigonométriques), l'erreur d'approximation se dégrade exponentiellement avec la dimension $d$. C'est ce qui justifie l'usage de modèles non-linéaires comme les \textbf{réseaux de neurones}, qui permettent de briser ce fléau sous certaines conditions de régularité. +\end{remark} + +\end{document} \ No newline at end of file