Add main LaTeX document for statistical learning course
This commit is contained in:
parent
25e99f99e8
commit
9deb08ebba
2 changed files with 147 additions and 0 deletions
BIN
main.pdf
Normal file
BIN
main.pdf
Normal file
Binary file not shown.
147
main.tex
Normal file
147
main.tex
Normal file
|
|
@ -0,0 +1,147 @@
|
|||
\documentclass[11pt,a4paper]{article}
|
||||
|
||||
% --- Paquetages Fondamentaux ---
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[T1]{fontenc}
|
||||
\usepackage[french]{babel}
|
||||
\usepackage{amsmath, amssymb, amsthm, amsfonts, mathrsfs}
|
||||
\usepackage{geometry}
|
||||
\usepackage{xcolor}
|
||||
\usepackage[most]{tcolorbox} % Pour les encadrés
|
||||
\usepackage{bm}
|
||||
|
||||
\geometry{margin=2cm}
|
||||
|
||||
% --- Configuration des encadrés (tcolorbox) ---
|
||||
\newtcolorbox{mybox}[1]{%
|
||||
colback=gray!5,
|
||||
colframe=black!75,
|
||||
fonttitle=\bfseries,
|
||||
title=#1,
|
||||
arc=0mm,
|
||||
boxrule=0.5pt
|
||||
}
|
||||
|
||||
% --- Environnements Mathématiques ---
|
||||
\newtheorem{theorem}{Théorème}[section]
|
||||
\newtheorem{lemma}[theorem]{Lemme}
|
||||
\newtheorem{proposition}[theorem]{Proposition}
|
||||
\newtheorem{definition}[theorem]{Définition}
|
||||
\newtheorem{remark}{Remarque}[section]
|
||||
|
||||
% --- Commandes Personnalisées ---
|
||||
\newcommand{\E}{\mathbb{E}}
|
||||
\newcommand{\R}{\mathbb{R}}
|
||||
\newcommand{\N}{\mathbb{N}}
|
||||
\newcommand{\Prob}{\mathbb{P}}
|
||||
\newcommand{\Var}{\mathbb{V}\text{ar}}
|
||||
\newcommand{\ind}{\bm{1}}
|
||||
\newcommand{\argmin}{\operatornamewithlimits{argmin}}
|
||||
\newcommand{\argmax}{\operatornamewithlimits{argmax}}
|
||||
\newcommand{\Ltwo}{L^2([0,1])}
|
||||
|
||||
\title{\textbf{Cours Magistral : Fondements de l'Apprentissage Statistique}}
|
||||
\author{Synthèse de Théorie de l'Estimation et de l'Approximation}
|
||||
\date{Mars 2026}
|
||||
|
||||
\begin{document}
|
||||
|
||||
\maketitle
|
||||
|
||||
\section{Cadre de l'Inférence Statistique}
|
||||
|
||||
Soit $(\mathcal{X}, \mathcal{A})$ un espace mesurable. On considère un échantillon $\mathcal{D}_n = \{X_1, \dots, X_n\}$ de variables aléatoires (v.a.) indépendantes et identiquement distribuées (i.i.d.) selon une loi de probabilité inconnue $P$.
|
||||
|
||||
\begin{definition}[Modèle Statistique]
|
||||
Un modèle statistique est un triplet $(\mathcal{X}, \mathcal{A}, \mathcal{P})$ où $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$ est une famille de lois de probabilité sur l'espace des observations.
|
||||
\begin{itemize}
|
||||
\item Si $\Theta \subseteq \R^d$ avec $d < \infty$, le modèle est dit \textbf{paramétrique}.
|
||||
\item Si $\Theta$ est de dimension infinie (ex: espace de fonctions), le modèle est \textbf{non-paramétrique}.
|
||||
\end{itemize}
|
||||
\end{definition}
|
||||
|
||||
\section{Estimation Paramétrique}
|
||||
|
||||
On suppose ici que $P = P_\theta$ pour un certain $\theta \in \Theta \subseteq \R^d$.
|
||||
|
||||
\begin{mybox}{Définition : Estimateur du Maximum de Vraisemblance (EMV)}
|
||||
Soit $L_n(\theta ; X_1, \dots, X_n) = \prod_{i=1}^n p_\theta(X_i)$ la fonction de vraisemblance. L'estimateur du maximum de vraisemblance $\widehat{\theta}_n$ est défini par :
|
||||
\[ \widehat{\theta}_n \in \argmax_{\theta \in \Theta} \ell_n(\theta) \quad \text{où} \quad \ell_n(\theta) = \sum_{i=1}^n \log p_\theta(X_i) \]
|
||||
\end{mybox}
|
||||
|
||||
\begin{proposition}[Méthode des Moments]
|
||||
Soit $m_k(\theta) = \E_\theta[X^k]$ le moment théorique d'ordre $k$. On définit le moment empirique par $\widehat{m}_k = \frac{1}{n} \sum_{i=1}^n X_i^k$. L'estimateur des moments $\widehat{\theta}_M$ est solution du système :
|
||||
\[ \forall k \in \{1, \dots, d\}, \quad m_k(\widehat{\theta}_M) = \widehat{m}_k \]
|
||||
\end{proposition}
|
||||
|
||||
\section{Estimation de Densité Non-Paramétrique}
|
||||
|
||||
On cherche à estimer une densité $f \in \mathcal{F}$ à partir de $X_1, \dots, X_n \sim f$.
|
||||
|
||||
\subsection{Approche par Projection}
|
||||
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$. On a $f = \sum_{k \in \mathbb{Z}} \alpha_k e_k$.
|
||||
|
||||
\begin{mybox}{Définition : Estimateur par Projection}
|
||||
L'estimateur par projection tronqué à l'ordre $M$ est :
|
||||
\[ \widehat{f}_M(x) = \sum_{|k| \le M} \widehat{\alpha}_k e_k(x) \quad \text{où} \quad \widehat{\alpha}_k = \frac{1}{n} \sum_{i=1}^n e_k(X_i) \]
|
||||
\end{mybox}
|
||||
|
||||
\begin{theorem}[Vitesse de convergence sur l'ellipsoïde de Sobolev]
|
||||
Soit $B(s, R) = \{ f \in \Ltwo : \sum_k |\alpha_k|^2 (1+|k|)^{2s} \le R^2 \}$. Pour $f \in B(s, R)$, le risque quadratique (MISE) vérifie :
|
||||
\[ \E \|\widehat{f}_M - f\|^2 \le \underbrace{\frac{R^2}{M^{2s}}}_{\text{Biais}^2} + \underbrace{\frac{2M+1}{n}}_{\text{Variance}} \]
|
||||
Le choix optimal $M \asymp n^{\frac{1}{2s+1}}$ conduit à une vitesse de convergence de $n^{-\frac{2s}{2s+1}}$.
|
||||
\end{theorem}
|
||||
|
||||
\subsection{Approche par Noyau}
|
||||
|
||||
\begin{mybox}{Définition : Estimateur de Parzen-Rosenblatt}
|
||||
Soit $K : \R \to \R$ une fonction d'intégrale 1 (noyau) et $h > 0$ la fenêtre. L'estimateur à noyau est :
|
||||
\[ \widehat{f}_{n,h}(x) = \frac{1}{nh} \sum_{i=1}^n K\left( \frac{x - X_i}{h} \right) \]
|
||||
\end{mybox}
|
||||
|
||||
\begin{theorem}[Convergence en norme Hölderienne]
|
||||
Soit $f \in \Lambda(s, L)$ (Espace de Hölder) et $K$ un noyau d'ordre $k = \lfloor s \rfloor$. Alors :
|
||||
\[ \sup_{f \in \Lambda(s, L)} \E[|\widehat{f}_{n,h}(x) - f(x)|^2] \le C \left( h^{2s} + \frac{1}{nh} \right) \]
|
||||
L'équilibre est atteint pour $h^* \asymp n^{-\frac{1}{2s+1}}$.
|
||||
\end{theorem}
|
||||
|
||||
\section{Théorie de la Régression}
|
||||
|
||||
On observe $(X_i, Y_i) \in \mathcal{X} \times \R$ i.i.d. On cherche à minimiser le risque $R(f) = \E[(Y - f(X))^2]$.
|
||||
|
||||
\begin{proposition}[Caractérisation de la solution Bayes]
|
||||
La fonction minimisant le risque quadratique sur l'ensemble des fonctions mesurables est la fonction de régression :
|
||||
\[ m(x) = \E[Y | X=x] \]
|
||||
\end{proposition}
|
||||
|
||||
\subsection{Estimateur de Nadaraya-Watson}
|
||||
Il s'agit d'une version locale de la moyenne pondérée par un noyau $K$.
|
||||
|
||||
\begin{mybox}{Théorème : Estimateur de Nadaraya-Watson}
|
||||
L'estimateur de la fonction de régression $m(x)$ est donné par :
|
||||
\[ \widehat{m}_n(x) = \frac{\sum_{i=1}^n Y_i K\left( \frac{x-X_i}{h} \right)}{\sum_{j=1}^n K\left( \frac{x-X_j}{h} \right)} \]
|
||||
\end{mybox}
|
||||
|
||||
\subsection{Régularisation et Splines}
|
||||
Pour éviter l'overfitting dans un espace $\mathcal{F}$ de dimension infinie, on minimise le risque empirique pénalisé.
|
||||
|
||||
\begin{definition}[Splines de lissage]
|
||||
La spline de lissage cubique est la solution de :
|
||||
\[ \widehat{f}_\lambda = \argmin_{f \in C^2([a,b])} \left\{ \frac{1}{n} \sum_{i=1}^n (Y_i - f(X_i))^2 + \lambda \int_a^b |f''(t)|^2 dt \right\} \]
|
||||
La solution est une spline cubique naturelle dont les nœuds sont les $X_i$.
|
||||
\end{definition}
|
||||
|
||||
\section{Limites de l'Approximation Linéaire}
|
||||
|
||||
On s'intéresse à la classe $\mathcal{F}_C = \{ f \mid \int_{\R^d} \|\bm{\omega}\|_1 |F(\bm{\omega})| d\bm{\omega} \le C \}$, où $F$ est la transformée de Fourier de $f$.
|
||||
|
||||
\begin{mybox}{Théorème : Fléau de la dimension (Lower Bound)}
|
||||
Soit $w_N(\mathcal{F}_C)$ l'écart de Kolmogorov de dimension $N$. Il existe $\kappa > 0$ tel que :
|
||||
\[ \forall N \in \N^*, \forall d \in \N^*, \quad w_N(\mathcal{F}_C) \ge \kappa \frac{C}{d} N^{-1/d} \]
|
||||
\end{mybox}
|
||||
|
||||
\begin{remark}
|
||||
Ce résultat montre que pour les méthodes linéaires (polynômes, séries trigonométriques), l'erreur d'approximation se dégrade exponentiellement avec la dimension $d$. C'est ce qui justifie l'usage de modèles non-linéaires comme les \textbf{réseaux de neurones}, qui permettent de briser ce fléau sous certaines conditions de régularité.
|
||||
\end{remark}
|
||||
|
||||
\end{document}
|
||||
Loading…
Add table
Reference in a new issue