\documentclass[11pt,a4paper]{article}

% --- Paquetages Fondamentaux ---
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[french]{babel}
\usepackage{amsmath, amssymb, amsthm, amsfonts, mathrsfs}
\usepackage{geometry}
\usepackage{xcolor}
\usepackage[most]{tcolorbox} % Pour les encadrés
\usepackage{bm}

\geometry{margin=2cm}

% --- Configuration des encadrés (tcolorbox) ---
\newtcolorbox{mybox}[1]{%
    colback=gray!5,
    colframe=black!75,
    fonttitle=\bfseries,
    title=#1,
    arc=0mm,
    boxrule=0.5pt
}

% --- Environnements Mathématiques ---
\newtheorem{theorem}{Théorème}[section]
\newtheorem{lemma}[theorem]{Lemme}
\newtheorem{proposition}[theorem]{Proposition}
\newtheorem{definition}[theorem]{Définition}
\newtheorem{remark}{Remarque}[section]

% --- Commandes Personnalisées ---
\newcommand{\E}{\mathbb{E}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\Prob}{\mathbb{P}}
\newcommand{\Var}{\mathbb{V}\text{ar}}
\newcommand{\ind}{\bm{1}}
\newcommand{\argmin}{\operatornamewithlimits{argmin}}
\newcommand{\argmax}{\operatornamewithlimits{argmax}}
\newcommand{\Ltwo}{L^2([0,1])}

\title{\textbf{Cours Magistral : Fondements de l'Apprentissage Statistique}}
\author{Synthèse de Théorie de l'Estimation et de l'Approximation}
\date{Mars 2026}

\begin{document}

\maketitle

\section{Cadre de l'Inférence Statistique}

Soit $(\mathcal{X}, \mathcal{A})$ un espace mesurable. On considère un échantillon $\mathcal{D}_n = \{X_1, \dots, X_n\}$ de variables aléatoires (v.a.) indépendantes et identiquement distribuées (i.i.d.) selon une loi de probabilité inconnue $P$.

\begin{definition}[Modèle Statistique]
Un modèle statistique est un triplet $(\mathcal{X}, \mathcal{A}, \mathcal{P})$ où $\mathcal{P} = \{P_\theta : \theta \in \Theta\}$ est une famille de lois de probabilité sur l'espace des observations.
\begin{itemize}
    \item Si $\Theta \subseteq \R^d$ avec $d < \infty$, le modèle est dit \textbf{paramétrique}.
    \item Si $\Theta$ est de dimension infinie (ex: espace de fonctions), le modèle est \textbf{non-paramétrique}.
\end{itemize}
\end{definition}

\section{Estimation Paramétrique}

On suppose ici que $P = P_\theta$ pour un certain $\theta \in \Theta \subseteq \R^d$.

\begin{mybox}{Définition : Estimateur du Maximum de Vraisemblance (EMV)}
Soit $L_n(\theta ; X_1, \dots, X_n) = \prod_{i=1}^n p_\theta(X_i)$ la fonction de vraisemblance. L'estimateur du maximum de vraisemblance $\widehat{\theta}_n$ est défini par :
\[ \widehat{\theta}_n \in \argmax_{\theta \in \Theta} \ell_n(\theta) \quad \text{où} \quad \ell_n(\theta) = \sum_{i=1}^n \log p_\theta(X_i) \]
\end{mybox}

\begin{proposition}[Méthode des Moments]
Soit $m_k(\theta) = \E_\theta[X^k]$ le moment théorique d'ordre $k$. On définit le moment empirique par $\widehat{m}_k = \frac{1}{n} \sum_{i=1}^n X_i^k$. L'estimateur des moments $\widehat{\theta}_M$ est solution du système :
\[ \forall k \in \{1, \dots, d\}, \quad m_k(\widehat{\theta}_M) = \widehat{m}_k \]
\end{proposition}

\section{Estimation de Densité Non-Paramétrique}

On cherche à estimer une densité $f \in \mathcal{F}$ à partir de $X_1, \dots, X_n \sim f$.

\subsection{Approche par Projection}
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$. On a $f = \sum_{k \in \mathbb{Z}} \alpha_k e_k$.

\begin{mybox}{Définition : Estimateur par Projection}
L'estimateur par projection tronqué à l'ordre $M$ est :
\[ \widehat{f}_M(x) = \sum_{|k| \le M} \widehat{\alpha}_k e_k(x) \quad \text{où} \quad \widehat{\alpha}_k = \frac{1}{n} \sum_{i=1}^n e_k(X_i) \]
\end{mybox}

\begin{theorem}[Vitesse de convergence sur l'ellipsoïde de Sobolev]
Soit $B(s, R) = \{ f \in \Ltwo : \sum_k |\alpha_k|^2 (1+|k|)^{2s} \le R^2 \}$. Pour $f \in B(s, R)$, le risque quadratique (MISE) vérifie :
\[ \E \|\widehat{f}_M - f\|^2 \le \underbrace{\frac{R^2}{M^{2s}}}_{\text{Biais}^2} + \underbrace{\frac{2M+1}{n}}_{\text{Variance}} \]
Le choix optimal $M \asymp n^{\frac{1}{2s+1}}$ conduit à une vitesse de convergence de $n^{-\frac{2s}{2s+1}}$.
\end{theorem}

\subsection{Approche par Noyau}

\begin{mybox}{Définition : Estimateur de Parzen-Rosenblatt}
Soit $K : \R \to \R$ une fonction d'intégrale 1 (noyau) et $h > 0$ la fenêtre. L'estimateur à noyau est :
\[ \widehat{f}_{n,h}(x) = \frac{1}{nh} \sum_{i=1}^n K\left( \frac{x - X_i}{h} \right) \]
\end{mybox}

\begin{theorem}[Convergence en norme Hölderienne]
Soit $f \in \Lambda(s, L)$ (Espace de Hölder) et $K$ un noyau d'ordre $k = \lfloor s \rfloor$. Alors :
\[ \sup_{f \in \Lambda(s, L)} \E[|\widehat{f}_{n,h}(x) - f(x)|^2] \le C \left( h^{2s} + \frac{1}{nh} \right) \]
L'équilibre est atteint pour $h^* \asymp n^{-\frac{1}{2s+1}}$.
\end{theorem}

\section{Théorie de la Régression}

On observe $(X_i, Y_i) \in \mathcal{X} \times \R$ i.i.d. On cherche à minimiser le risque $R(f) = \E[(Y - f(X))^2]$.

\begin{proposition}[Caractérisation de la solution Bayes]
La fonction minimisant le risque quadratique sur l'ensemble des fonctions mesurables est la fonction de régression :
\[ m(x) = \E[Y | X=x] \]
\end{proposition}

\subsection{Estimateur de Nadaraya-Watson}
Il s'agit d'une version locale de la moyenne pondérée par un noyau $K$.

\begin{mybox}{Théorème : Estimateur de Nadaraya-Watson}
L'estimateur de la fonction de régression $m(x)$ est donné par :
\[ \widehat{m}_n(x) = \frac{\sum_{i=1}^n Y_i K\left( \frac{x-X_i}{h} \right)}{\sum_{j=1}^n K\left( \frac{x-X_j}{h} \right)} \]
\end{mybox}

\subsection{Régularisation et Splines}
Pour éviter l'overfitting dans un espace $\mathcal{F}$ de dimension infinie, on minimise le risque empirique pénalisé.

\begin{definition}[Splines de lissage]
La spline de lissage cubique est la solution de :
\[ \widehat{f}_\lambda = \argmin_{f \in C^2([a,b])} \left\{ \frac{1}{n} \sum_{i=1}^n (Y_i - f(X_i))^2 + \lambda \int_a^b |f''(t)|^2 dt \right\} \]
La solution est une spline cubique naturelle dont les nœuds sont les $X_i$.
\end{definition}

\section{Limites de l'Approximation Linéaire}

On s'intéresse à la classe $\mathcal{F}_C = \{ f \mid \int_{\R^d} \|\bm{\omega}\|_1 |F(\bm{\omega})| d\bm{\omega} \le C \}$, où $F$ est la transformée de Fourier de $f$.

\begin{mybox}{Théorème : Fléau de la dimension (Lower Bound)}
Soit $w_N(\mathcal{F}_C)$ l'écart de Kolmogorov de dimension $N$. Il existe $\kappa > 0$ tel que :
\[ \forall N \in \N^*, \forall d \in \N^*, \quad w_N(\mathcal{F}_C) \ge \kappa \frac{C}{d} N^{-1/d} \]
\end{mybox}

\begin{remark}
Ce résultat montre que pour les méthodes linéaires (polynômes, séries trigonométriques), l'erreur d'approximation se dégrade exponentiellement avec la dimension $d$. C'est ce qui justifie l'usage de modèles non-linéaires comme les \textbf{réseaux de neurones}, qui permettent de briser ce fléau sous certaines conditions de régularité.
\end{remark}

\end{document}