APM_4AI09/ch1.tex

\documentclass[12pt,a4paper]{article}
\usepackage[utf8]{inputenc}
\usepackage[french]{babel}
\usepackage[T1]{fontenc}
\usepackage{amsmath, amssymb, amsthm}
\usepackage{geometry}
\geometry{margin=2.5cm}

% --- Environnements de théorèmes ---
\newtheorem{definition}{Définition}[section]
\newtheorem{theorem}{Théorème}[section]
\newtheorem{remark}{Remarque}[section]
\newtheorem{example}{Exemple}[section]
\newtheorem{proposition}{Proposition}[section]

% --- Commandes personnalisées ---
\newcommand{\E}{\mathbb{E}}
\renewcommand{\P}{\mathbb{P}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\Ltwo}{L^2([0,1])}
\newcommand{\ind}{\mathbb{1}}

\title{Cours de Statistique : Estimation de Densité Non-Paramétrique}
\author{Note de cours réorganisée}
\date{Mars 2026}

\begin{document}

\maketitle

\section{Introduction et Motivation}

L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ indépendantes et identiquement distribuées (i.i.d.) selon $f$.

\begin{definition}[Densité de probabilité]
Une fonction $f : \R \to \R$ est une densité de probabilité si elle vérifie :
\begin{enumerate}
    \item $f(x) \geq 0$ pour presque tout $x$.
    \item $f \in L^1(\R)$ et $\int_{\R} f(x) dx = 1$.
\end{enumerate}
\end{definition}

\begin{remark}
La valeur ponctuelle $f(x_0)$ n'est pas informative par elle-même car la mesure de Lebesgue d'un singleton $\{x_0\}$ est nulle. Pour estimer $f$, nous devons imposer une \textbf{contrainte de régularité} (smoothness). On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.
\end{remark}

\section{L'approche "Naïve" : L'estimateur par intervalle}

Considérons une réalisation i.i.d. $x_1, \dots, x_N$ d'une loi de densité $f$. Pour un point $x$ donné et un petit paramètre $h > 0$, la probabilité que $X$ appartienne à l'intervalle $[x-h, x+h]$ est :
\[ \P(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u) du \]

Si $f$ est continue en $x$ et $h$ est petit, alors $\int_{x-h}^{x+h} f(u) du \approx 2h f(x)$. On peut estimer cette probabilité par la proportion empirique de données tombant dans cet intervalle :
\[ \hat{p} = \frac{1}{N} \sum_{n=1}^N \ind_{[x-h, x+h]}(x_n) \]

D'où l'estimateur "naïf" de la densité :
\[ \hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \ind_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\left(\frac{x-x_n}{h}\right) \]
où $K(u) = \frac{1}{2}\ind_{[-1, 1]}(u)$ est appelé le \textbf{noyau rectangulaire}.

\section{L'approche par Projection (Espaces de Hilbert)}

Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de l'espace de Hilbert $\Ltwo$.

\subsection{Espace de Hilbert et Bases Orthonormées}
On munit $\Ltwo$ du produit scalaire :
\[ \langle f, g \rangle = \int_0^1 f(x)\overline{g(x)} dx \]
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$ (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in \Ltwo$ peut s'écrire :
\[ f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle \]

\subsection{Régularité et Espaces de Sobolev}
Pour quantifier la "douceur" de $f$, on utilise les espaces de Sobolev $W^s$.
\begin{definition}[Espace de Sobolev]
Pour $s > 0$, on définit $W^s([0,1])$ comme l'espace des fonctions $f \in \Ltwo$ telles que :
\[ \sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty \]
On définit l'ellipsoïde de Sobolev $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$.
\end{definition}

\subsection{Construction de l'estimateur par projection}
On approche d'abord $f$ par une version tronquée à l'ordre $M$ :
\[ \tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x) \]
Cependant, les coefficients $\alpha_k$ sont inconnus. On remarque que :
\[ \alpha_k = \int_0^1 e_k(x) f(x) dx = \E[e_k(X)] \]
Par la méthode des moments, on estime $\alpha_k$ par la moyenne empirique :
\[ \hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n) \]
L'estimateur final est :
\[ \hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x) \]

\section{Analyse des Performances : Risque Quadratique}

Le risque est mesuré par l'Erreur Quadratique Moyenne Intégrée (MISE).
\[ \text{Risk}(\hat{f}, f) = \E \left[ \int_0^1 |\hat{f}(x) - f(x)|^2 dx \right] \]

\subsection{Décomposition Biais-Variance}
En utilisant l'orthogonalité de la base, le risque se décompose en :
\[ \text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\E[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance} \text{ (Estimation)}} \]

\begin{enumerate}
    \item \textbf{Le Biais (Erreur d'approximation)} : Pour $f \in B(s, R)$, on montre que :
    \[ \text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 = \sum_{|k| > M} |\alpha_k|^2 \frac{(1+|k|)^{2s}}{(1+|k|)^{2s}} \leq \frac{R^2}{M^{2s}} = O(M^{-2s}) \]

    \item \textbf{La Variance (Erreur statistique)} :
    \[ \text{Variance} = \sum_{|k| \leq M} \E[|\hat{\alpha}_k - \alpha_k|^2] = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} \]
    Si les fonctions de base sont bornées ($|e_k| \leq C$), alors $\text{Var}(e_k(X)) \leq C^2$.
    D'où : $\text{Variance} = O\left(\frac{M}{N}\right)$.
\end{enumerate}

Le risque total est donc de l'ordre de :
\[ \text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}} \]

\section{Optimisation du paramètre de troncature}

Pour minimiser le risque, nous cherchons le $M$ optimal ($M^*$) qui équilibre le biais et la variance.
\[ \frac{\partial}{\partial M} \left( \frac{M}{N} + M^{-2s} \right) = 0 \implies \frac{1}{N} - 2s M^{-(2s+1)} = 0 \]
On obtient :
\[ M^* \sim N^{\frac{1}{2s+1}} \]

\textbf{Vitesse de convergence :}
En réinjectant $M^*$ dans l'expression du risque, on trouve :
\[ \text{Risk}^* \sim N^{-\frac{2s}{2s+1}} \]
\begin{itemize}
    \item Si $s \to \infty$ (fonction très lisse), la vitesse approche $N^{-1}$ (vitesse paramétrique).
    \item Si $s \to 0$ (fonction peu régulière), $M^* \sim N$ et la vitesse est très lente.
\end{itemize}

\section{Introduction à l'Approche par Noyau}

L'approche par noyau généralise l'idée de la section 2.
\begin{definition}[Noyau]
Un noyau $K : \R \to \R$ est une fonction intégrable telle que $\int_{\R} K(u) du = 1$. On définit le noyau translaté et mis à l'échelle par la fenêtre (bandwidth) $h$ :
\[ K_h(u) = \frac{1}{h} K\left(\frac{u}{h}\right) \]
\end{definition}

L'estimateur à noyau est défini par le produit de convolution entre la mesure empirique et le noyau :
\[ \hat{f}(x) = (K_h * f_{emp})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) \]

\section{Analyse de l'Estimateur à Noyau}

L'estimateur à noyau repose sur deux idées fondamentales (souvent appelées "Tricks" dans les notes) :
\begin{enumerate}
    \item \textbf{L'approximation :} La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.
    \item \textbf{L'estimation :} L'espérance de l'estimateur $\hat{f}(x)$ est précisément cette convolution.
\end{enumerate}

\subsection{Cadre d'analyse : Espaces de Hölder}

Pour garantir une certaine vitesse de convergence, nous supposons que la densité $f$ appartient à un espace de régularité fonctionnelle.

\begin{definition}[Espace de Hölder $\Lambda(s, L)$]
Soit $s > 0$. On écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0, 1]$. Une fonction $f$ appartient à l'espace de Hölder $\Lambda(s, L)$ si :
\begin{enumerate}
    \item $f$ est $k$ fois dérivable.
    \item La $k$-ième dérivée est $\beta$-Höldérienne :
    $\forall x, y \in \R, |f^{(k)}(x) - f^{(k)}(y)| \leq L |x-y|^\beta$.
\end{enumerate}
\end{definition}

\subsection{Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)}

Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit posséder des propriétés de moments :
\begin{enumerate}
    \item $\int K(u) du = 1$.
    \item $\int |u|^s |K(u)| du < +\infty$.
    \item $\int u^l K(u) du = 0$ pour tout $l \in \{1, \dots, k\}$. On dit alors que $K$ est un \textbf{noyau d'ordre $k$}.
\end{enumerate}

\subsection{Résultat 1 : Contrôle du Biais}

\begin{theorem}[Borne sur le biais]
Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors le biais de l'estimateur vérifie :
\[ \sup_x | \E[\hat{f}(x)] - f(x) | = \sup_x | (K_h * f)(x) - f(x) | \leq \frac{L \cdot C}{k!} h^s = O(h^s) \]
où $C = \int |y|^s |K(y)| dy$.
\end{theorem}

\begin{proof}[Esquisse de preuve]
Par changement de variable $y = \frac{x-u}{h}$ :
\[ (K_h * f)(x) - f(x) = \int K(y) [f(x - hy) - f(x)] dy \]
En utilisant un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ :
\[ f(x-hy) = f(x) - h y f'(x) + \dots + \frac{(-hy)^k}{k!} f^{(k)}(x - \epsilon hy) \]
Grâce aux propriétés d'annulation des moments du noyau (ordre $k$), les termes de dérivées s'annulent à l'intégration, ne laissant que le reste de Taylor qui est borné par la condition de Hölder en $h^s$.
\end{proof}

\subsection{Résultat 2 : Contrôle de la Variance}

\begin{theorem}[Borne sur la variance]
Si $K$ est de carré intégrable ($K \in L^2$) et $f$ est bornée, alors :
\[ \text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\left(\frac{1}{Nh}\right) \]
où $C' = \|f\|_\infty \int K^2(u) du$.
\end{theorem}

\begin{proof}
Puisque les $X_n$ sont i.i.d. :
\[ \text{Var}(\hat{f}(x)) = \frac{1}{N} \text{Var}(K_h(x - X_1)) \leq \frac{1}{N} \E[K_h(x - X_1)^2] \]
\[ \E[K_h(x - X_1)^2] = \int \frac{1}{h^2} K\left(\frac{x-u}{h}\right)^2 f(u) du \]
Par changement de variable $u' = \frac{x-u}{h}$, on obtient :
\[ \frac{1}{h} \int K(u')^2 f(x - hu') du' \leq \frac{\|f\|_\infty}{h} \int K^2(u') du' \]
\end{proof}

\section{Conclusion : Le compromis Biais-Variance}

Le risque quadratique total se comporte comme :
\[ \text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}} \]

\subsection{Fenêtre optimale $h^*$}
En minimisant cette expression par rapport à $h$, on trouve :
\[ h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}} \]

\subsection{Vitesse de convergence minimax}
En remplaçant $h^*$ dans l'expression du risque, on obtient la vitesse de convergence :
\[ \text{Risque}^* \sim N^{-\frac{2s}{2s+1}} \]

\begin{remark}[Synthèse entre les deux approches]
\begin{table}[h]
\centering
\begin{tabular}{|l|c|c|}
\hline
\textbf{Méthode} & \textbf{Paramètre de lissage} & \textbf{Rôle} \\ \hline
Projection & $M$ (nombre de modes) & Régularisation par troncature \\ \hline
Noyau & $1/h$ (inverse de la fenêtre) & Régularisation par lissage \\ \hline
\end{tabular}
\end{table}
Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ en projection joue un rôle inversement proportionnel à $h$ dans l'approche par noyau. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$, la vitesse "standard" de la statistique paramétrique.
\end{remark}

\end{document}