\documentclass[12pt,a4paper]{article} \usepackage[utf8]{inputenc} \usepackage[french]{babel} \usepackage[T1]{fontenc} \usepackage{amsmath, amssymb, amsthm} \usepackage{geometry} \geometry{margin=2.5cm} % --- Environnements de théorèmes --- \newtheorem{definition}{Définition}[section] \newtheorem{theorem}{Théorème}[section] \newtheorem{remark}{Remarque}[section] \newtheorem{example}{Exemple}[section] \newtheorem{proposition}{Proposition}[section] % --- Commandes personnalisées --- \newcommand{\E}{\mathbb{E}} \renewcommand{\P}{\mathbb{P}} \newcommand{\R}{\mathbb{R}} \newcommand{\Ltwo}{L^2([0,1])} \newcommand{\ind}{\mathbb{1}} \title{Cours de Statistique : Estimation de Densité Non-Paramétrique} \author{Note de cours réorganisée} \date{Mars 2026} \begin{document} \maketitle \section{Introduction et Motivation} L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ indépendantes et identiquement distribuées (i.i.d.) selon $f$. \begin{definition}[Densité de probabilité] Une fonction $f : \R \to \R$ est une densité de probabilité si elle vérifie : \begin{enumerate} \item $f(x) \geq 0$ pour presque tout $x$. \item $f \in L^1(\R)$ et $\int_{\R} f(x) dx = 1$. \end{enumerate} \end{definition} \begin{remark} La valeur ponctuelle $f(x_0)$ n'est pas informative par elle-même car la mesure de Lebesgue d'un singleton $\{x_0\}$ est nulle. Pour estimer $f$, nous devons imposer une \textbf{contrainte de régularité} (smoothness). On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$. \end{remark} \section{L'approche "Naïve" : L'estimateur par intervalle} Considérons une réalisation i.i.d. $x_1, \dots, x_N$ d'une loi de densité $f$. Pour un point $x$ donné et un petit paramètre $h > 0$, la probabilité que $X$ appartienne à l'intervalle $[x-h, x+h]$ est : \[ \P(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u) du \] Si $f$ est continue en $x$ et $h$ est petit, alors $\int_{x-h}^{x+h} f(u) du \approx 2h f(x)$. On peut estimer cette probabilité par la proportion empirique de données tombant dans cet intervalle : \[ \hat{p} = \frac{1}{N} \sum_{n=1}^N \ind_{[x-h, x+h]}(x_n) \] D'où l'estimateur "naïf" de la densité : \[ \hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \ind_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\left(\frac{x-x_n}{h}\right) \] où $K(u) = \frac{1}{2}\ind_{[-1, 1]}(u)$ est appelé le \textbf{noyau rectangulaire}. \section{L'approche par Projection (Espaces de Hilbert)} Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de l'espace de Hilbert $\Ltwo$. \subsection{Espace de Hilbert et Bases Orthonormées} On munit $\Ltwo$ du produit scalaire : \[ \langle f, g \rangle = \int_0^1 f(x)\overline{g(x)} dx \] Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$ (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in \Ltwo$ peut s'écrire : \[ f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle \] \subsection{Régularité et Espaces de Sobolev} Pour quantifier la "douceur" de $f$, on utilise les espaces de Sobolev $W^s$. \begin{definition}[Espace de Sobolev] Pour $s > 0$, on définit $W^s([0,1])$ comme l'espace des fonctions $f \in \Ltwo$ telles que : \[ \sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty \] On définit l'ellipsoïde de Sobolev $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$. \end{definition} \subsection{Construction de l'estimateur par projection} On approche d'abord $f$ par une version tronquée à l'ordre $M$ : \[ \tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x) \] Cependant, les coefficients $\alpha_k$ sont inconnus. On remarque que : \[ \alpha_k = \int_0^1 e_k(x) f(x) dx = \E[e_k(X)] \] Par la méthode des moments, on estime $\alpha_k$ par la moyenne empirique : \[ \hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n) \] L'estimateur final est : \[ \hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x) \] \section{Analyse des Performances : Risque Quadratique} Le risque est mesuré par l'Erreur Quadratique Moyenne Intégrée (MISE). \[ \text{Risk}(\hat{f}, f) = \E \left[ \int_0^1 |\hat{f}(x) - f(x)|^2 dx \right] \] \subsection{Décomposition Biais-Variance} En utilisant l'orthogonalité de la base, le risque se décompose en : \[ \text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\E[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance} \text{ (Estimation)}} \] \begin{enumerate} \item \textbf{Le Biais (Erreur d'approximation)} : Pour $f \in B(s, R)$, on montre que : \[ \text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 = \sum_{|k| > M} |\alpha_k|^2 \frac{(1+|k|)^{2s}}{(1+|k|)^{2s}} \leq \frac{R^2}{M^{2s}} = O(M^{-2s}) \] \item \textbf{La Variance (Erreur statistique)} : \[ \text{Variance} = \sum_{|k| \leq M} \E[|\hat{\alpha}_k - \alpha_k|^2] = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} \] Si les fonctions de base sont bornées ($|e_k| \leq C$), alors $\text{Var}(e_k(X)) \leq C^2$. D'où : $\text{Variance} = O\left(\frac{M}{N}\right)$. \end{enumerate} Le risque total est donc de l'ordre de : \[ \text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}} \] \section{Optimisation du paramètre de troncature} Pour minimiser le risque, nous cherchons le $M$ optimal ($M^*$) qui équilibre le biais et la variance. \[ \frac{\partial}{\partial M} \left( \frac{M}{N} + M^{-2s} \right) = 0 \implies \frac{1}{N} - 2s M^{-(2s+1)} = 0 \] On obtient : \[ M^* \sim N^{\frac{1}{2s+1}} \] \textbf{Vitesse de convergence :} En réinjectant $M^*$ dans l'expression du risque, on trouve : \[ \text{Risk}^* \sim N^{-\frac{2s}{2s+1}} \] \begin{itemize} \item Si $s \to \infty$ (fonction très lisse), la vitesse approche $N^{-1}$ (vitesse paramétrique). \item Si $s \to 0$ (fonction peu régulière), $M^* \sim N$ et la vitesse est très lente. \end{itemize} \section{Introduction à l'Approche par Noyau} L'approche par noyau généralise l'idée de la section 2. \begin{definition}[Noyau] Un noyau $K : \R \to \R$ est une fonction intégrable telle que $\int_{\R} K(u) du = 1$. On définit le noyau translaté et mis à l'échelle par la fenêtre (bandwidth) $h$ : \[ K_h(u) = \frac{1}{h} K\left(\frac{u}{h}\right) \] \end{definition} L'estimateur à noyau est défini par le produit de convolution entre la mesure empirique et le noyau : \[ \hat{f}(x) = (K_h * f_{emp})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) \] \section{Analyse de l'Estimateur à Noyau} L'estimateur à noyau repose sur deux idées fondamentales (souvent appelées "Tricks" dans les notes) : \begin{enumerate} \item \textbf{L'approximation :} La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$. \item \textbf{L'estimation :} L'espérance de l'estimateur $\hat{f}(x)$ est précisément cette convolution. \end{enumerate} \subsection{Cadre d'analyse : Espaces de Hölder} Pour garantir une certaine vitesse de convergence, nous supposons que la densité $f$ appartient à un espace de régularité fonctionnelle. \begin{definition}[Espace de Hölder $\Lambda(s, L)$] Soit $s > 0$. On écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0, 1]$. Une fonction $f$ appartient à l'espace de Hölder $\Lambda(s, L)$ si : \begin{enumerate} \item $f$ est $k$ fois dérivable. \item La $k$-ième dérivée est $\beta$-Höldérienne : $\forall x, y \in \R, |f^{(k)}(x) - f^{(k)}(y)| \leq L |x-y|^\beta$. \end{enumerate} \end{definition} \subsection{Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)} Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit posséder des propriétés de moments : \begin{enumerate} \item $\int K(u) du = 1$. \item $\int |u|^s |K(u)| du < +\infty$. \item $\int u^l K(u) du = 0$ pour tout $l \in \{1, \dots, k\}$. On dit alors que $K$ est un \textbf{noyau d'ordre $k$}. \end{enumerate} \subsection{Résultat 1 : Contrôle du Biais} \begin{theorem}[Borne sur le biais] Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors le biais de l'estimateur vérifie : \[ \sup_x | \E[\hat{f}(x)] - f(x) | = \sup_x | (K_h * f)(x) - f(x) | \leq \frac{L \cdot C}{k!} h^s = O(h^s) \] où $C = \int |y|^s |K(y)| dy$. \end{theorem} \begin{proof}[Esquisse de preuve] Par changement de variable $y = \frac{x-u}{h}$ : \[ (K_h * f)(x) - f(x) = \int K(y) [f(x - hy) - f(x)] dy \] En utilisant un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ : \[ f(x-hy) = f(x) - h y f'(x) + \dots + \frac{(-hy)^k}{k!} f^{(k)}(x - \epsilon hy) \] Grâce aux propriétés d'annulation des moments du noyau (ordre $k$), les termes de dérivées s'annulent à l'intégration, ne laissant que le reste de Taylor qui est borné par la condition de Hölder en $h^s$. \end{proof} \subsection{Résultat 2 : Contrôle de la Variance} \begin{theorem}[Borne sur la variance] Si $K$ est de carré intégrable ($K \in L^2$) et $f$ est bornée, alors : \[ \text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\left(\frac{1}{Nh}\right) \] où $C' = \|f\|_\infty \int K^2(u) du$. \end{theorem} \begin{proof} Puisque les $X_n$ sont i.i.d. : \[ \text{Var}(\hat{f}(x)) = \frac{1}{N} \text{Var}(K_h(x - X_1)) \leq \frac{1}{N} \E[K_h(x - X_1)^2] \] \[ \E[K_h(x - X_1)^2] = \int \frac{1}{h^2} K\left(\frac{x-u}{h}\right)^2 f(u) du \] Par changement de variable $u' = \frac{x-u}{h}$, on obtient : \[ \frac{1}{h} \int K(u')^2 f(x - hu') du' \leq \frac{\|f\|_\infty}{h} \int K^2(u') du' \] \end{proof} \section{Conclusion : Le compromis Biais-Variance} Le risque quadratique total se comporte comme : \[ \text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}} \] \subsection{Fenêtre optimale $h^*$} En minimisant cette expression par rapport à $h$, on trouve : \[ h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}} \] \subsection{Vitesse de convergence minimax} En remplaçant $h^*$ dans l'expression du risque, on obtient la vitesse de convergence : \[ \text{Risque}^* \sim N^{-\frac{2s}{2s+1}} \] \begin{remark}[Synthèse entre les deux approches] \begin{table}[h] \centering \begin{tabular}{|l|c|c|} \hline \textbf{Méthode} & \textbf{Paramètre de lissage} & \textbf{Rôle} \\ \hline Projection & $M$ (nombre de modes) & Régularisation par troncature \\ \hline Noyau & $1/h$ (inverse de la fenêtre) & Régularisation par lissage \\ \hline \end{tabular} \end{table} Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ en projection joue un rôle inversement proportionnel à $h$ dans l'approche par noyau. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$, la vitesse "standard" de la statistique paramétrique. \end{remark} \end{document}