# Cours 1 : Estimation de Densité Non-Paramétrique *Mars 2026* --- ## 1. Introduction et Motivation L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ i.i.d. selon $f$. **Définition — Densité de probabilité** Une fonction $f : \mathbb{R} \to \mathbb{R}$ est une densité de probabilité si : 1. $f(x) \geq 0$ pour presque tout $x$. 2. $f \in L^1(\mathbb{R})$ et $\int_{\mathbb{R}} f(x)\, dx = 1$. > **Remarque :** La valeur ponctuelle $f(x_0)$ n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer $f$, on impose une **contrainte de régularité**. On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$. --- ## 2. L'approche "Naïve" : L'estimateur par intervalle Pour un point $x$ et un petit paramètre $h > 0$, la probabilité que $X \in [x-h, x+h]$ vaut : $$\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du$$ Si $f$ est continue en $x$ et $h$ est petit, $\int_{x-h}^{x+h} f(u)\, du \approx 2h f(x)$. On estime cette probabilité par la proportion empirique : $$\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)$$ D'où l'estimateur "naïf" : $$\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)$$ où $K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u)$ est le **noyau rectangulaire**. --- ## 3. L'approche par Projection (Espaces de Hilbert) Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de $L^2([0,1])$. ### 3.1 Espace de Hilbert et Bases Orthonormées On munit $L^2([0,1])$ du produit scalaire : $$\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx$$ Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in L^2([0,1])$ s'écrit : $$f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle$$ ### 3.2 Régularité et Espaces de Sobolev **Définition — Espace de Sobolev** Pour $s > 0$, l'espace de Sobolev $W^s([0,1])$ est l'ensemble des fonctions $f \in L^2([0,1])$ telles que : $$\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty$$ On définit l'**ellipsoïde de Sobolev** $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$. ### 3.3 Construction de l'estimateur par projection On approche $f$ par une version tronquée à l'ordre $M$ : $$\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)$$ Les coefficients $\alpha_k$ sont inconnus, mais $\alpha_k = \mathbb{E}[e_k(X)]$. Par la méthode des moments : $$\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)$$ L'estimateur final est : $$\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)$$ --- ## 4. Analyse des Performances : Risque Quadratique Le risque est mesuré par l'**Erreur Quadratique Moyenne Intégrée (MISE)** : $$\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]$$ ### 4.1 Décomposition Biais-Variance Par orthogonalité de la base, le risque se décompose en : $$\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}$$ 1. **Biais** : Pour $f \in B(s, R)$ : $$\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})$$ 2. **Variance** : Si les fonctions de base sont bornées ($|e_k| \leq C$) : $$\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)$$ Le risque total est donc : $$\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}$$ --- ## 5. Optimisation du paramètre de troncature On cherche $M^*$ qui équilibre biais et variance : $$\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}$$ **Vitesse de convergence :** En substituant $M^*$ : $$\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}$$ - Si $s \to \infty$ (fonction très lisse) : vitesse approche $N^{-1}$ (vitesse paramétrique). - Si $s \to 0$ (peu régulière) : $M^* \sim N$ et la vitesse est très lente. --- ## 6. Introduction à l'Approche par Noyau **Définition — Noyau** Un noyau $K : \mathbb{R} \to \mathbb{R}$ est une fonction intégrable telle que $\int_{\mathbb{R}} K(u)\, du = 1$. On définit le noyau mis à l'échelle par la fenêtre $h$ : $$K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)$$ L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau : $$\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$$ --- ## 7. Analyse de l'Estimateur à Noyau L'estimateur à noyau repose sur deux idées fondamentales : 1. **Approximation :** La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$. 2. **Estimation :** L'espérance de $\hat{f}(x)$ est précisément cette convolution. ### 7.1 Cadre d'analyse : Espaces de Hölder **Définition — Espace de Hölder $\Lambda(s, L)$** Soit $s > 0$, écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0,1]$. Une fonction $f$ appartient à $\Lambda(s, L)$ si : 1. $f$ est $k$ fois dérivable. 2. La $k$-ième dérivée est $\beta$-höldérienne : $\forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta$. ### 7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt) Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit vérifier : 1. $\int K(u)\, du = 1$ 2. $\int |u|^s |K(u)|\, du < +\infty$ 3. $\int u^l K(u)\, du = 0$ pour $l \in \{1, \dots, k\}$ — $K$ est alors dit **noyau d'ordre $k$** ### 7.3 Résultat 1 : Contrôle du Biais **Théorème — Borne sur le biais** Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors : $$\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)$$ où $C = \int |y|^s |K(y)|\, dy$. *Preuve (esquisse) :* Par changement de variable $y = \frac{x-u}{h}$ : $$(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy$$ Un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en $h^s$. ### 7.4 Résultat 2 : Contrôle de la Variance **Théorème — Borne sur la variance** Si $K \in L^2$ et $f$ est bornée : $$\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)$$ où $C' = \|f\|_\infty \int K^2(u)\, du$. *Preuve :* Par indépendance des $X_n$ : $$\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2$$ --- ## 8. Conclusion : Le compromis Biais-Variance Le risque quadratique total se comporte comme : $$\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}$$ **Fenêtre optimale :** $$h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}$$ **Vitesse de convergence minimax :** $$\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}$$ > **Synthèse entre les deux approches** > > | Méthode | Paramètre de lissage | Rôle | > |---|---|---| > | Projection | $M$ (nombre de modes) | Régularisation par troncature | > | Noyau | $1/h$ (inverse de la fenêtre) | Régularisation par lissage | > > Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ joue un rôle inversement proportionnel à $h$. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$ (vitesse paramétrique).