7.6 KiB
Cours 1 : Estimation de Densité Non-Paramétrique
Mars 2026
1. Introduction et Motivation
L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité f à partir d'un échantillon de variables aléatoires X_1, \dots, X_N i.i.d. selon f.
Définition — Densité de probabilité
Une fonction f : \mathbb{R} \to \mathbb{R} est une densité de probabilité si :
f(x) \geq 0pour presque toutx.f \in L^1(\mathbb{R})et\int_{\mathbb{R}} f(x)\, dx = 1.
Remarque : La valeur ponctuelle
f(x_0)n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimerf, on impose une contrainte de régularité. On suppose généralement quefappartient à un sous-espace de fonctions régulières\mathcal{F} \subsetneq L^1.
2. L'approche "Naïve" : L'estimateur par intervalle
Pour un point x et un petit paramètre h > 0, la probabilité que X \in [x-h, x+h] vaut :
\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du
Si f est continue en x et h est petit, \int_{x-h}^{x+h} f(u)\, du \approx 2h f(x). On estime cette probabilité par la proportion empirique :
\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)
D'où l'estimateur "naïf" :
\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)
où K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u) est le noyau rectangulaire.
3. L'approche par Projection (Espaces de Hilbert)
Cette méthode repose sur la décomposition de f dans une base orthonormée de L^2([0,1]).
3.1 Espace de Hilbert et Bases Orthonormées
On munit L^2([0,1]) du produit scalaire :
\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx
Soit \{e_k\}_{k \in \mathbb{Z}} une base orthonormée (par exemple la base de Fourier e_k(x) = e^{i 2\pi k x}). Toute fonction f \in L^2([0,1]) s'écrit :
f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle
3.2 Régularité et Espaces de Sobolev
Définition — Espace de Sobolev
Pour s > 0, l'espace de Sobolev W^s([0,1]) est l'ensemble des fonctions f \in L^2([0,1]) telles que :
\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty
On définit l'ellipsoïde de Sobolev B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}.
3.3 Construction de l'estimateur par projection
On approche f par une version tronquée à l'ordre M :
\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)
Les coefficients \alpha_k sont inconnus, mais \alpha_k = \mathbb{E}[e_k(X)]. Par la méthode des moments :
\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)
L'estimateur final est :
\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)
4. Analyse des Performances : Risque Quadratique
Le risque est mesuré par l'Erreur Quadratique Moyenne Intégrée (MISE) :
\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]
4.1 Décomposition Biais-Variance
Par orthogonalité de la base, le risque se décompose en :
\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}
- Biais : Pour
f \in B(s, R):
\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})
- Variance : Si les fonctions de base sont bornées (
|e_k| \leq C) :
\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)
Le risque total est donc :
\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}
5. Optimisation du paramètre de troncature
On cherche M^* qui équilibre biais et variance :
\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}
Vitesse de convergence : En substituant M^* :
\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}
- Si
s \to \infty(fonction très lisse) : vitesse approcheN^{-1}(vitesse paramétrique). - Si
s \to 0(peu régulière) :M^* \sim Net la vitesse est très lente.
6. Introduction à l'Approche par Noyau
Définition — Noyau
Un noyau K : \mathbb{R} \to \mathbb{R} est une fonction intégrable telle que \int_{\mathbb{R}} K(u)\, du = 1. On définit le noyau mis à l'échelle par la fenêtre h :
K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)
L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :
\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)
7. Analyse de l'Estimateur à Noyau
L'estimateur à noyau repose sur deux idées fondamentales :
- Approximation : La convolution
(K_h * f)(x)converge versf(x)quandh \to 0. - Estimation : L'espérance de
\hat{f}(x)est précisément cette convolution.
7.1 Cadre d'analyse : Espaces de Hölder
Définition — Espace de Hölder $\Lambda(s, L)$
Soit s > 0, écrit s = k + \beta avec k \in \mathbb{N} et \beta \in ]0,1]. Une fonction f appartient à \Lambda(s, L) si :
festkfois dérivable.- La $k$-ième dérivée est $\beta$-höldérienne :
\forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta.
7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)
Pour exploiter la régularité d'ordre s, le noyau K doit vérifier :
\int K(u)\, du = 1\int |u|^s |K(u)|\, du < +\infty\int u^l K(u)\, du = 0pourl \in \{1, \dots, k\}—Kest alors dit noyau d'ordre $k$
7.3 Résultat 1 : Contrôle du Biais
Théorème — Borne sur le biais
Si f \in \Lambda(s, L) et K est un noyau d'ordre k, alors :
\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)
où C = \int |y|^s |K(y)|\, dy.
Preuve (esquisse) : Par changement de variable y = \frac{x-u}{h} :
(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy
Un développement de Taylor-Young de f à l'ordre k en x et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en h^s.
7.4 Résultat 2 : Contrôle de la Variance
Théorème — Borne sur la variance
Si K \in L^2 et f est bornée :
\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)
où C' = \|f\|_\infty \int K^2(u)\, du.
Preuve : Par indépendance des X_n :
\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2
8. Conclusion : Le compromis Biais-Variance
Le risque quadratique total se comporte comme :
\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}
Fenêtre optimale :
h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}
Vitesse de convergence minimax :
\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}
Synthèse entre les deux approches
Méthode Paramètre de lissage Rôle Projection M(nombre de modes)Régularisation par troncature Noyau 1/h(inverse de la fenêtre)Régularisation par lissage Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre
Mjoue un rôle inversement proportionnel àh. Pluss(la régularité) est grand, plus la vitesse approche1/N(vitesse paramétrique).