205 lines
7.6 KiB
Markdown
205 lines
7.6 KiB
Markdown
|
|
# Cours 1 : Estimation de Densité Non-Paramétrique
|
||
|
|
|
||
|
|
*Mars 2026*
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 1. Introduction et Motivation
|
||
|
|
|
||
|
|
L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ i.i.d. selon $f$.
|
||
|
|
|
||
|
|
**Définition — Densité de probabilité**
|
||
|
|
|
||
|
|
Une fonction $f : \mathbb{R} \to \mathbb{R}$ est une densité de probabilité si :
|
||
|
|
1. $f(x) \geq 0$ pour presque tout $x$.
|
||
|
|
2. $f \in L^1(\mathbb{R})$ et $\int_{\mathbb{R}} f(x)\, dx = 1$.
|
||
|
|
|
||
|
|
> **Remarque :** La valeur ponctuelle $f(x_0)$ n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer $f$, on impose une **contrainte de régularité**. On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 2. L'approche "Naïve" : L'estimateur par intervalle
|
||
|
|
|
||
|
|
Pour un point $x$ et un petit paramètre $h > 0$, la probabilité que $X \in [x-h, x+h]$ vaut :
|
||
|
|
|
||
|
|
$$\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du$$
|
||
|
|
|
||
|
|
Si $f$ est continue en $x$ et $h$ est petit, $\int_{x-h}^{x+h} f(u)\, du \approx 2h f(x)$. On estime cette probabilité par la proportion empirique :
|
||
|
|
|
||
|
|
$$\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)$$
|
||
|
|
|
||
|
|
D'où l'estimateur "naïf" :
|
||
|
|
|
||
|
|
$$\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)$$
|
||
|
|
|
||
|
|
où $K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u)$ est le **noyau rectangulaire**.
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 3. L'approche par Projection (Espaces de Hilbert)
|
||
|
|
|
||
|
|
Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de $L^2([0,1])$.
|
||
|
|
|
||
|
|
### 3.1 Espace de Hilbert et Bases Orthonormées
|
||
|
|
|
||
|
|
On munit $L^2([0,1])$ du produit scalaire :
|
||
|
|
|
||
|
|
$$\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx$$
|
||
|
|
|
||
|
|
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in L^2([0,1])$ s'écrit :
|
||
|
|
|
||
|
|
$$f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle$$
|
||
|
|
|
||
|
|
### 3.2 Régularité et Espaces de Sobolev
|
||
|
|
|
||
|
|
**Définition — Espace de Sobolev**
|
||
|
|
|
||
|
|
Pour $s > 0$, l'espace de Sobolev $W^s([0,1])$ est l'ensemble des fonctions $f \in L^2([0,1])$ telles que :
|
||
|
|
|
||
|
|
$$\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty$$
|
||
|
|
|
||
|
|
On définit l'**ellipsoïde de Sobolev** $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$.
|
||
|
|
|
||
|
|
### 3.3 Construction de l'estimateur par projection
|
||
|
|
|
||
|
|
On approche $f$ par une version tronquée à l'ordre $M$ :
|
||
|
|
|
||
|
|
$$\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)$$
|
||
|
|
|
||
|
|
Les coefficients $\alpha_k$ sont inconnus, mais $\alpha_k = \mathbb{E}[e_k(X)]$. Par la méthode des moments :
|
||
|
|
|
||
|
|
$$\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)$$
|
||
|
|
|
||
|
|
L'estimateur final est :
|
||
|
|
|
||
|
|
$$\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)$$
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 4. Analyse des Performances : Risque Quadratique
|
||
|
|
|
||
|
|
Le risque est mesuré par l'**Erreur Quadratique Moyenne Intégrée (MISE)** :
|
||
|
|
|
||
|
|
$$\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]$$
|
||
|
|
|
||
|
|
### 4.1 Décomposition Biais-Variance
|
||
|
|
|
||
|
|
Par orthogonalité de la base, le risque se décompose en :
|
||
|
|
|
||
|
|
$$\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}$$
|
||
|
|
|
||
|
|
1. **Biais** : Pour $f \in B(s, R)$ :
|
||
|
|
$$\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})$$
|
||
|
|
|
||
|
|
2. **Variance** : Si les fonctions de base sont bornées ($|e_k| \leq C$) :
|
||
|
|
$$\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)$$
|
||
|
|
|
||
|
|
Le risque total est donc :
|
||
|
|
|
||
|
|
$$\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}$$
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 5. Optimisation du paramètre de troncature
|
||
|
|
|
||
|
|
On cherche $M^*$ qui équilibre biais et variance :
|
||
|
|
|
||
|
|
$$\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}$$
|
||
|
|
|
||
|
|
**Vitesse de convergence :** En substituant $M^*$ :
|
||
|
|
|
||
|
|
$$\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}$$
|
||
|
|
|
||
|
|
- Si $s \to \infty$ (fonction très lisse) : vitesse approche $N^{-1}$ (vitesse paramétrique).
|
||
|
|
- Si $s \to 0$ (peu régulière) : $M^* \sim N$ et la vitesse est très lente.
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 6. Introduction à l'Approche par Noyau
|
||
|
|
|
||
|
|
**Définition — Noyau**
|
||
|
|
|
||
|
|
Un noyau $K : \mathbb{R} \to \mathbb{R}$ est une fonction intégrable telle que $\int_{\mathbb{R}} K(u)\, du = 1$. On définit le noyau mis à l'échelle par la fenêtre $h$ :
|
||
|
|
|
||
|
|
$$K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)$$
|
||
|
|
|
||
|
|
L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :
|
||
|
|
|
||
|
|
$$\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$$
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 7. Analyse de l'Estimateur à Noyau
|
||
|
|
|
||
|
|
L'estimateur à noyau repose sur deux idées fondamentales :
|
||
|
|
|
||
|
|
1. **Approximation :** La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.
|
||
|
|
2. **Estimation :** L'espérance de $\hat{f}(x)$ est précisément cette convolution.
|
||
|
|
|
||
|
|
### 7.1 Cadre d'analyse : Espaces de Hölder
|
||
|
|
|
||
|
|
**Définition — Espace de Hölder $\Lambda(s, L)$**
|
||
|
|
|
||
|
|
Soit $s > 0$, écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0,1]$. Une fonction $f$ appartient à $\Lambda(s, L)$ si :
|
||
|
|
1. $f$ est $k$ fois dérivable.
|
||
|
|
2. La $k$-ième dérivée est $\beta$-höldérienne : $\forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta$.
|
||
|
|
|
||
|
|
### 7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)
|
||
|
|
|
||
|
|
Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit vérifier :
|
||
|
|
1. $\int K(u)\, du = 1$
|
||
|
|
2. $\int |u|^s |K(u)|\, du < +\infty$
|
||
|
|
3. $\int u^l K(u)\, du = 0$ pour $l \in \{1, \dots, k\}$ — $K$ est alors dit **noyau d'ordre $k$**
|
||
|
|
|
||
|
|
### 7.3 Résultat 1 : Contrôle du Biais
|
||
|
|
|
||
|
|
**Théorème — Borne sur le biais**
|
||
|
|
|
||
|
|
Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors :
|
||
|
|
|
||
|
|
$$\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)$$
|
||
|
|
|
||
|
|
où $C = \int |y|^s |K(y)|\, dy$.
|
||
|
|
|
||
|
|
*Preuve (esquisse) :* Par changement de variable $y = \frac{x-u}{h}$ :
|
||
|
|
$$(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy$$
|
||
|
|
Un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en $h^s$.
|
||
|
|
|
||
|
|
### 7.4 Résultat 2 : Contrôle de la Variance
|
||
|
|
|
||
|
|
**Théorème — Borne sur la variance**
|
||
|
|
|
||
|
|
Si $K \in L^2$ et $f$ est bornée :
|
||
|
|
|
||
|
|
$$\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)$$
|
||
|
|
|
||
|
|
où $C' = \|f\|_\infty \int K^2(u)\, du$.
|
||
|
|
|
||
|
|
*Preuve :* Par indépendance des $X_n$ :
|
||
|
|
$$\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2$$
|
||
|
|
|
||
|
|
---
|
||
|
|
|
||
|
|
## 8. Conclusion : Le compromis Biais-Variance
|
||
|
|
|
||
|
|
Le risque quadratique total se comporte comme :
|
||
|
|
|
||
|
|
$$\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}$$
|
||
|
|
|
||
|
|
**Fenêtre optimale :**
|
||
|
|
|
||
|
|
$$h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}$$
|
||
|
|
|
||
|
|
**Vitesse de convergence minimax :**
|
||
|
|
|
||
|
|
$$\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}$$
|
||
|
|
|
||
|
|
> **Synthèse entre les deux approches**
|
||
|
|
>
|
||
|
|
> | Méthode | Paramètre de lissage | Rôle |
|
||
|
|
> |---|---|---|
|
||
|
|
> | Projection | $M$ (nombre de modes) | Régularisation par troncature |
|
||
|
|
> | Noyau | $1/h$ (inverse de la fenêtre) | Régularisation par lissage |
|
||
|
|
>
|
||
|
|
> Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ joue un rôle inversement proportionnel à $h$. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$ (vitesse paramétrique).
|