APM_4AI09/ch1.md

205 lines
7.6 KiB
Markdown
Raw Normal View History

# Cours 1 : Estimation de Densité Non-Paramétrique
*Mars 2026*
---
## 1. Introduction et Motivation
L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ i.i.d. selon $f$.
**Définition — Densité de probabilité**
Une fonction $f : \mathbb{R} \to \mathbb{R}$ est une densité de probabilité si :
1. $f(x) \geq 0$ pour presque tout $x$.
2. $f \in L^1(\mathbb{R})$ et $\int_{\mathbb{R}} f(x)\, dx = 1$.
> **Remarque :** La valeur ponctuelle $f(x_0)$ n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer $f$, on impose une **contrainte de régularité**. On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.
---
## 2. L'approche "Naïve" : L'estimateur par intervalle
Pour un point $x$ et un petit paramètre $h > 0$, la probabilité que $X \in [x-h, x+h]$ vaut :
$$\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du$$
Si $f$ est continue en $x$ et $h$ est petit, $\int_{x-h}^{x+h} f(u)\, du \approx 2h f(x)$. On estime cette probabilité par la proportion empirique :
$$\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)$$
D'où l'estimateur "naïf" :
$$\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)$$
où $K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u)$ est le **noyau rectangulaire**.
---
## 3. L'approche par Projection (Espaces de Hilbert)
Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de $L^2([0,1])$.
### 3.1 Espace de Hilbert et Bases Orthonormées
On munit $L^2([0,1])$ du produit scalaire :
$$\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx$$
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in L^2([0,1])$ s'écrit :
$$f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle$$
### 3.2 Régularité et Espaces de Sobolev
**Définition — Espace de Sobolev**
Pour $s > 0$, l'espace de Sobolev $W^s([0,1])$ est l'ensemble des fonctions $f \in L^2([0,1])$ telles que :
$$\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty$$
On définit l'**ellipsoïde de Sobolev** $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$.
### 3.3 Construction de l'estimateur par projection
On approche $f$ par une version tronquée à l'ordre $M$ :
$$\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)$$
Les coefficients $\alpha_k$ sont inconnus, mais $\alpha_k = \mathbb{E}[e_k(X)]$. Par la méthode des moments :
$$\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)$$
L'estimateur final est :
$$\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)$$
---
## 4. Analyse des Performances : Risque Quadratique
Le risque est mesuré par l'**Erreur Quadratique Moyenne Intégrée (MISE)** :
$$\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]$$
### 4.1 Décomposition Biais-Variance
Par orthogonalité de la base, le risque se décompose en :
$$\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}$$
1. **Biais** : Pour $f \in B(s, R)$ :
$$\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})$$
2. **Variance** : Si les fonctions de base sont bornées ($|e_k| \leq C$) :
$$\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)$$
Le risque total est donc :
$$\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}$$
---
## 5. Optimisation du paramètre de troncature
On cherche $M^*$ qui équilibre biais et variance :
$$\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}$$
**Vitesse de convergence :** En substituant $M^*$ :
$$\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}$$
- Si $s \to \infty$ (fonction très lisse) : vitesse approche $N^{-1}$ (vitesse paramétrique).
- Si $s \to 0$ (peu régulière) : $M^* \sim N$ et la vitesse est très lente.
---
## 6. Introduction à l'Approche par Noyau
**Définition — Noyau**
Un noyau $K : \mathbb{R} \to \mathbb{R}$ est une fonction intégrable telle que $\int_{\mathbb{R}} K(u)\, du = 1$. On définit le noyau mis à l'échelle par la fenêtre $h$ :
$$K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)$$
L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :
$$\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$$
---
## 7. Analyse de l'Estimateur à Noyau
L'estimateur à noyau repose sur deux idées fondamentales :
1. **Approximation :** La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.
2. **Estimation :** L'espérance de $\hat{f}(x)$ est précisément cette convolution.
### 7.1 Cadre d'analyse : Espaces de Hölder
**Définition — Espace de Hölder $\Lambda(s, L)$**
Soit $s > 0$, écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0,1]$. Une fonction $f$ appartient à $\Lambda(s, L)$ si :
1. $f$ est $k$ fois dérivable.
2. La $k$-ième dérivée est $\beta$-höldérienne : $\forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta$.
### 7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)
Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit vérifier :
1. $\int K(u)\, du = 1$
2. $\int |u|^s |K(u)|\, du < +\infty$
3. $\int u^l K(u)\, du = 0$ pour $l \in \{1, \dots, k\}$ — $K$ est alors dit **noyau d'ordre $k$**
### 7.3 Résultat 1 : Contrôle du Biais
**Théorème — Borne sur le biais**
Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors :
$$\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)$$
où $C = \int |y|^s |K(y)|\, dy$.
*Preuve (esquisse) :* Par changement de variable $y = \frac{x-u}{h}$ :
$$(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy$$
Un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en $h^s$.
### 7.4 Résultat 2 : Contrôle de la Variance
**Théorème — Borne sur la variance**
Si $K \in L^2$ et $f$ est bornée :
$$\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)$$
où $C' = \|f\|_\infty \int K^2(u)\, du$.
*Preuve :* Par indépendance des $X_n$ :
$$\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2$$
---
## 8. Conclusion : Le compromis Biais-Variance
Le risque quadratique total se comporte comme :
$$\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}$$
**Fenêtre optimale :**
$$h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}$$
**Vitesse de convergence minimax :**
$$\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}$$
> **Synthèse entre les deux approches**
>
> | Méthode | Paramètre de lissage | Rôle |
> |---|---|---|
> | Projection | $M$ (nombre de modes) | Régularisation par troncature |
> | Noyau | $1/h$ (inverse de la fenêtre) | Régularisation par lissage |
>
> Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ joue un rôle inversement proportionnel à $h$. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$ (vitesse paramétrique).