APM_4AI09/ch1.md

# Cours 1 : Estimation de Densité Non-Paramétrique

*Mars 2026*

---

## 1. Introduction et Motivation

L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ i.i.d. selon $f$.

**Définition — Densité de probabilité**

Une fonction $f : \mathbb{R} \to \mathbb{R}$ est une densité de probabilité si :
1. $f(x) \geq 0$ pour presque tout $x$.
2. $f \in L^1(\mathbb{R})$ et $\int_{\mathbb{R}} f(x)\, dx = 1$.

> **Remarque :** La valeur ponctuelle $f(x_0)$ n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer $f$, on impose une **contrainte de régularité**. On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.

---

## 2. L'approche "Naïve" : L'estimateur par intervalle

Pour un point $x$ et un petit paramètre $h > 0$, la probabilité que $X \in [x-h, x+h]$ vaut :

$$\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du$$

Si $f$ est continue en $x$ et $h$ est petit, $\int_{x-h}^{x+h} f(u)\, du \approx 2h f(x)$. On estime cette probabilité par la proportion empirique :

$$\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)$$

D'où l'estimateur "naïf" :

$$\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)$$

où $K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u)$ est le **noyau rectangulaire**.

---

## 3. L'approche par Projection (Espaces de Hilbert)

Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de $L^2([0,1])$.

### 3.1 Espace de Hilbert et Bases Orthonormées

On munit $L^2([0,1])$ du produit scalaire :

$$\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx$$

Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in L^2([0,1])$ s'écrit :

$$f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle$$

### 3.2 Régularité et Espaces de Sobolev

**Définition — Espace de Sobolev**

Pour $s > 0$, l'espace de Sobolev $W^s([0,1])$ est l'ensemble des fonctions $f \in L^2([0,1])$ telles que :

$$\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty$$

On définit l'**ellipsoïde de Sobolev** $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$.

### 3.3 Construction de l'estimateur par projection

On approche $f$ par une version tronquée à l'ordre $M$ :

$$\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)$$

Les coefficients $\alpha_k$ sont inconnus, mais $\alpha_k = \mathbb{E}[e_k(X)]$. Par la méthode des moments :

$$\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)$$

L'estimateur final est :

$$\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)$$

---

## 4. Analyse des Performances : Risque Quadratique

Le risque est mesuré par l'**Erreur Quadratique Moyenne Intégrée (MISE)** :

$$\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]$$

### 4.1 Décomposition Biais-Variance

Par orthogonalité de la base, le risque se décompose en :

$$\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}$$

1. **Biais** : Pour $f \in B(s, R)$ :
$$\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})$$

2. **Variance** : Si les fonctions de base sont bornées ($|e_k| \leq C$) :
$$\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)$$

Le risque total est donc :

$$\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}$$

---

## 5. Optimisation du paramètre de troncature

On cherche $M^*$ qui équilibre biais et variance :

$$\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}$$

**Vitesse de convergence :** En substituant $M^*$ :

$$\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}$$

- Si $s \to \infty$ (fonction très lisse) : vitesse approche $N^{-1}$ (vitesse paramétrique).
- Si $s \to 0$ (peu régulière) : $M^* \sim N$ et la vitesse est très lente.

---

## 6. Introduction à l'Approche par Noyau

**Définition — Noyau**

Un noyau $K : \mathbb{R} \to \mathbb{R}$ est une fonction intégrable telle que $\int_{\mathbb{R}} K(u)\, du = 1$. On définit le noyau mis à l'échelle par la fenêtre $h$ :

$$K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)$$

L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :

$$\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$$

---

## 7. Analyse de l'Estimateur à Noyau

L'estimateur à noyau repose sur deux idées fondamentales :

1. **Approximation :** La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.
2. **Estimation :** L'espérance de $\hat{f}(x)$ est précisément cette convolution.

### 7.1 Cadre d'analyse : Espaces de Hölder

**Définition — Espace de Hölder $\Lambda(s, L)$**

Soit $s > 0$, écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0,1]$. Une fonction $f$ appartient à $\Lambda(s, L)$ si :
1. $f$ est $k$ fois dérivable.
2. La $k$-ième dérivée est $\beta$-höldérienne : $\forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta$.

### 7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)

Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit vérifier :
1. $\int K(u)\, du = 1$
2. $\int |u|^s |K(u)|\, du < +\infty$
3. $\int u^l K(u)\, du = 0$ pour $l \in \{1, \dots, k\}$ — $K$ est alors dit **noyau d'ordre $k$**

### 7.3 Résultat 1 : Contrôle du Biais

**Théorème — Borne sur le biais**

Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors :

$$\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)$$

où $C = \int |y|^s |K(y)|\, dy$.

*Preuve (esquisse) :* Par changement de variable $y = \frac{x-u}{h}$ :
$$(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy$$
Un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en $h^s$.

### 7.4 Résultat 2 : Contrôle de la Variance

**Théorème — Borne sur la variance**

Si $K \in L^2$ et $f$ est bornée :

$$\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)$$

où $C' = \|f\|_\infty \int K^2(u)\, du$.

*Preuve :* Par indépendance des $X_n$ :
$$\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2$$

---

## 8. Conclusion : Le compromis Biais-Variance

Le risque quadratique total se comporte comme :

$$\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}$$

**Fenêtre optimale :**

$$h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}$$

**Vitesse de convergence minimax :**

$$\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}$$

> **Synthèse entre les deux approches**
>
> | Méthode | Paramètre de lissage | Rôle |
> |---|---|---|
> | Projection | $M$ (nombre de modes) | Régularisation par troncature |
> | Noyau | $1/h$ (inverse de la fenêtre) | Régularisation par lissage |
>
> Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ joue un rôle inversement proportionnel à $h$. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$ (vitesse paramétrique).
Add course materials for statistical estimation and regression, including introductory chapters on non-parametric density estimation and neural networks as approximators. 2026-04-07 11:25:22 +02:00			`# Cours 1 : Estimation de Densité Non-Paramétrique`

			`Mars 2026`

			`---`

			`## 1. Introduction et Motivation`

			`L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ i.i.d. selon $f$.`

			`Définition — Densité de probabilité`

			`Une fonction $f : \mathbb{R} \to \mathbb{R}$ est une densité de probabilité si :`
			`1. $f(x) \geq 0$ pour presque tout $x$.`
			`2. $f \in L^1(\mathbb{R})$ et $\int_{\mathbb{R}} f(x)\, dx = 1$.`

			`> Remarque : La valeur ponctuelle $f(x_0)$ n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer $f$, on impose une contrainte de régularité. On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.`

			`---`

			`## 2. L'approche "Naïve" : L'estimateur par intervalle`

			`Pour un point $x$ et un petit paramètre $h > 0$, la probabilité que $X \in [x-h, x+h]$ vaut :`

			`$$\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du$$`

			`Si $f$ est continue en $x$ et $h$ est petit, $\int_{x-h}^{x+h} f(u)\, du \approx 2h f(x)$. On estime cette probabilité par la proportion empirique :`

			`$$\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)$$`

			`D'où l'estimateur "naïf" :`

			`$$\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)$$`

			`où $K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u)$ est le noyau rectangulaire.`

			`---`

			`## 3. L'approche par Projection (Espaces de Hilbert)`

			`Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de $L^2([0,1])$.`

			`### 3.1 Espace de Hilbert et Bases Orthonormées`

			`On munit $L^2([0,1])$ du produit scalaire :`

			`$$\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx$$`

			`Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in L^2([0,1])$ s'écrit :`

			`$$f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle$$`

			`### 3.2 Régularité et Espaces de Sobolev`

			`Définition — Espace de Sobolev`

			`Pour $s > 0$, l'espace de Sobolev $W^s([0,1])$ est l'ensemble des fonctions $f \in L^2([0,1])$ telles que :`

			`$$\sum_{k \in \mathbb{Z}} \|\alpha_k\|^2 (1 + \|k\|)^{2s} < +\infty$$`

			`On définit l'ellipsoïde de Sobolev $B(s, R) = \{ f \in W^s : \\|f\\|_{W^s}^2 \leq R^2 \}$.`

			`### 3.3 Construction de l'estimateur par projection`

			`On approche $f$ par une version tronquée à l'ordre $M$ :`

			`$$\tilde{f}(x) = \sum_{\|k\| \leq M} \alpha_k e_k(x)$$`

			`Les coefficients $\alpha_k$ sont inconnus, mais $\alpha_k = \mathbb{E}[e_k(X)]$. Par la méthode des moments :`

			`$$\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)$$`

			`L'estimateur final est :`

			`$$\hat{f}(x) = \sum_{\|k\| \leq M} \hat{\alpha}_k e_k(x)$$`

			`---`

			`## 4. Analyse des Performances : Risque Quadratique`

			`Le risque est mesuré par l'Erreur Quadratique Moyenne Intégrée (MISE) :`

			`$$\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 \|\hat{f}(x) - f(x)\|^2\, dx\right]$$`

			`### 4.1 Décomposition Biais-Variance`

			`Par orthogonalité de la base, le risque se décompose en :`

			`$$\text{Risk} = \underbrace{\\|\tilde{f} - f\\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\\|\hat{f} - \tilde{f}\\|^2]}_{\text{Variance (Estimation)}}$$`

			`1. Biais : Pour $f \in B(s, R)$ :`
			`$$\text{Biais}^2 = \sum_{\|k\| > M} \|\alpha_k\|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})$$`

			`2. Variance : Si les fonctions de base sont bornées ($\|e_k\| \leq C$) :`
			`$$\text{Variance} = \sum_{\|k\| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)$$`

			`Le risque total est donc :`

			`$$\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}$$`

			`---`

			`## 5. Optimisation du paramètre de troncature`

			`On cherche $M^*$ qui équilibre biais et variance :`

			`$$\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}$$`

			`Vitesse de convergence : En substituant $M^*$ :`

			`$$\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}$$`

			`- Si $s \to \infty$ (fonction très lisse) : vitesse approche $N^{-1}$ (vitesse paramétrique).`
			`- Si $s \to 0$ (peu régulière) : $M^* \sim N$ et la vitesse est très lente.`

			`---`

			`## 6. Introduction à l'Approche par Noyau`

			`Définition — Noyau`

			`Un noyau $K : \mathbb{R} \to \mathbb{R}$ est une fonction intégrable telle que $\int_{\mathbb{R}} K(u)\, du = 1$. On définit le noyau mis à l'échelle par la fenêtre $h$ :`

			`$$K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)$$`

			`L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :`

			`$$\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$$`

			`---`

			`## 7. Analyse de l'Estimateur à Noyau`

			`L'estimateur à noyau repose sur deux idées fondamentales :`

			`1. Approximation : La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.`
			`2. Estimation : L'espérance de $\hat{f}(x)$ est précisément cette convolution.`

			`### 7.1 Cadre d'analyse : Espaces de Hölder`

			`Définition — Espace de Hölder $\Lambda(s, L)$`

			`Soit $s > 0$, écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0,1]$. Une fonction $f$ appartient à $\Lambda(s, L)$ si :`
			`1. $f$ est $k$ fois dérivable.`
			`2. La $k$-ième dérivée est $\beta$-höldérienne : $\forall x, y \in \mathbb{R},\; \|f^{(k)}(x) - f^{(k)}(y)\| \leq L\|x-y\|^\beta$.`

			`### 7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)`

			`Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit vérifier :`
			`1. $\int K(u)\, du = 1$`
			`2. $\int \|u\|^s \|K(u)\|\, du < +\infty$`
			`3. $\int u^l K(u)\, du = 0$ pour $l \in \{1, \dots, k\}$ — $K$ est alors dit noyau d'ordre $k$`

			`### 7.3 Résultat 1 : Contrôle du Biais`

			`Théorème — Borne sur le biais`

			`Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors :`

			`$$\sup_x \|\mathbb{E}[\hat{f}(x)] - f(x)\| \leq \frac{L \cdot C}{k!} h^s = O(h^s)$$`

			`où $C = \int \|y\|^s \|K(y)\|\, dy$.`

			`Preuve (esquisse) : Par changement de variable $y = \frac{x-u}{h}$ :`
			`$$(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy$$`
			`Un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en $h^s$.`

			`### 7.4 Résultat 2 : Contrôle de la Variance`

			`Théorème — Borne sur la variance`

			`Si $K \in L^2$ et $f$ est bornée :`

			`$$\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)$$`

			`où $C' = \\|f\\|_\infty \int K^2(u)\, du$.`

			`Preuve : Par indépendance des $X_n$ :`
			`$$\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\\|f\\|_\infty}{Nh}\int K^2$$`

			`---`

			`## 8. Conclusion : Le compromis Biais-Variance`

			`Le risque quadratique total se comporte comme :`

			`$$\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}$$`

			`Fenêtre optimale :`

			`$$h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}$$`

			`Vitesse de convergence minimax :`

			`$$\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}$$`

			`> Synthèse entre les deux approches`
			`>`
			`> \| Méthode \| Paramètre de lissage \| Rôle \|`
			`> \|---\|---\|---\|`
			`> \| Projection \| $M$ (nombre de modes) \| Régularisation par troncature \|`
			`> \| Noyau \| $1/h$ (inverse de la fenêtre) \| Régularisation par lissage \|`
			`>`
			`> Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ joue un rôle inversement proportionnel à $h$. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$ (vitesse paramétrique).`