Add course materials for statistical estimation and regression, including introductory chapters on non-parametric density estimation and neural networks as approximators.

2026-04-07 11:25:22 +02:00

7.6 KiB

Raw Permalink Blame History

Cours 1 : Estimation de Densité Non-Paramétrique

Mars 2026

1. Introduction et Motivation

L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité f à partir d'un échantillon de variables aléatoires X_1, \dots, X_N i.i.d. selon f.

Définition — Densité de probabilité

Une fonction f : \mathbb{R} \to \mathbb{R} est une densité de probabilité si :

f(x) \geq 0 pour presque tout x.
f \in L^1(\mathbb{R}) et \int_{\mathbb{R}} f(x)\, dx = 1.

Remarque : La valeur ponctuelle f(x_0) n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer f, on impose une contrainte de régularité. On suppose généralement que f appartient à un sous-espace de fonctions régulières \mathcal{F} \subsetneq L^1.

2. L'approche "Naïve" : L'estimateur par intervalle

Pour un point x et un petit paramètre h > 0, la probabilité que X \in [x-h, x+h] vaut :

\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du

Si f est continue en x et h est petit, \int_{x-h}^{x+h} f(u)\, du \approx 2h f(x). On estime cette probabilité par la proportion empirique :

\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)

D'où l'estimateur "naïf" :

\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)

où K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u) est le noyau rectangulaire.

3. L'approche par Projection (Espaces de Hilbert)

Cette méthode repose sur la décomposition de f dans une base orthonormée de L^2([0,1]).

3.1 Espace de Hilbert et Bases Orthonormées

On munit L^2([0,1]) du produit scalaire :

\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx

Soit \{e_k\}_{k \in \mathbb{Z}} une base orthonormée (par exemple la base de Fourier e_k(x) = e^{i 2\pi k x}). Toute fonction f \in L^2([0,1]) s'écrit :

f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle

3.2 Régularité et Espaces de Sobolev

Définition — Espace de Sobolev

Pour s > 0, l'espace de Sobolev W^s([0,1]) est l'ensemble des fonctions f \in L^2([0,1]) telles que :

\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty

On définit l'ellipsoïde de Sobolev B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}.

3.3 Construction de l'estimateur par projection

On approche f par une version tronquée à l'ordre M :

\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)

Les coefficients \alpha_k sont inconnus, mais \alpha_k = \mathbb{E}[e_k(X)]. Par la méthode des moments :

\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)

L'estimateur final est :

\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)

4. Analyse des Performances : Risque Quadratique

Le risque est mesuré par l'Erreur Quadratique Moyenne Intégrée (MISE) :

\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]

4.1 Décomposition Biais-Variance

Par orthogonalité de la base, le risque se décompose en :

\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}

Biais : Pour f \in B(s, R) :

\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})

Variance : Si les fonctions de base sont bornées (|e_k| \leq C) :

\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)

Le risque total est donc :

\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}

5. Optimisation du paramètre de troncature

On cherche M^* qui équilibre biais et variance :

\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}

Vitesse de convergence : En substituant M^* :

\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}

Si s \to \infty (fonction très lisse) : vitesse approche N^{-1} (vitesse paramétrique).
Si s \to 0 (peu régulière) : M^* \sim N et la vitesse est très lente.

6. Introduction à l'Approche par Noyau

Définition — Noyau

Un noyau K : \mathbb{R} \to \mathbb{R} est une fonction intégrable telle que \int_{\mathbb{R}} K(u)\, du = 1. On définit le noyau mis à l'échelle par la fenêtre h :

K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)

L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :

\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)

7. Analyse de l'Estimateur à Noyau

L'estimateur à noyau repose sur deux idées fondamentales :

Approximation : La convolution (K_h * f)(x) converge vers f(x) quand h \to 0.
Estimation : L'espérance de \hat{f}(x) est précisément cette convolution.

7.1 Cadre d'analyse : Espaces de Hölder

Définition — Espace de Hölder $\Lambda(s, L)$

Soit s > 0, écrit s = k + \beta avec k \in \mathbb{N} et \beta \in ]0,1]. Une fonction f appartient à \Lambda(s, L) si :

f est k fois dérivable.
La $k$-ième dérivée est $\beta$-höldérienne : \forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta.

7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)

Pour exploiter la régularité d'ordre s, le noyau K doit vérifier :

\int K(u)\, du = 1
\int |u|^s |K(u)|\, du < +\infty
\int u^l K(u)\, du = 0 pour l \in \{1, \dots, k\} — K est alors dit noyau d'ordre $k$

7.3 Résultat 1 : Contrôle du Biais

Théorème — Borne sur le biais

Si f \in \Lambda(s, L) et K est un noyau d'ordre k, alors :

\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)

où C = \int |y|^s |K(y)|\, dy.

Preuve (esquisse) : Par changement de variable y = \frac{x-u}{h} :

(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy

Un développement de Taylor-Young de f à l'ordre k en x et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en h^s.

7.4 Résultat 2 : Contrôle de la Variance

Théorème — Borne sur la variance

Si K \in L^2 et f est bornée :

\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)

où C' = \|f\|_\infty \int K^2(u)\, du.

Preuve : Par indépendance des X_n :

\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2

8. Conclusion : Le compromis Biais-Variance

Le risque quadratique total se comporte comme :

\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}

Fenêtre optimale :

h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}

Vitesse de convergence minimax :

\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}

Synthèse entre les deux approches

Méthode Paramètre de lissage Rôle

Projection M (nombre de modes) Régularisation par troncature

Noyau 1/h (inverse de la fenêtre) Régularisation par lissage

Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre M joue un rôle inversement proportionnel à h. Plus s (la régularité) est grand, plus la vitesse approche 1/N (vitesse paramétrique).

Méthode	Paramètre de lissage	Rôle
Projection	`M` (nombre de modes)	Régularisation par troncature
Noyau	`1/h` (inverse de la fenêtre)	Régularisation par lissage

7.6 KiB Raw Permalink Blame History