APM_4AI09/ch0.md

# Cours 0 : Introduction à l'Estimation Statistique

*Apprentissage Statistique / Statistiques Avancées*

> Ce cours introductif pose les fondations mathématiques des statistiques paramétriques et non paramétriques. Nous rappelons les principaux paradigmes de l'inférence statistique, passons en revue les méthodes classiques d'estimation paramétrique (Maximum de Vraisemblance et Méthode des Moments), et introduisons les concepts centraux des statistiques non paramétriques et de la théorie de l'approximation.

---

## 1. Rappels et Cadre Général

Soit $(X_i)_{1 \le i \le N}$ un ensemble de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Nous supposons que les données sont générées par un processus dont la densité de probabilité (ou fonction de masse) est notée $p_\theta$.

Ici, le paramètre d'intérêt est $\theta \in \Theta$, où $\Theta \subseteq \mathbb{R}^d$ ($d < \infty$). Le problème fondamental de l'estimation statistique est le suivant : *Étant donné l'observation du jeu de données $\{x_1, \dots, x_N\}$, comment trouver un estimateur de $\theta$, noté $\widehat{\theta}$ ?*

### 1.1 Résumé des Paradigmes Statistiques

Selon la nature de $\Theta$ et selon que $\theta$ est considéré comme déterministe ou comme une variable aléatoire, différents cadres mathématiques s'appliquent.

|  | **$\theta$ déterministe** | **$\theta$ aléatoire** (distribution a priori) |
|---|---|---|
| **$\theta$ dans un ensemble discret/fini** (ex : $\theta \in \{0,1\}$) | **Tests d'hypothèses** — Lemme de Neyman-Pearson (maximiser $P_D$ sous $P_{FA} \le \alpha$) | **Théorie de la décision** — MV si $\theta$ équiprobable, MAP sinon |
| **$\theta$ continu, dimension finie** (ex : $\theta \in [0,1]$) | **Théorie de l'estimation** — Aucun estimateur universellement optimal ; performances bornées par la **Borne de Cramér-Rao (BCR)** | **Approche bayésienne** — Estimateur MMSE : $\widehat{\theta} = \mathbb{E}[\theta \mid X]$ ; performances bornées par la BCR bayésienne |

---

## 2. Statistiques Paramétriques

En statistiques paramétriques, nous supposons que la distribution sous-jacente appartient à une famille connue régie par un paramètre déterministe de dimension finie $\theta \in \mathbb{R}^d$.

### 2.1 Estimation par le Maximum de Vraisemblance (MV)

La fonction de vraisemblance $L(\theta; x_1, \dots, x_N)$ représente la probabilité conjointe d'observer les données sachant $\theta$. Sous l'hypothèse i.i.d. :

$$L(\theta; x_1, \dots, x_N) = p_\theta(x_1, \dots, x_N) = \prod_{n=1}^N p_\theta(x_n)$$

L'**Estimateur du Maximum de Vraisemblance (EMV)** est :

$$\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} L(\theta; x_1, \dots, x_N)$$

En pratique, on maximise la **log-vraisemblance** (numériquement plus stable) :

$$\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} \ell(\theta) \quad \text{où} \quad \ell(\theta; x_1, \dots, x_N) = \sum_{n=1}^N \log p_\theta(x_n)$$

> **Exemple : Loi de Bernoulli**
>
> Soit $p_\theta$ une loi de Bernoulli de paramètre $\theta \in [0,1]$, et $x_1, \dots, x_N \in \{0,1\}$ des réalisations i.i.d. La fonction de masse est $p_\theta(x_n) = \theta^{x_n}(1-\theta)^{1-x_n}$.
>
> La vraisemblance vaut $L(\theta) = \theta^{S_N}(1-\theta)^{N-S_N}$ avec $S_N = \sum_{n=1}^N x_n$.
>
> La log-vraisemblance est $\ell(\theta) = S_N \log\theta + (N-S_N)\log(1-\theta)$.
>
> En annulant la dérivée : $\frac{\partial \ell}{\partial \theta} = \frac{S_N}{\theta} - \frac{N-S_N}{1-\theta} = 0 \implies \widehat{\theta}_{\text{MV}} = \frac{S_N}{N}$.

### 2.2 Méthode des Moments

La méthode des moments consiste à égaler les moments théoriques (fonctions de $\theta$) aux moments empiriques de l'échantillon.

> **Exemple avec la mesure empirique**
>
> Soit $X$ une v.a. de distribution $p_\theta(x) = \theta\,\delta_1(x) + (1-\theta)\,\delta_0(x)$.
>
> Le premier moment théorique est $\mathbb{E}_{p_\theta}[X] = \theta$.
>
> La distribution empirique est $\widehat{p}(x) = \frac{1}{N}\sum_{n=1}^N \delta_{x_n}(x)$, donc :
> $$\widehat{\theta} = \mathbb{E}_{\widehat{p}}[X] = \frac{1}{N}\sum_{n=1}^N x_n$$

---

## 3. Statistiques Non Paramétriques

En statistiques non paramétriques, on abandonne l'hypothèse paramétrique de dimension finie. L'objet d'intérêt est une fonction $f$ appartenant à un espace fonctionnel de dimension infinie $\mathcal{F}$.

### 3.1 Travailler dans des Espaces de Dimension Infinie

Pour manipuler rigoureusement les espaces de dimension infinie, on restreint généralement $\mathcal{F}$ à un **espace de Hilbert**. Un espace de Hilbert généralise la notion d'espace euclidien : il est muni d'un produit scalaire $\langle \cdot, \cdot \rangle$ qui induit une distance, et il possède une base dénombrable. Cela permet de représenter les fonctions via des décompositions sur une base (séries de Fourier, ondelettes, etc.).

### 3.2 Théorie de l'Approximation et Compromis d'Erreur

Lorsque l'on estime une fonction $f \in \mathcal{F}$ à l'aide d'un espace d'hypothèses restreint $\mathcal{H}$ à partir de $N$ échantillons, on rencontre deux sources d'erreur :

1. **Erreur d'approximation (Biais) :** Erreur due à la restriction à $\mathcal{H}$ plutôt qu'à $\mathcal{F}$. Elle mesure à quel point le meilleur modèle dans $\mathcal{H}$ approche la vraie fonction $f$.
2. **Erreur d'estimation (Variance) :** Erreur due au nombre fini $N$ d'échantillons disponibles.

Ces deux erreurs engendrent le fondamental **compromis Biais-Variance** : augmenter la complexité de $\mathcal{H}$ diminue le biais mais augmente la variance, et inversement.

### 3.3 Approche Minimax

Pour dériver des bornes sur ces erreurs, on utilise l'**approche minimax** : trouver l'estimateur qui minimise le risque maximum sur la pire distribution de $\mathcal{F}$ :

$$\inf_{\widehat{f}} \sup_{f \in \mathcal{F}} \mathbb{E}\left[L(\widehat{f}, f)\right]$$

---

## 4. Problèmes Classiques en Non Paramétrique

### 4.1 Estimation de Densité

Soit $X$ une v.a. de fonction de répartition $F$ et de densité $f$. Par définition :

$$F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^x f(u)\, du$$

**Objectif :** À partir de $\{x_1, \dots, x_N\}$, trouver un estimateur $\widehat{f}(x; x_1, \dots, x_N)$ approchant la vraie densité $f(x)$ partout. (Méthodes classiques : histogrammes, estimation par noyaux.)

### 4.2 Régression Non Paramétrique

On observe des paires $(X, Y)$ liées par :

$$Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon] = 0$$

**Objectif :** À partir de $\{(X_n, Y_n)\}_{1 \le n \le N}$, estimer la fonction inconnue $f(x)$ pour prédire $\widehat{y} = \widehat{f}(x)$.
Add course materials for statistical estimation and regression, including introductory chapters on non-parametric density estimation and neural networks as approximators. 2026-04-07 11:25:22 +02:00			`# Cours 0 : Introduction à l'Estimation Statistique`

			`Apprentissage Statistique / Statistiques Avancées`

			`> Ce cours introductif pose les fondations mathématiques des statistiques paramétriques et non paramétriques. Nous rappelons les principaux paradigmes de l'inférence statistique, passons en revue les méthodes classiques d'estimation paramétrique (Maximum de Vraisemblance et Méthode des Moments), et introduisons les concepts centraux des statistiques non paramétriques et de la théorie de l'approximation.`

			`---`

			`## 1. Rappels et Cadre Général`

			`Soit $(X_i)_{1 \le i \le N}$ un ensemble de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Nous supposons que les données sont générées par un processus dont la densité de probabilité (ou fonction de masse) est notée $p_\theta$.`

			`Ici, le paramètre d'intérêt est $\theta \in \Theta$, où $\Theta \subseteq \mathbb{R}^d$ ($d < \infty$). Le problème fondamental de l'estimation statistique est le suivant : Étant donné l'observation du jeu de données $\{x_1, \dots, x_N\}$, comment trouver un estimateur de $\theta$, noté $\widehat{\theta}$ ?`

			`### 1.1 Résumé des Paradigmes Statistiques`

			`Selon la nature de $\Theta$ et selon que $\theta$ est considéré comme déterministe ou comme une variable aléatoire, différents cadres mathématiques s'appliquent.`

			`\| \| $\theta$ déterministe \| $\theta$ aléatoire (distribution a priori) \|`
			`\|---\|---\|---\|`
			`\| $\theta$ dans un ensemble discret/fini (ex : $\theta \in \{0,1\}$) \| Tests d'hypothèses — Lemme de Neyman-Pearson (maximiser $P_D$ sous $P_{FA} \le \alpha$) \| Théorie de la décision — MV si $\theta$ équiprobable, MAP sinon \|`
			`\| $\theta$ continu, dimension finie (ex : $\theta \in [0,1]$) \| Théorie de l'estimation — Aucun estimateur universellement optimal ; performances bornées par la Borne de Cramér-Rao (BCR) \| Approche bayésienne — Estimateur MMSE : $\widehat{\theta} = \mathbb{E}[\theta \mid X]$ ; performances bornées par la BCR bayésienne \|`

			`---`

			`## 2. Statistiques Paramétriques`

			`En statistiques paramétriques, nous supposons que la distribution sous-jacente appartient à une famille connue régie par un paramètre déterministe de dimension finie $\theta \in \mathbb{R}^d$.`

			`### 2.1 Estimation par le Maximum de Vraisemblance (MV)`

			`La fonction de vraisemblance $L(\theta; x_1, \dots, x_N)$ représente la probabilité conjointe d'observer les données sachant $\theta$. Sous l'hypothèse i.i.d. :`

			`$$L(\theta; x_1, \dots, x_N) = p_\theta(x_1, \dots, x_N) = \prod_{n=1}^N p_\theta(x_n)$$`

			`L'Estimateur du Maximum de Vraisemblance (EMV) est :`

			`$$\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} L(\theta; x_1, \dots, x_N)$$`

			`En pratique, on maximise la log-vraisemblance (numériquement plus stable) :`

			`$$\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} \ell(\theta) \quad \text{où} \quad \ell(\theta; x_1, \dots, x_N) = \sum_{n=1}^N \log p_\theta(x_n)$$`

			`> Exemple : Loi de Bernoulli`
			`>`
			`> Soit $p_\theta$ une loi de Bernoulli de paramètre $\theta \in [0,1]$, et $x_1, \dots, x_N \in \{0,1\}$ des réalisations i.i.d. La fonction de masse est $p_\theta(x_n) = \theta^{x_n}(1-\theta)^{1-x_n}$.`
			`>`
			`> La vraisemblance vaut $L(\theta) = \theta^{S_N}(1-\theta)^{N-S_N}$ avec $S_N = \sum_{n=1}^N x_n$.`
			`>`
			`> La log-vraisemblance est $\ell(\theta) = S_N \log\theta + (N-S_N)\log(1-\theta)$.`
			`>`
			`> En annulant la dérivée : $\frac{\partial \ell}{\partial \theta} = \frac{S_N}{\theta} - \frac{N-S_N}{1-\theta} = 0 \implies \widehat{\theta}_{\text{MV}} = \frac{S_N}{N}$.`

			`### 2.2 Méthode des Moments`

			`La méthode des moments consiste à égaler les moments théoriques (fonctions de $\theta$) aux moments empiriques de l'échantillon.`

			`> Exemple avec la mesure empirique`
			`>`
			`> Soit $X$ une v.a. de distribution $p_\theta(x) = \theta\,\delta_1(x) + (1-\theta)\,\delta_0(x)$.`
			`>`
			`> Le premier moment théorique est $\mathbb{E}_{p_\theta}[X] = \theta$.`
			`>`
			`> La distribution empirique est $\widehat{p}(x) = \frac{1}{N}\sum_{n=1}^N \delta_{x_n}(x)$, donc :`
			`> $$\widehat{\theta} = \mathbb{E}_{\widehat{p}}[X] = \frac{1}{N}\sum_{n=1}^N x_n$$`

			`---`

			`## 3. Statistiques Non Paramétriques`

			`En statistiques non paramétriques, on abandonne l'hypothèse paramétrique de dimension finie. L'objet d'intérêt est une fonction $f$ appartenant à un espace fonctionnel de dimension infinie $\mathcal{F}$.`

			`### 3.1 Travailler dans des Espaces de Dimension Infinie`

			`Pour manipuler rigoureusement les espaces de dimension infinie, on restreint généralement $\mathcal{F}$ à un espace de Hilbert. Un espace de Hilbert généralise la notion d'espace euclidien : il est muni d'un produit scalaire $\langle \cdot, \cdot \rangle$ qui induit une distance, et il possède une base dénombrable. Cela permet de représenter les fonctions via des décompositions sur une base (séries de Fourier, ondelettes, etc.).`

			`### 3.2 Théorie de l'Approximation et Compromis d'Erreur`

			`Lorsque l'on estime une fonction $f \in \mathcal{F}$ à l'aide d'un espace d'hypothèses restreint $\mathcal{H}$ à partir de $N$ échantillons, on rencontre deux sources d'erreur :`

			`1. Erreur d'approximation (Biais) : Erreur due à la restriction à $\mathcal{H}$ plutôt qu'à $\mathcal{F}$. Elle mesure à quel point le meilleur modèle dans $\mathcal{H}$ approche la vraie fonction $f$.`
			`2. Erreur d'estimation (Variance) : Erreur due au nombre fini $N$ d'échantillons disponibles.`

			`Ces deux erreurs engendrent le fondamental compromis Biais-Variance : augmenter la complexité de $\mathcal{H}$ diminue le biais mais augmente la variance, et inversement.`

			`### 3.3 Approche Minimax`

			`Pour dériver des bornes sur ces erreurs, on utilise l'approche minimax : trouver l'estimateur qui minimise le risque maximum sur la pire distribution de $\mathcal{F}$ :`

			`$$\inf_{\widehat{f}} \sup_{f \in \mathcal{F}} \mathbb{E}\left[L(\widehat{f}, f)\right]$$`

			`---`

			`## 4. Problèmes Classiques en Non Paramétrique`

			`### 4.1 Estimation de Densité`

			`Soit $X$ une v.a. de fonction de répartition $F$ et de densité $f$. Par définition :`

			`$$F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^x f(u)\, du$$`

			`Objectif : À partir de $\{x_1, \dots, x_N\}$, trouver un estimateur $\widehat{f}(x; x_1, \dots, x_N)$ approchant la vraie densité $f(x)$ partout. (Méthodes classiques : histogrammes, estimation par noyaux.)`

			`### 4.2 Régression Non Paramétrique`

			`On observe des paires $(X, Y)$ liées par :`

			`$$Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon] = 0$$`

			`Objectif : À partir de $\{(X_n, Y_n)\}_{1 \le n \le N}$, estimer la fonction inconnue $f(x)$ pour prédire $\widehat{y} = \widehat{f}(x)$.`