APM_4AI09/ch0.md

6.6 KiB

Cours 0 : Introduction à l'Estimation Statistique

Apprentissage Statistique / Statistiques Avancées

Ce cours introductif pose les fondations mathématiques des statistiques paramétriques et non paramétriques. Nous rappelons les principaux paradigmes de l'inférence statistique, passons en revue les méthodes classiques d'estimation paramétrique (Maximum de Vraisemblance et Méthode des Moments), et introduisons les concepts centraux des statistiques non paramétriques et de la théorie de l'approximation.


1. Rappels et Cadre Général

Soit (X_i)_{1 \le i \le N} un ensemble de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Nous supposons que les données sont générées par un processus dont la densité de probabilité (ou fonction de masse) est notée p_\theta.

Ici, le paramètre d'intérêt est \theta \in \Theta, où \Theta \subseteq \mathbb{R}^d (d < \infty). Le problème fondamental de l'estimation statistique est le suivant : Étant donné l'observation du jeu de données \{x_1, \dots, x_N\}, comment trouver un estimateur de \theta, noté \widehat{\theta} ?

1.1 Résumé des Paradigmes Statistiques

Selon la nature de \Theta et selon que \theta est considéré comme déterministe ou comme une variable aléatoire, différents cadres mathématiques s'appliquent.

\theta déterministe \theta aléatoire (distribution a priori)
\theta dans un ensemble discret/fini (ex : \theta \in \{0,1\}) Tests d'hypothèses — Lemme de Neyman-Pearson (maximiser P_D sous P_{FA} \le \alpha) Théorie de la décision — MV si \theta équiprobable, MAP sinon
\theta continu, dimension finie (ex : \theta \in [0,1]) Théorie de l'estimation — Aucun estimateur universellement optimal ; performances bornées par la Borne de Cramér-Rao (BCR) Approche bayésienne — Estimateur MMSE : \widehat{\theta} = \mathbb{E}[\theta \mid X] ; performances bornées par la BCR bayésienne

2. Statistiques Paramétriques

En statistiques paramétriques, nous supposons que la distribution sous-jacente appartient à une famille connue régie par un paramètre déterministe de dimension finie \theta \in \mathbb{R}^d.

2.1 Estimation par le Maximum de Vraisemblance (MV)

La fonction de vraisemblance L(\theta; x_1, \dots, x_N) représente la probabilité conjointe d'observer les données sachant \theta. Sous l'hypothèse i.i.d. :

L(\theta; x_1, \dots, x_N) = p_\theta(x_1, \dots, x_N) = \prod_{n=1}^N p_\theta(x_n)

L'Estimateur du Maximum de Vraisemblance (EMV) est :

\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} L(\theta; x_1, \dots, x_N)

En pratique, on maximise la log-vraisemblance (numériquement plus stable) :

\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} \ell(\theta) \quad \text{où} \quad \ell(\theta; x_1, \dots, x_N) = \sum_{n=1}^N \log p_\theta(x_n)

Exemple : Loi de Bernoulli

Soit p_\theta une loi de Bernoulli de paramètre \theta \in [0,1], et x_1, \dots, x_N \in \{0,1\} des réalisations i.i.d. La fonction de masse est p_\theta(x_n) = \theta^{x_n}(1-\theta)^{1-x_n}.

La vraisemblance vaut L(\theta) = \theta^{S_N}(1-\theta)^{N-S_N} avec S_N = \sum_{n=1}^N x_n.

La log-vraisemblance est \ell(\theta) = S_N \log\theta + (N-S_N)\log(1-\theta).

En annulant la dérivée : \frac{\partial \ell}{\partial \theta} = \frac{S_N}{\theta} - \frac{N-S_N}{1-\theta} = 0 \implies \widehat{\theta}_{\text{MV}} = \frac{S_N}{N}.

2.2 Méthode des Moments

La méthode des moments consiste à égaler les moments théoriques (fonctions de \theta) aux moments empiriques de l'échantillon.

Exemple avec la mesure empirique

Soit X une v.a. de distribution p_\theta(x) = \theta\,\delta_1(x) + (1-\theta)\,\delta_0(x).

Le premier moment théorique est \mathbb{E}_{p_\theta}[X] = \theta.

La distribution empirique est \widehat{p}(x) = \frac{1}{N}\sum_{n=1}^N \delta_{x_n}(x), donc :

\widehat{\theta} = \mathbb{E}_{\widehat{p}}[X] = \frac{1}{N}\sum_{n=1}^N x_n

3. Statistiques Non Paramétriques

En statistiques non paramétriques, on abandonne l'hypothèse paramétrique de dimension finie. L'objet d'intérêt est une fonction f appartenant à un espace fonctionnel de dimension infinie \mathcal{F}.

3.1 Travailler dans des Espaces de Dimension Infinie

Pour manipuler rigoureusement les espaces de dimension infinie, on restreint généralement \mathcal{F} à un espace de Hilbert. Un espace de Hilbert généralise la notion d'espace euclidien : il est muni d'un produit scalaire \langle \cdot, \cdot \rangle qui induit une distance, et il possède une base dénombrable. Cela permet de représenter les fonctions via des décompositions sur une base (séries de Fourier, ondelettes, etc.).

3.2 Théorie de l'Approximation et Compromis d'Erreur

Lorsque l'on estime une fonction f \in \mathcal{F} à l'aide d'un espace d'hypothèses restreint \mathcal{H} à partir de N échantillons, on rencontre deux sources d'erreur :

  1. Erreur d'approximation (Biais) : Erreur due à la restriction à \mathcal{H} plutôt qu'à \mathcal{F}. Elle mesure à quel point le meilleur modèle dans \mathcal{H} approche la vraie fonction f.
  2. Erreur d'estimation (Variance) : Erreur due au nombre fini N d'échantillons disponibles.

Ces deux erreurs engendrent le fondamental compromis Biais-Variance : augmenter la complexité de \mathcal{H} diminue le biais mais augmente la variance, et inversement.

3.3 Approche Minimax

Pour dériver des bornes sur ces erreurs, on utilise l'approche minimax : trouver l'estimateur qui minimise le risque maximum sur la pire distribution de \mathcal{F} :

\inf_{\widehat{f}} \sup_{f \in \mathcal{F}} \mathbb{E}\left[L(\widehat{f}, f)\right]

4. Problèmes Classiques en Non Paramétrique

4.1 Estimation de Densité

Soit X une v.a. de fonction de répartition F et de densité f. Par définition :

F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^x f(u)\, du

Objectif : À partir de \{x_1, \dots, x_N\}, trouver un estimateur \widehat{f}(x; x_1, \dots, x_N) approchant la vraie densité f(x) partout. (Méthodes classiques : histogrammes, estimation par noyaux.)

4.2 Régression Non Paramétrique

On observe des paires (X, Y) liées par :

Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon] = 0

Objectif : À partir de \{(X_n, Y_n)\}_{1 \le n \le N}, estimer la fonction inconnue f(x) pour prédire \widehat{y} = \widehat{f}(x).