6.6 KiB
Cours 0 : Introduction à l'Estimation Statistique
Apprentissage Statistique / Statistiques Avancées
Ce cours introductif pose les fondations mathématiques des statistiques paramétriques et non paramétriques. Nous rappelons les principaux paradigmes de l'inférence statistique, passons en revue les méthodes classiques d'estimation paramétrique (Maximum de Vraisemblance et Méthode des Moments), et introduisons les concepts centraux des statistiques non paramétriques et de la théorie de l'approximation.
1. Rappels et Cadre Général
Soit (X_i)_{1 \le i \le N} un ensemble de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Nous supposons que les données sont générées par un processus dont la densité de probabilité (ou fonction de masse) est notée p_\theta.
Ici, le paramètre d'intérêt est \theta \in \Theta, où \Theta \subseteq \mathbb{R}^d (d < \infty). Le problème fondamental de l'estimation statistique est le suivant : Étant donné l'observation du jeu de données \{x_1, \dots, x_N\}, comment trouver un estimateur de \theta, noté \widehat{\theta} ?
1.1 Résumé des Paradigmes Statistiques
Selon la nature de \Theta et selon que \theta est considéré comme déterministe ou comme une variable aléatoire, différents cadres mathématiques s'appliquent.
\theta déterministe |
\theta aléatoire (distribution a priori) |
|
|---|---|---|
\theta dans un ensemble discret/fini (ex : \theta \in \{0,1\}) |
Tests d'hypothèses — Lemme de Neyman-Pearson (maximiser P_D sous P_{FA} \le \alpha) |
Théorie de la décision — MV si \theta équiprobable, MAP sinon |
\theta continu, dimension finie (ex : \theta \in [0,1]) |
Théorie de l'estimation — Aucun estimateur universellement optimal ; performances bornées par la Borne de Cramér-Rao (BCR) | Approche bayésienne — Estimateur MMSE : \widehat{\theta} = \mathbb{E}[\theta \mid X] ; performances bornées par la BCR bayésienne |
2. Statistiques Paramétriques
En statistiques paramétriques, nous supposons que la distribution sous-jacente appartient à une famille connue régie par un paramètre déterministe de dimension finie \theta \in \mathbb{R}^d.
2.1 Estimation par le Maximum de Vraisemblance (MV)
La fonction de vraisemblance L(\theta; x_1, \dots, x_N) représente la probabilité conjointe d'observer les données sachant \theta. Sous l'hypothèse i.i.d. :
L(\theta; x_1, \dots, x_N) = p_\theta(x_1, \dots, x_N) = \prod_{n=1}^N p_\theta(x_n)
L'Estimateur du Maximum de Vraisemblance (EMV) est :
\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} L(\theta; x_1, \dots, x_N)
En pratique, on maximise la log-vraisemblance (numériquement plus stable) :
\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} \ell(\theta) \quad \text{où} \quad \ell(\theta; x_1, \dots, x_N) = \sum_{n=1}^N \log p_\theta(x_n)
Exemple : Loi de Bernoulli
Soit
p_\thetaune loi de Bernoulli de paramètre\theta \in [0,1], etx_1, \dots, x_N \in \{0,1\}des réalisations i.i.d. La fonction de masse estp_\theta(x_n) = \theta^{x_n}(1-\theta)^{1-x_n}.La vraisemblance vaut
L(\theta) = \theta^{S_N}(1-\theta)^{N-S_N}avecS_N = \sum_{n=1}^N x_n.La log-vraisemblance est
\ell(\theta) = S_N \log\theta + (N-S_N)\log(1-\theta).En annulant la dérivée :
\frac{\partial \ell}{\partial \theta} = \frac{S_N}{\theta} - \frac{N-S_N}{1-\theta} = 0 \implies \widehat{\theta}_{\text{MV}} = \frac{S_N}{N}.
2.2 Méthode des Moments
La méthode des moments consiste à égaler les moments théoriques (fonctions de \theta) aux moments empiriques de l'échantillon.
Exemple avec la mesure empirique
Soit
Xune v.a. de distributionp_\theta(x) = \theta\,\delta_1(x) + (1-\theta)\,\delta_0(x).Le premier moment théorique est
\mathbb{E}_{p_\theta}[X] = \theta.La distribution empirique est
\widehat{p}(x) = \frac{1}{N}\sum_{n=1}^N \delta_{x_n}(x), donc :\widehat{\theta} = \mathbb{E}_{\widehat{p}}[X] = \frac{1}{N}\sum_{n=1}^N x_n
3. Statistiques Non Paramétriques
En statistiques non paramétriques, on abandonne l'hypothèse paramétrique de dimension finie. L'objet d'intérêt est une fonction f appartenant à un espace fonctionnel de dimension infinie \mathcal{F}.
3.1 Travailler dans des Espaces de Dimension Infinie
Pour manipuler rigoureusement les espaces de dimension infinie, on restreint généralement \mathcal{F} à un espace de Hilbert. Un espace de Hilbert généralise la notion d'espace euclidien : il est muni d'un produit scalaire \langle \cdot, \cdot \rangle qui induit une distance, et il possède une base dénombrable. Cela permet de représenter les fonctions via des décompositions sur une base (séries de Fourier, ondelettes, etc.).
3.2 Théorie de l'Approximation et Compromis d'Erreur
Lorsque l'on estime une fonction f \in \mathcal{F} à l'aide d'un espace d'hypothèses restreint \mathcal{H} à partir de N échantillons, on rencontre deux sources d'erreur :
- Erreur d'approximation (Biais) : Erreur due à la restriction à
\mathcal{H}plutôt qu'à\mathcal{F}. Elle mesure à quel point le meilleur modèle dans\mathcal{H}approche la vraie fonctionf. - Erreur d'estimation (Variance) : Erreur due au nombre fini
Nd'échantillons disponibles.
Ces deux erreurs engendrent le fondamental compromis Biais-Variance : augmenter la complexité de \mathcal{H} diminue le biais mais augmente la variance, et inversement.
3.3 Approche Minimax
Pour dériver des bornes sur ces erreurs, on utilise l'approche minimax : trouver l'estimateur qui minimise le risque maximum sur la pire distribution de \mathcal{F} :
\inf_{\widehat{f}} \sup_{f \in \mathcal{F}} \mathbb{E}\left[L(\widehat{f}, f)\right]
4. Problèmes Classiques en Non Paramétrique
4.1 Estimation de Densité
Soit X une v.a. de fonction de répartition F et de densité f. Par définition :
F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^x f(u)\, du
Objectif : À partir de \{x_1, \dots, x_N\}, trouver un estimateur \widehat{f}(x; x_1, \dots, x_N) approchant la vraie densité f(x) partout. (Méthodes classiques : histogrammes, estimation par noyaux.)
4.2 Régression Non Paramétrique
On observe des paires (X, Y) liées par :
Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon] = 0
Objectif : À partir de \{(X_n, Y_n)\}_{1 \le n \le N}, estimer la fonction inconnue f(x) pour prédire \widehat{y} = \widehat{f}(x).