Add course materials for statistical estimation and regression, including introductory chapters on non-parametric density estimation and neural networks as approximators.
This commit is contained in:
parent
9bc23a4fe4
commit
75c4a9c1f9
5 changed files with 515 additions and 7 deletions
14
README.md
14
README.md
|
|
@ -1,9 +1,9 @@
|
|||
# APM_4AI09 - Statistiques
|
||||
|
||||
|
||||
| Chapitre | Titre du cours | Supports (PDF) | Sources (TeX) |
|
||||
| :--- | :--- | :--- | :--- |
|
||||
| **Ch. 0** | Introduction à l'Estimation Statistique | [📄 ch0.pdf](./ch0.pdf) | [🛠 ch0.tex](./ch0.tex) |
|
||||
| **Ch. 1** | Estimation de Densité Non-Paramétrique | [📄 ch1.pdf](./ch1.pdf) | [🛠 ch1.tex](./ch1.tex) |
|
||||
| **Ch. 2** | Théorie de la Régression | [📄 ch2.pdf](./ch2.pdf) | [🛠 ch2.tex](./ch2.tex) |
|
||||
| **Ch. 3** | Les réseaux de neurones comme approximateurs | [📄 ch3.pdf](./ch3.pdf) | [🛠 ch3.tex](./ch3.tex) |
|
||||
| Chapitre | Titre du cours | Sources |
|
||||
| :--- | :--- | :--- |
|
||||
| **Ch. 0** | Introduction à l'Estimation Statistique | [ch0.md](./ch0.md) |
|
||||
| **Ch. 1** | Estimation de Densité Non-Paramétrique | [ch1.md](./ch1.md) |
|
||||
| **Ch. 2** | Théorie de la Régression | [ch2.md](./ch2.md) |
|
||||
| **Ch. 3** | Les réseaux de neurones comme approximateurs | [ch3.md](./ch3.md) |
|
||||
| **Ch. 4** | Reproducing Kernel Hilbert Space (RKHS) | [RKHS.md](./RKHS.md) |
|
||||
110
ch0.md
Normal file
110
ch0.md
Normal file
|
|
@ -0,0 +1,110 @@
|
|||
# Cours 0 : Introduction à l'Estimation Statistique
|
||||
|
||||
*Apprentissage Statistique / Statistiques Avancées*
|
||||
|
||||
> Ce cours introductif pose les fondations mathématiques des statistiques paramétriques et non paramétriques. Nous rappelons les principaux paradigmes de l'inférence statistique, passons en revue les méthodes classiques d'estimation paramétrique (Maximum de Vraisemblance et Méthode des Moments), et introduisons les concepts centraux des statistiques non paramétriques et de la théorie de l'approximation.
|
||||
|
||||
---
|
||||
|
||||
## 1. Rappels et Cadre Général
|
||||
|
||||
Soit $(X_i)_{1 \le i \le N}$ un ensemble de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Nous supposons que les données sont générées par un processus dont la densité de probabilité (ou fonction de masse) est notée $p_\theta$.
|
||||
|
||||
Ici, le paramètre d'intérêt est $\theta \in \Theta$, où $\Theta \subseteq \mathbb{R}^d$ ($d < \infty$). Le problème fondamental de l'estimation statistique est le suivant : *Étant donné l'observation du jeu de données $\{x_1, \dots, x_N\}$, comment trouver un estimateur de $\theta$, noté $\widehat{\theta}$ ?*
|
||||
|
||||
### 1.1 Résumé des Paradigmes Statistiques
|
||||
|
||||
Selon la nature de $\Theta$ et selon que $\theta$ est considéré comme déterministe ou comme une variable aléatoire, différents cadres mathématiques s'appliquent.
|
||||
|
||||
| | **$\theta$ déterministe** | **$\theta$ aléatoire** (distribution a priori) |
|
||||
|---|---|---|
|
||||
| **$\theta$ dans un ensemble discret/fini** (ex : $\theta \in \{0,1\}$) | **Tests d'hypothèses** — Lemme de Neyman-Pearson (maximiser $P_D$ sous $P_{FA} \le \alpha$) | **Théorie de la décision** — MV si $\theta$ équiprobable, MAP sinon |
|
||||
| **$\theta$ continu, dimension finie** (ex : $\theta \in [0,1]$) | **Théorie de l'estimation** — Aucun estimateur universellement optimal ; performances bornées par la **Borne de Cramér-Rao (BCR)** | **Approche bayésienne** — Estimateur MMSE : $\widehat{\theta} = \mathbb{E}[\theta \mid X]$ ; performances bornées par la BCR bayésienne |
|
||||
|
||||
---
|
||||
|
||||
## 2. Statistiques Paramétriques
|
||||
|
||||
En statistiques paramétriques, nous supposons que la distribution sous-jacente appartient à une famille connue régie par un paramètre déterministe de dimension finie $\theta \in \mathbb{R}^d$.
|
||||
|
||||
### 2.1 Estimation par le Maximum de Vraisemblance (MV)
|
||||
|
||||
La fonction de vraisemblance $L(\theta; x_1, \dots, x_N)$ représente la probabilité conjointe d'observer les données sachant $\theta$. Sous l'hypothèse i.i.d. :
|
||||
|
||||
$$L(\theta; x_1, \dots, x_N) = p_\theta(x_1, \dots, x_N) = \prod_{n=1}^N p_\theta(x_n)$$
|
||||
|
||||
L'**Estimateur du Maximum de Vraisemblance (EMV)** est :
|
||||
|
||||
$$\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} L(\theta; x_1, \dots, x_N)$$
|
||||
|
||||
En pratique, on maximise la **log-vraisemblance** (numériquement plus stable) :
|
||||
|
||||
$$\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} \ell(\theta) \quad \text{où} \quad \ell(\theta; x_1, \dots, x_N) = \sum_{n=1}^N \log p_\theta(x_n)$$
|
||||
|
||||
> **Exemple : Loi de Bernoulli**
|
||||
>
|
||||
> Soit $p_\theta$ une loi de Bernoulli de paramètre $\theta \in [0,1]$, et $x_1, \dots, x_N \in \{0,1\}$ des réalisations i.i.d. La fonction de masse est $p_\theta(x_n) = \theta^{x_n}(1-\theta)^{1-x_n}$.
|
||||
>
|
||||
> La vraisemblance vaut $L(\theta) = \theta^{S_N}(1-\theta)^{N-S_N}$ avec $S_N = \sum_{n=1}^N x_n$.
|
||||
>
|
||||
> La log-vraisemblance est $\ell(\theta) = S_N \log\theta + (N-S_N)\log(1-\theta)$.
|
||||
>
|
||||
> En annulant la dérivée : $\frac{\partial \ell}{\partial \theta} = \frac{S_N}{\theta} - \frac{N-S_N}{1-\theta} = 0 \implies \widehat{\theta}_{\text{MV}} = \frac{S_N}{N}$.
|
||||
|
||||
### 2.2 Méthode des Moments
|
||||
|
||||
La méthode des moments consiste à égaler les moments théoriques (fonctions de $\theta$) aux moments empiriques de l'échantillon.
|
||||
|
||||
> **Exemple avec la mesure empirique**
|
||||
>
|
||||
> Soit $X$ une v.a. de distribution $p_\theta(x) = \theta\,\delta_1(x) + (1-\theta)\,\delta_0(x)$.
|
||||
>
|
||||
> Le premier moment théorique est $\mathbb{E}_{p_\theta}[X] = \theta$.
|
||||
>
|
||||
> La distribution empirique est $\widehat{p}(x) = \frac{1}{N}\sum_{n=1}^N \delta_{x_n}(x)$, donc :
|
||||
> $$\widehat{\theta} = \mathbb{E}_{\widehat{p}}[X] = \frac{1}{N}\sum_{n=1}^N x_n$$
|
||||
|
||||
---
|
||||
|
||||
## 3. Statistiques Non Paramétriques
|
||||
|
||||
En statistiques non paramétriques, on abandonne l'hypothèse paramétrique de dimension finie. L'objet d'intérêt est une fonction $f$ appartenant à un espace fonctionnel de dimension infinie $\mathcal{F}$.
|
||||
|
||||
### 3.1 Travailler dans des Espaces de Dimension Infinie
|
||||
|
||||
Pour manipuler rigoureusement les espaces de dimension infinie, on restreint généralement $\mathcal{F}$ à un **espace de Hilbert**. Un espace de Hilbert généralise la notion d'espace euclidien : il est muni d'un produit scalaire $\langle \cdot, \cdot \rangle$ qui induit une distance, et il possède une base dénombrable. Cela permet de représenter les fonctions via des décompositions sur une base (séries de Fourier, ondelettes, etc.).
|
||||
|
||||
### 3.2 Théorie de l'Approximation et Compromis d'Erreur
|
||||
|
||||
Lorsque l'on estime une fonction $f \in \mathcal{F}$ à l'aide d'un espace d'hypothèses restreint $\mathcal{H}$ à partir de $N$ échantillons, on rencontre deux sources d'erreur :
|
||||
|
||||
1. **Erreur d'approximation (Biais) :** Erreur due à la restriction à $\mathcal{H}$ plutôt qu'à $\mathcal{F}$. Elle mesure à quel point le meilleur modèle dans $\mathcal{H}$ approche la vraie fonction $f$.
|
||||
2. **Erreur d'estimation (Variance) :** Erreur due au nombre fini $N$ d'échantillons disponibles.
|
||||
|
||||
Ces deux erreurs engendrent le fondamental **compromis Biais-Variance** : augmenter la complexité de $\mathcal{H}$ diminue le biais mais augmente la variance, et inversement.
|
||||
|
||||
### 3.3 Approche Minimax
|
||||
|
||||
Pour dériver des bornes sur ces erreurs, on utilise l'**approche minimax** : trouver l'estimateur qui minimise le risque maximum sur la pire distribution de $\mathcal{F}$ :
|
||||
|
||||
$$\inf_{\widehat{f}} \sup_{f \in \mathcal{F}} \mathbb{E}\left[L(\widehat{f}, f)\right]$$
|
||||
|
||||
---
|
||||
|
||||
## 4. Problèmes Classiques en Non Paramétrique
|
||||
|
||||
### 4.1 Estimation de Densité
|
||||
|
||||
Soit $X$ une v.a. de fonction de répartition $F$ et de densité $f$. Par définition :
|
||||
|
||||
$$F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^x f(u)\, du$$
|
||||
|
||||
**Objectif :** À partir de $\{x_1, \dots, x_N\}$, trouver un estimateur $\widehat{f}(x; x_1, \dots, x_N)$ approchant la vraie densité $f(x)$ partout. (Méthodes classiques : histogrammes, estimation par noyaux.)
|
||||
|
||||
### 4.2 Régression Non Paramétrique
|
||||
|
||||
On observe des paires $(X, Y)$ liées par :
|
||||
|
||||
$$Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon] = 0$$
|
||||
|
||||
**Objectif :** À partir de $\{(X_n, Y_n)\}_{1 \le n \le N}$, estimer la fonction inconnue $f(x)$ pour prédire $\widehat{y} = \widehat{f}(x)$.
|
||||
204
ch1.md
Normal file
204
ch1.md
Normal file
|
|
@ -0,0 +1,204 @@
|
|||
# Cours 1 : Estimation de Densité Non-Paramétrique
|
||||
|
||||
*Mars 2026*
|
||||
|
||||
---
|
||||
|
||||
## 1. Introduction et Motivation
|
||||
|
||||
L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ i.i.d. selon $f$.
|
||||
|
||||
**Définition — Densité de probabilité**
|
||||
|
||||
Une fonction $f : \mathbb{R} \to \mathbb{R}$ est une densité de probabilité si :
|
||||
1. $f(x) \geq 0$ pour presque tout $x$.
|
||||
2. $f \in L^1(\mathbb{R})$ et $\int_{\mathbb{R}} f(x)\, dx = 1$.
|
||||
|
||||
> **Remarque :** La valeur ponctuelle $f(x_0)$ n'est pas informative en elle-même car la mesure de Lebesgue d'un singleton est nulle. Pour estimer $f$, on impose une **contrainte de régularité**. On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.
|
||||
|
||||
---
|
||||
|
||||
## 2. L'approche "Naïve" : L'estimateur par intervalle
|
||||
|
||||
Pour un point $x$ et un petit paramètre $h > 0$, la probabilité que $X \in [x-h, x+h]$ vaut :
|
||||
|
||||
$$\mathbb{P}(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u)\, du$$
|
||||
|
||||
Si $f$ est continue en $x$ et $h$ est petit, $\int_{x-h}^{x+h} f(u)\, du \approx 2h f(x)$. On estime cette probabilité par la proportion empirique :
|
||||
|
||||
$$\hat{p} = \frac{1}{N} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n)$$
|
||||
|
||||
D'où l'estimateur "naïf" :
|
||||
|
||||
$$\hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \mathbb{1}_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\!\left(\frac{x-x_n}{h}\right)$$
|
||||
|
||||
où $K(u) = \frac{1}{2}\mathbb{1}_{[-1,1]}(u)$ est le **noyau rectangulaire**.
|
||||
|
||||
---
|
||||
|
||||
## 3. L'approche par Projection (Espaces de Hilbert)
|
||||
|
||||
Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de $L^2([0,1])$.
|
||||
|
||||
### 3.1 Espace de Hilbert et Bases Orthonormées
|
||||
|
||||
On munit $L^2([0,1])$ du produit scalaire :
|
||||
|
||||
$$\langle f, g \rangle = \int_0^1 f(x)\overline{g(x)}\, dx$$
|
||||
|
||||
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in L^2([0,1])$ s'écrit :
|
||||
|
||||
$$f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle$$
|
||||
|
||||
### 3.2 Régularité et Espaces de Sobolev
|
||||
|
||||
**Définition — Espace de Sobolev**
|
||||
|
||||
Pour $s > 0$, l'espace de Sobolev $W^s([0,1])$ est l'ensemble des fonctions $f \in L^2([0,1])$ telles que :
|
||||
|
||||
$$\sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty$$
|
||||
|
||||
On définit l'**ellipsoïde de Sobolev** $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$.
|
||||
|
||||
### 3.3 Construction de l'estimateur par projection
|
||||
|
||||
On approche $f$ par une version tronquée à l'ordre $M$ :
|
||||
|
||||
$$\tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x)$$
|
||||
|
||||
Les coefficients $\alpha_k$ sont inconnus, mais $\alpha_k = \mathbb{E}[e_k(X)]$. Par la méthode des moments :
|
||||
|
||||
$$\hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n)$$
|
||||
|
||||
L'estimateur final est :
|
||||
|
||||
$$\hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x)$$
|
||||
|
||||
---
|
||||
|
||||
## 4. Analyse des Performances : Risque Quadratique
|
||||
|
||||
Le risque est mesuré par l'**Erreur Quadratique Moyenne Intégrée (MISE)** :
|
||||
|
||||
$$\text{Risk}(\hat{f}, f) = \mathbb{E}\!\left[\int_0^1 |\hat{f}(x) - f(x)|^2\, dx\right]$$
|
||||
|
||||
### 4.1 Décomposition Biais-Variance
|
||||
|
||||
Par orthogonalité de la base, le risque se décompose en :
|
||||
|
||||
$$\text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\mathbb{E}[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance (Estimation)}}$$
|
||||
|
||||
1. **Biais** : Pour $f \in B(s, R)$ :
|
||||
$$\text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 \leq \frac{R^2}{M^{2s}} = O(M^{-2s})$$
|
||||
|
||||
2. **Variance** : Si les fonctions de base sont bornées ($|e_k| \leq C$) :
|
||||
$$\text{Variance} = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} = O\!\left(\frac{M}{N}\right)$$
|
||||
|
||||
Le risque total est donc :
|
||||
|
||||
$$\text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}}$$
|
||||
|
||||
---
|
||||
|
||||
## 5. Optimisation du paramètre de troncature
|
||||
|
||||
On cherche $M^*$ qui équilibre biais et variance :
|
||||
|
||||
$$\frac{\partial}{\partial M}\!\left(\frac{M}{N} + M^{-2s}\right) = 0 \implies \frac{1}{N} - 2s\, M^{-(2s+1)} = 0 \implies M^* \sim N^{\frac{1}{2s+1}}$$
|
||||
|
||||
**Vitesse de convergence :** En substituant $M^*$ :
|
||||
|
||||
$$\text{Risk}^* \sim N^{-\frac{2s}{2s+1}}$$
|
||||
|
||||
- Si $s \to \infty$ (fonction très lisse) : vitesse approche $N^{-1}$ (vitesse paramétrique).
|
||||
- Si $s \to 0$ (peu régulière) : $M^* \sim N$ et la vitesse est très lente.
|
||||
|
||||
---
|
||||
|
||||
## 6. Introduction à l'Approche par Noyau
|
||||
|
||||
**Définition — Noyau**
|
||||
|
||||
Un noyau $K : \mathbb{R} \to \mathbb{R}$ est une fonction intégrable telle que $\int_{\mathbb{R}} K(u)\, du = 1$. On définit le noyau mis à l'échelle par la fenêtre $h$ :
|
||||
|
||||
$$K_h(u) = \frac{1}{h} K\!\left(\frac{u}{h}\right)$$
|
||||
|
||||
L'estimateur à noyau est le produit de convolution entre la mesure empirique et le noyau :
|
||||
|
||||
$$\hat{f}(x) = (K_h * f_{\text{emp}})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$$
|
||||
|
||||
---
|
||||
|
||||
## 7. Analyse de l'Estimateur à Noyau
|
||||
|
||||
L'estimateur à noyau repose sur deux idées fondamentales :
|
||||
|
||||
1. **Approximation :** La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.
|
||||
2. **Estimation :** L'espérance de $\hat{f}(x)$ est précisément cette convolution.
|
||||
|
||||
### 7.1 Cadre d'analyse : Espaces de Hölder
|
||||
|
||||
**Définition — Espace de Hölder $\Lambda(s, L)$**
|
||||
|
||||
Soit $s > 0$, écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0,1]$. Une fonction $f$ appartient à $\Lambda(s, L)$ si :
|
||||
1. $f$ est $k$ fois dérivable.
|
||||
2. La $k$-ième dérivée est $\beta$-höldérienne : $\forall x, y \in \mathbb{R},\; |f^{(k)}(x) - f^{(k)}(y)| \leq L|x-y|^\beta$.
|
||||
|
||||
### 7.2 Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)
|
||||
|
||||
Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit vérifier :
|
||||
1. $\int K(u)\, du = 1$
|
||||
2. $\int |u|^s |K(u)|\, du < +\infty$
|
||||
3. $\int u^l K(u)\, du = 0$ pour $l \in \{1, \dots, k\}$ — $K$ est alors dit **noyau d'ordre $k$**
|
||||
|
||||
### 7.3 Résultat 1 : Contrôle du Biais
|
||||
|
||||
**Théorème — Borne sur le biais**
|
||||
|
||||
Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors :
|
||||
|
||||
$$\sup_x |\mathbb{E}[\hat{f}(x)] - f(x)| \leq \frac{L \cdot C}{k!} h^s = O(h^s)$$
|
||||
|
||||
où $C = \int |y|^s |K(y)|\, dy$.
|
||||
|
||||
*Preuve (esquisse) :* Par changement de variable $y = \frac{x-u}{h}$ :
|
||||
$$(K_h * f)(x) - f(x) = \int K(y)[f(x - hy) - f(x)]\, dy$$
|
||||
Un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ et les propriétés d'annulation des moments du noyau font disparaître les termes de dérivées. Le reste de Taylor est borné par la condition de Hölder en $h^s$.
|
||||
|
||||
### 7.4 Résultat 2 : Contrôle de la Variance
|
||||
|
||||
**Théorème — Borne sur la variance**
|
||||
|
||||
Si $K \in L^2$ et $f$ est bornée :
|
||||
|
||||
$$\text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\!\left(\frac{1}{Nh}\right)$$
|
||||
|
||||
où $C' = \|f\|_\infty \int K^2(u)\, du$.
|
||||
|
||||
*Preuve :* Par indépendance des $X_n$ :
|
||||
$$\text{Var}(\hat{f}(x)) = \frac{1}{N}\text{Var}(K_h(x-X_1)) \leq \frac{1}{N}\mathbb{E}[K_h(x-X_1)^2] = \frac{1}{Nh}\int K(u')^2 f(x-hu')\, du' \leq \frac{\|f\|_\infty}{Nh}\int K^2$$
|
||||
|
||||
---
|
||||
|
||||
## 8. Conclusion : Le compromis Biais-Variance
|
||||
|
||||
Le risque quadratique total se comporte comme :
|
||||
|
||||
$$\text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}}$$
|
||||
|
||||
**Fenêtre optimale :**
|
||||
|
||||
$$h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}}$$
|
||||
|
||||
**Vitesse de convergence minimax :**
|
||||
|
||||
$$\text{Risque}^* \sim N^{-\frac{2s}{2s+1}}$$
|
||||
|
||||
> **Synthèse entre les deux approches**
|
||||
>
|
||||
> | Méthode | Paramètre de lissage | Rôle |
|
||||
> |---|---|---|
|
||||
> | Projection | $M$ (nombre de modes) | Régularisation par troncature |
|
||||
> | Noyau | $1/h$ (inverse de la fenêtre) | Régularisation par lissage |
|
||||
>
|
||||
> Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ joue un rôle inversement proportionnel à $h$. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$ (vitesse paramétrique).
|
||||
109
ch2.md
Normal file
109
ch2.md
Normal file
|
|
@ -0,0 +1,109 @@
|
|||
# Cours 2 : Théorie de la Régression
|
||||
|
||||
*Fondamentaux, Non-paramétrique et Régularisation*
|
||||
|
||||
---
|
||||
|
||||
## 1. Introduction et Cadre Probabiliste
|
||||
|
||||
L'objectif de la régression est de prédire une variable de sortie $Y \in \mathbb{R}$ à partir d'un vecteur d'entrée $X \in \mathcal{X} \subset \mathbb{R}^d$.
|
||||
|
||||
Soit $(X, Y)$ un couple de v.a. suivant une loi jointe inconnue de densité $f_{X,Y}(x,y)$. On dispose d'un échantillon i.i.d. :
|
||||
|
||||
$$\mathcal{D}_N = \{(x_n, y_n)\}_{n=1}^N$$
|
||||
|
||||
On cherche une fonction de décision $f : \mathcal{X} \to \mathbb{R}$ telle que $f(X)$ soit une "bonne" approximation de $Y$.
|
||||
|
||||
---
|
||||
|
||||
## 2. L'approche Naïve et ses Limites
|
||||
|
||||
Une approche intuitive consiste à minimiser le risque empirique :
|
||||
|
||||
$$f^* = \arg\min_{f \in \mathcal{F}} \frac{1}{N} \sum_{n=1}^N |y_n - f(x_n)|^2$$
|
||||
|
||||
**Le problème du sur-apprentissage (Overfitting)**
|
||||
|
||||
Si $\mathcal{F}$ est trop vaste (ex : toutes les fonctions continues), il existe une infinité de solutions annulant parfaitement l'erreur empirique.
|
||||
|
||||
- **Polynôme de Lagrange :** On peut construire un polynôme de degré $N-1$ passant par tous les points $(x_n, y_n)$.
|
||||
- **Conséquence :** L'erreur d'entraînement est nulle, mais la généralisation sur de nouvelles données est médiocre. C'est le phénomène de **sur-apprentissage**.
|
||||
|
||||
---
|
||||
|
||||
## 3. Caractérisation de la Solution Optimale
|
||||
|
||||
**Définition — Fonction de régression**
|
||||
|
||||
La solution du problème de minimisation théorique :
|
||||
|
||||
$$f^* = \arg\min_{f \in L^2(P_X)} \mathbb{E}_{X,Y}\!\left[|Y - f(X)|^2\right]$$
|
||||
|
||||
est donnée par l'**espérance conditionnelle** :
|
||||
|
||||
$$m(x) = \mathbb{E}[Y \mid X = x]$$
|
||||
|
||||
**Preuve (approche bayésienne) :** Par désintégration de la mesure :
|
||||
|
||||
$$\mathbb{E}[(Y-f(X))^2] = \mathbb{E}_X\!\left[\mathbb{E}_Y[(Y-f(X))^2 \mid X=x]\right]$$
|
||||
|
||||
Pour chaque $x$, le minimum de $\mathbb{E}[(Y-c)^2 \mid X=x]$ en $c$ est atteint pour $c = \mathbb{E}[Y \mid X=x]$.
|
||||
|
||||
**Modèle de bruit additif :** On suppose souvent :
|
||||
|
||||
$$Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon \mid X] = 0, \quad \text{Var}(\varepsilon \mid X) = \sigma^2$$
|
||||
|
||||
La fonction cible est bien $f(x) = \mathbb{E}[Y \mid X=x]$.
|
||||
|
||||
---
|
||||
|
||||
## 4. Méthodes d'Estimation Non-Paramétriques
|
||||
|
||||
### 4.1 Approche Heuristique : $k$-plus proches voisins ($k$-NN)
|
||||
|
||||
L'idée est de moyenner les réponses $y_i$ des observations dont les $x_i$ sont les plus proches de $x$. Soit $\sigma_x$ une permutation telle que $\|x - x_{\sigma_x(1)}\| \leq \dots \leq \|x - x_{\sigma_x(N)}\|$.
|
||||
|
||||
- **Si $k=1$ :** $\hat{f}(x) = y_{\sigma_x(1)}$ — interpolation (risque de sur-apprentissage).
|
||||
- **Si $k=N$ :** $\hat{f}(x) = \frac{1}{N}\sum y_n = \bar{Y}$ — modèle constant (risque de sous-apprentissage).
|
||||
|
||||
### 4.2 Lissage par Noyau : Estimateur de Nadaraya-Watson
|
||||
|
||||
On cherche à estimer $m(x) = \int y\, \frac{f_{X,Y}(x,y)}{f_X(x)}\, dy$. En remplaçant les densités par leurs estimateurs de noyau (Parzen-Rosenblatt) :
|
||||
|
||||
- $\hat{f}_X(x) = \frac{1}{N}\sum_{n=1}^N K_h(x - x_n)$
|
||||
- $\hat{f}_{X,Y}(x,y) = \frac{1}{N}\sum_{n=1}^N K_h(x-x_n)\,K_h(y-y_n)$
|
||||
|
||||
L'**estimateur de Nadaraya-Watson** est :
|
||||
|
||||
$$\hat{f}(x) = \sum_{n=1}^N w_n(x)\, y_n, \quad \text{où } w_n(x) = \frac{K_h(x - x_n)}{\sum_{i=1}^N K_h(x - x_i)}$$
|
||||
|
||||
*Les poids $w_n(x)$ somment à 1 et représentent l'influence relative du point $n$ sur la prédiction en $x$.*
|
||||
|
||||
---
|
||||
|
||||
## 5. Régularisation et Splines de Lissage
|
||||
|
||||
Pour éviter le sur-apprentissage tout en restant flexible, on restreint l'espace des solutions en ajoutant une pénalité de régularisation.
|
||||
|
||||
### 5.1 Principe de Pénalisation
|
||||
|
||||
$$\hat{f} = \arg\min_{f} \sum_{n=1}^N |y_n - f(x_n)|^2 + \lambda\, \text{Pen}(f)$$
|
||||
|
||||
- **Régression Ridge :** $\text{Pen}(f) = \|f\|^2_{L^2}$ (favorise les petites normes)
|
||||
- **Lasso :** $\text{Pen}(f) = \|f\|_{L^1}$ (favorise la parcimonie)
|
||||
|
||||
### 5.2 Splines de Lissage
|
||||
|
||||
On minimise sur l'espace des fonctions deux fois dérivables sur $[a, b]$ :
|
||||
|
||||
$$J(f) = \frac{1}{N} \sum_{n=1}^N (y_n - f(x_n))^2 + \lambda \int_a^b |f''(t)|^2\, dt$$
|
||||
|
||||
Le terme $\int |f''(t)|^2\, dt$ pénalise la **courbure** de la fonction (sa "rugosité").
|
||||
|
||||
**Définition — Spline Cubique**
|
||||
|
||||
Une fonction $S$ est une spline cubique sur une partition $a = t_0 < t_1 < \dots < t_p = b$ si :
|
||||
1. $S$ est un polynôme de degré $\leq 3$ sur chaque intervalle $[t_n, t_{n+1}]$.
|
||||
2. $S$ est de classe $C^2$ sur $[a, b]$.
|
||||
|
||||
**Résultat fondamental :** La solution du problème $J(f)$ est unique et est une **spline cubique naturelle** dont les nœuds sont situés aux points d'observation $x_1, \dots, x_N$. Bien que l'espace $C^2$ soit de dimension infinie, la solution appartient à un espace de dimension finie $N$, ce qui rend le calcul possible par algèbre linéaire.
|
||||
85
ch3.md
Normal file
85
ch3.md
Normal file
|
|
@ -0,0 +1,85 @@
|
|||
# Cours 3 : Les réseaux de neurones comme approximateurs
|
||||
|
||||
*Limites des méthodes d'approximation linéaires*
|
||||
|
||||
---
|
||||
|
||||
## 1. Introduction et Contexte
|
||||
|
||||
L'objectif de ce chapitre est de démontrer que les méthodes d'approximation linéaires souffrent du **fléau de la dimension** lorsqu'elles sont appliquées à certaines classes de fonctions régulières. Ce résultat motive l'utilisation de méthodes non-linéaires (réseaux de neurones) qui atteignent de meilleurs taux de convergence.
|
||||
|
||||
> **Remarque :** Un réseau de neurones avec $N$ neurones peut être beaucoup plus performant pour approximer une fonction de $d$ variables qu'un sous-espace de dimension $N$ préfixé (polynômes, ondelettes, etc.).
|
||||
|
||||
---
|
||||
|
||||
## 2. Cadre Mathématique
|
||||
|
||||
### 2.1 La classe de fonctions $\mathcal{F}_C$
|
||||
|
||||
**Définition — Classe de régularité $\mathcal{F}_C$**
|
||||
|
||||
Soit $C > 0$. On définit $\mathcal{F}_C$ comme l'ensemble des fonctions $f \in L^2([0,1]^d)$ dont la transformée de Fourier $F(\vec{\omega})$ vérifie :
|
||||
|
||||
$$\mathcal{F}_C = \left\{ f \;\middle|\; f(\vec{x}) = \int_{\mathbb{R}^d} F(\vec{\omega})\, e^{2\pi i \vec{\omega} \cdot \vec{x}}\, d\vec{\omega} \;\text{ et }\; \int_{\mathbb{R}^d} \|\vec{\omega}\|_1\, |F(\vec{\omega})|\, d\vec{\omega} \le C \right\}$$
|
||||
|
||||
où $\|\vec{\omega}\|_1 = \sum_{j=1}^d |\omega_j|$.
|
||||
|
||||
### 2.2 Écart de Kolmogorov
|
||||
|
||||
**Définition — Écart de Kolmogorov**
|
||||
|
||||
Pour une classe $K \subset L^2([0,1]^d)$, l'**écart de dimension $N$** est :
|
||||
|
||||
$$w_N(K) = \inf_{H_N,\, \dim(H_N) \le N} \sup_{f \in K} \|f - \text{proj}_{H_N} f\|_{L^2}$$
|
||||
|
||||
C'est l'erreur d'approximation minimale atteignable par n'importe quel sous-espace linéaire de dimension au plus $N$.
|
||||
|
||||
---
|
||||
|
||||
## 3. Résultat Principal : Fléau de la Dimension
|
||||
|
||||
**Théorème**
|
||||
|
||||
Il existe $\kappa > 0$ tel que pour tout $N \ge 1$ et $d \ge 1$ :
|
||||
|
||||
$$w_N(\mathcal{F}_C) \ge \kappa\, \frac{C}{d}\, \frac{1}{N^{1/d}}$$
|
||||
|
||||
Ce résultat montre que pour toute méthode d'approximation **linéaire**, l'erreur décroît comme $N^{-1/d}$ : plus la dimension $d$ est grande, plus la convergence est lente.
|
||||
|
||||
---
|
||||
|
||||
## 4. Preuve du Théorème
|
||||
|
||||
### Étape 1 : Fonctions de test
|
||||
|
||||
Soient $\{\vec{k}_j\}_{j=1}^{2N} \subset \mathbb{N}^d$, ordonnés par $\|\vec{k}_1\|_1 \le \dots \le \|\vec{k}_{2N}\|_1$. On définit :
|
||||
|
||||
$$h_j^*(\vec{x}) = \cos(2\pi\, \vec{k}_j \cdot \vec{x}), \quad j = 1, \dots, 2N$$
|
||||
|
||||
### Étape 2 : Normalisation
|
||||
|
||||
**Lemme :** La fonction $f_{\vec{k}}(\vec{x}) = \frac{C}{2\|\vec{k}\|_1}\cos(2\pi\, \vec{k} \cdot \vec{x})$ appartient à $\mathcal{F}_C$.
|
||||
|
||||
*Preuve :* La transformée de Fourier de $\cos(2\pi\, \vec{k} \cdot \vec{x})$ est $\frac{1}{2}(\delta_{\vec{k}} + \delta_{-\vec{k}})$. Ainsi :
|
||||
|
||||
$$\int \|\vec{\omega}\|_1 |F_{f_{\vec{k}}}(\vec{\omega})|\, d\vec{\omega} = \frac{C}{4\|\vec{k}\|_1}\left(\|\vec{k}\|_1 + \|-\vec{k}\|_1\right) = \frac{C}{2} \le C \quad \square$$
|
||||
|
||||
### Étape 3 : Borne sur l'erreur
|
||||
|
||||
Pour tout sous-espace $H_N$ de dimension $N$, il existe une combinaison des $2N$ fonctions de test qui est orthogonale à $H_N$. L'erreur est alors minorée par :
|
||||
|
||||
$$w_N(\mathcal{F}_C) \ge \min_{j \in \{1, \dots, 2N\}} \frac{C}{2\sqrt{2}\,\|\vec{k}_j\|_1} = \frac{C}{2\sqrt{2}\,\|\vec{k}_{2N}\|_1}$$
|
||||
|
||||
### Étape 4 : Argument combinatoire
|
||||
|
||||
Le nombre de vecteurs $\vec{k} \in \mathbb{N}^d$ tels que $\|\vec{k}\|_1 \le m$ est $\binom{m+d}{d}$. On cherche $m$ tel que $\binom{m+d}{d} \ge 2N$.
|
||||
|
||||
En utilisant l'inégalité $\binom{m+d}{d} \ge \left(\frac{m}{d}\right)^d$, la condition est satisfaite si $m \ge d\,(2N)^{1/d}$.
|
||||
|
||||
### Étape 5 : Conclusion
|
||||
|
||||
En substituant dans la borne de l'étape 3 :
|
||||
|
||||
$$w_N(\mathcal{F}_C) \ge \frac{C}{2\sqrt{2} \cdot d\,(2N)^{1/d}} \ge \kappa\, \frac{C}{d}\, \frac{1}{N^{1/d}}$$
|
||||
|
||||
Ceci démontre que pour les méthodes linéaires, l'erreur décroît de plus en plus lentement à mesure que $d$ augmente — c'est le **fléau de la dimension**.
|
||||
Loading…
Add table
Reference in a new issue