4.6 KiB
Cours 2 : Théorie de la Régression
Fondamentaux, Non-paramétrique et Régularisation
1. Introduction et Cadre Probabiliste
L'objectif de la régression est de prédire une variable de sortie Y \in \mathbb{R} à partir d'un vecteur d'entrée X \in \mathcal{X} \subset \mathbb{R}^d.
Soit (X, Y) un couple de v.a. suivant une loi jointe inconnue de densité f_{X,Y}(x,y). On dispose d'un échantillon i.i.d. :
\mathcal{D}_N = \{(x_n, y_n)\}_{n=1}^N
On cherche une fonction de décision f : \mathcal{X} \to \mathbb{R} telle que f(X) soit une "bonne" approximation de Y.
2. L'approche Naïve et ses Limites
Une approche intuitive consiste à minimiser le risque empirique :
f^* = \arg\min_{f \in \mathcal{F}} \frac{1}{N} \sum_{n=1}^N |y_n - f(x_n)|^2
Le problème du sur-apprentissage (Overfitting)
Si \mathcal{F} est trop vaste (ex : toutes les fonctions continues), il existe une infinité de solutions annulant parfaitement l'erreur empirique.
- Polynôme de Lagrange : On peut construire un polynôme de degré
N-1passant par tous les points(x_n, y_n). - Conséquence : L'erreur d'entraînement est nulle, mais la généralisation sur de nouvelles données est médiocre. C'est le phénomène de sur-apprentissage.
3. Caractérisation de la Solution Optimale
Définition — Fonction de régression
La solution du problème de minimisation théorique :
f^* = \arg\min_{f \in L^2(P_X)} \mathbb{E}_{X,Y}\!\left[|Y - f(X)|^2\right]
est donnée par l'espérance conditionnelle :
m(x) = \mathbb{E}[Y \mid X = x]
Preuve (approche bayésienne) : Par désintégration de la mesure :
\mathbb{E}[(Y-f(X))^2] = \mathbb{E}_X\!\left[\mathbb{E}_Y[(Y-f(X))^2 \mid X=x]\right]
Pour chaque x, le minimum de \mathbb{E}[(Y-c)^2 \mid X=x] en c est atteint pour c = \mathbb{E}[Y \mid X=x].
Modèle de bruit additif : On suppose souvent :
Y = f(X) + \varepsilon, \quad \mathbb{E}[\varepsilon \mid X] = 0, \quad \text{Var}(\varepsilon \mid X) = \sigma^2
La fonction cible est bien f(x) = \mathbb{E}[Y \mid X=x].
4. Méthodes d'Estimation Non-Paramétriques
4.1 Approche Heuristique : $k$-plus proches voisins ($k$-NN)
L'idée est de moyenner les réponses y_i des observations dont les x_i sont les plus proches de x. Soit \sigma_x une permutation telle que \|x - x_{\sigma_x(1)}\| \leq \dots \leq \|x - x_{\sigma_x(N)}\|.
- Si
k=1:\hat{f}(x) = y_{\sigma_x(1)}— interpolation (risque de sur-apprentissage). - Si
k=N:\hat{f}(x) = \frac{1}{N}\sum y_n = \bar{Y}— modèle constant (risque de sous-apprentissage).
4.2 Lissage par Noyau : Estimateur de Nadaraya-Watson
On cherche à estimer m(x) = \int y\, \frac{f_{X,Y}(x,y)}{f_X(x)}\, dy. En remplaçant les densités par leurs estimateurs de noyau (Parzen-Rosenblatt) :
\hat{f}_X(x) = \frac{1}{N}\sum_{n=1}^N K_h(x - x_n)\hat{f}_{X,Y}(x,y) = \frac{1}{N}\sum_{n=1}^N K_h(x-x_n)\,K_h(y-y_n)
L'estimateur de Nadaraya-Watson est :
\hat{f}(x) = \sum_{n=1}^N w_n(x)\, y_n, \quad \text{où } w_n(x) = \frac{K_h(x - x_n)}{\sum_{i=1}^N K_h(x - x_i)}
Les poids w_n(x) somment à 1 et représentent l'influence relative du point n sur la prédiction en x.
5. Régularisation et Splines de Lissage
Pour éviter le sur-apprentissage tout en restant flexible, on restreint l'espace des solutions en ajoutant une pénalité de régularisation.
5.1 Principe de Pénalisation
\hat{f} = \arg\min_{f} \sum_{n=1}^N |y_n - f(x_n)|^2 + \lambda\, \text{Pen}(f)
- Régression Ridge :
\text{Pen}(f) = \|f\|^2_{L^2}(favorise les petites normes) - Lasso :
\text{Pen}(f) = \|f\|_{L^1}(favorise la parcimonie)
5.2 Splines de Lissage
On minimise sur l'espace des fonctions deux fois dérivables sur [a, b] :
J(f) = \frac{1}{N} \sum_{n=1}^N (y_n - f(x_n))^2 + \lambda \int_a^b |f''(t)|^2\, dt
Le terme \int |f''(t)|^2\, dt pénalise la courbure de la fonction (sa "rugosité").
Définition — Spline Cubique
Une fonction S est une spline cubique sur une partition a = t_0 < t_1 < \dots < t_p = b si :
Sest un polynôme de degré\leq 3sur chaque intervalle[t_n, t_{n+1}].Sest de classeC^2sur[a, b].
Résultat fondamental : La solution du problème J(f) est unique et est une spline cubique naturelle dont les nœuds sont situés aux points d'observation x_1, \dots, x_N. Bien que l'espace C^2 soit de dimension infinie, la solution appartient à un espace de dimension finie N, ce qui rend le calcul possible par algèbre linéaire.