\documentclass[11pt,a4paper]{article} \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage[french]{babel} \usepackage{amsmath, amssymb, amsthm, amsfonts} \usepackage{geometry} \geometry{margin=2.5cm} \usepackage{xcolor} \usepackage{hyperref} % --- Environnements Mathématiques --- \newtheorem{theorem}{Théorème}[section] \newtheorem{definition}{Définition}[section] \newtheorem{proposition}{Proposition}[section] \newtheorem{remark}{Remarque}[section] \newtheorem{example}{Exemple}[section] % --- Commandes Personnalisées --- \newcommand{\E}{\mathbb{E}} \newcommand{\R}{\mathbb{R}} \newcommand{\argmin}{\operatornamewithlimits{argmin}} \newcommand{\X}{\mathcal{X}} \title{\textbf{Cours de Statistique : Théorie de la Régression}\\ \large Fondamentaux, Non-paramétrique et Régularisation} \author{Lecture 2} \date{} \begin{document} \maketitle \section{Introduction et Cadre Probabiliste} L'objectif de la régression est de prédire une variable aléatoire de sortie $Y \in \R$ à partir d'un vecteur de variables d'entrée (prédicteurs) $X \in \X \subset \R^d$. Soit $(X, Y)$ un couple de variables aléatoires suivant une loi de probabilité jointe inconnue, caractérisée par sa densité $f_{X,Y}(x,y)$. Nous disposons d'un échantillon de $N$ observations indépendantes et identiquement distribuées (i.i.d.) : \[ \mathcal{D}_N = \{ (x_n, y_n) \}_{n=1}^N \] Nous cherchons une fonction de décision $f : \X \to \R$ telle que $f(X)$ soit une "bonne" approximation de $Y$. \section{L'approche Naïve et ses Limites} Une approche intuitive consiste à minimiser le risque empirique (erreur quadratique moyenne sur les données observées) : \begin{equation} f^* = \argmin_{f \in \mathcal{F}} \frac{1}{N} \sum_{n=1}^N |y_n - f(x_n)|^2 \end{equation} \paragraph{Le problème du sur-apprentissage (Overfitting)} Si l'espace de fonctions $\mathcal{F}$ est trop vaste (par exemple, l'ensemble de toutes les fonctions continues), il existe une infinité de solutions annulant parfaitement l'erreur empirique. \begin{itemize} \item \textbf{Polynôme de Lagrange :} On peut construire un polynôme de degré $N-1$ passant par tous les points $(x_n, y_n)$. \item \textbf{Conséquence :} Bien que l'erreur d'entraînement soit nulle, la capacité de généralisation sur de nouvelles données est médiocre. C'est le phénomène de sur-apprentissage. \end{itemize} \section{Caractérisation de la Solution Optimale} Pour définir proprement la "meilleure" fonction, on se place dans le cadre théorique de la minimisation du risque quadratique attendu (L2). \begin{definition}[Fonction de régression] La solution du problème de minimisation théorique : \[ f^* = \argmin_{f \in L^2(P_X)} \E_{X,Y} \left[ |Y - f(X)|^2 \right] \] est donnée par l'espérance conditionnelle : \begin{equation} m(x) = \E[Y | X = x] \end{equation} \end{definition} \paragraph{Preuve (Approche Bayésienne) :} En utilisant la loi des probabilités totales (désintégration de la mesure), on peut décomposer le risque : \[ \E[(Y-f(X))^2] = \E_X \left[ \E_Y[(Y-f(X))^2 | X=x] \right] \] Pour chaque $x$, le minimum de $\E[(Y-c)^2 | X=x]$ par rapport à la constante $c$ est atteint pour $c = \E[Y|X=x]$. \paragraph{Modèle de bruit additif :} On suppose souvent le modèle suivant : \[ Y = f(X) + \varepsilon, \quad \text{avec } \E[\varepsilon|X] = 0 \text{ et } \text{Var}(\varepsilon|X) = \sigma^2 \] Dans ce cas, la fonction cible est bien $f(x) = \E[Y|X=x]$. \section{Méthodes d'Estimation Non-Paramétriques} Puisque $f_{X,Y}$ est inconnue, nous devons estimer $m(x)$ à partir des données $\mathcal{D}_N$. \subsection{Approche Heuristique : $k$-plus proches voisins ($k$-NN)} L'idée est de moyenner les réponses $y_i$ des observations dont les $x_i$ sont les plus proches de $x$. Soit $\sigma_x$ une permutation des indices telle que $\|x - x_{\sigma_x(1)}\| \leq \dots \leq \|x - x_{\sigma_x(N)}\|$. \begin{itemize} \item \textbf{Si $k=1$ :} $\hat{f}(x) = y_{\sigma_x(1)}$. On interpole les données (Risque de sur-apprentissage). \item \textbf{Si $k=N$ :} $\hat{f}(x) = \frac{1}{N} \sum y_n = \bar{Y}$. Modèle constant (Risque de sous-apprentissage). \end{itemize} \subsection{Lissage par Noyau : Estimateur de Nadaraya-Watson} On cherche à estimer $m(x) = \int y \frac{f_{X,Y}(x,y)}{f_X(x)} dy$. En remplaçant les densités par leurs estimateurs de noyau (Parzen-Rosenblatt) : \begin{itemize} \item $\hat{f}_X(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$ \item $\hat{f}_{X,Y}(x,y) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) K_h(y - y_n)$ \end{itemize} L'estimateur de \textbf{Nadaraya-Watson} devient : \begin{equation} \hat{f}(x) = \sum_{n=1}^N w_n(x) y_n, \quad \text{où } w_n(x) = \frac{K_h(x - x_n)}{\sum_{i=1}^N K_h(x - x_i)} \end{equation} \textit{Note : Les poids $w_n(x)$ somment à 1 et représentent l'influence relative du point $n$ sur la prédiction en $x$.} \section{Régularisation et Splines de Lissage} Pour éviter le sur-apprentissage tout en restant flexible, on restreint l'espace des solutions en ajoutant une pénalité de régularisation. \subsection{Principe de Projection et Pénalisation} On cherche $f$ dans un sous-espace $\mathcal{E}$ de $L^2$ ou on minimise : \[ \hat{f} = \argmin_{f} \sum_{n=1}^N |y_n - f(x_n)|^2 + \lambda \text{Pen}(f) \] \begin{itemize} \item \textbf{Régression Ridge :} $\text{Pen}(f) = \|f\|^2_{L^2}$ (favorise les petites normes). \item \textbf{Lasso :} $\text{Pen}(f) = \|f\|_{L^1}$ (favorise la parcimonie). \end{itemize} \subsection{Splines de Lissage} On s'intéresse au problème de minimisation sur l'espace des fonctions deux fois dérivables sur $[a, b]$ : \begin{equation} J(f) = \frac{1}{N} \sum_{n=1}^N (y_n - f(x_n))^2 + \lambda \int_a^b |f''(t)|^2 dt \end{equation} Le terme $\int |f''(t)|^2 dt$ pénalise la courbure de la fonction (sa "rugosité"). \begin{definition}[Spline Cubique] Une fonction $S$ est une spline cubique sur une partition $a = t_0 < t_1 < \dots < t_p = b$ si : \begin{enumerate} \item $S$ est un polynôme de degré $\leq 3$ sur chaque intervalle $[t_n, t_{n+1}]$. \item $S$ est de classe $C^2$ sur $[a, b]$. \end{enumerate} \end{definition} \paragraph{Résultat Fondamental :} La solution du problème $J(f)$ est unique et est une \textbf{spline cubique naturelle} dont les nœuds sont situés aux points d'observation $x_1, \dots, x_N$. Bien que l'espace $C^2$ soit de dimension infinie, la solution appartient à un espace de dimension finie $N$, ce qui rend le calcul possible par des algorithmes d'algèbre linéaire. \end{document}