APM_4AI09/ch2.tex

\documentclass[11pt,a4paper]{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[french]{babel}
\usepackage{amsmath, amssymb, amsthm, amsfonts}
\usepackage{geometry}
\geometry{margin=2.5cm}
\usepackage{xcolor}
\usepackage{hyperref}

% --- Environnements Mathématiques ---
\newtheorem{theorem}{Théorème}[section]
\newtheorem{definition}{Définition}[section]
\newtheorem{proposition}{Proposition}[section]
\newtheorem{remark}{Remarque}[section]
\newtheorem{example}{Exemple}[section]

% --- Commandes Personnalisées ---
\newcommand{\E}{\mathbb{E}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\argmin}{\operatornamewithlimits{argmin}}
\newcommand{\X}{\mathcal{X}}

\title{\textbf{Cours de Statistique : Théorie de la Régression}\\ \large Fondamentaux, Non-paramétrique et Régularisation}
\author{Lecture 2}
\date{}

\begin{document}

\maketitle

\section{Introduction et Cadre Probabiliste}

L'objectif de la régression est de prédire une variable aléatoire de sortie $Y \in \R$ à partir d'un vecteur de variables d'entrée (prédicteurs) $X \in \X \subset \R^d$.

Soit $(X, Y)$ un couple de variables aléatoires suivant une loi de probabilité jointe inconnue, caractérisée par sa densité $f_{X,Y}(x,y)$. Nous disposons d'un échantillon de $N$ observations indépendantes et identiquement distribuées (i.i.d.) :
\[ \mathcal{D}_N = \{ (x_n, y_n) \}_{n=1}^N \]
Nous cherchons une fonction de décision $f : \X \to \R$ telle que $f(X)$ soit une "bonne" approximation de $Y$.

\section{L'approche Naïve et ses Limites}

Une approche intuitive consiste à minimiser le risque empirique (erreur quadratique moyenne sur les données observées) :
\begin{equation}
    f^* = \argmin_{f \in \mathcal{F}} \frac{1}{N} \sum_{n=1}^N |y_n - f(x_n)|^2
\end{equation}

\paragraph{Le problème du sur-apprentissage (Overfitting)}
Si l'espace de fonctions $\mathcal{F}$ est trop vaste (par exemple, l'ensemble de toutes les fonctions continues), il existe une infinité de solutions annulant parfaitement l'erreur empirique.
\begin{itemize}
    \item \textbf{Polynôme de Lagrange :} On peut construire un polynôme de degré $N-1$ passant par tous les points $(x_n, y_n)$.
    \item \textbf{Conséquence :} Bien que l'erreur d'entraînement soit nulle, la capacité de généralisation sur de nouvelles données est médiocre. C'est le phénomène de sur-apprentissage.
\end{itemize}

\section{Caractérisation de la Solution Optimale}

Pour définir proprement la "meilleure" fonction, on se place dans le cadre théorique de la minimisation du risque quadratique attendu (L2).

\begin{definition}[Fonction de régression]
La solution du problème de minimisation théorique :
\[ f^* = \argmin_{f \in L^2(P_X)} \E_{X,Y} \left[ |Y - f(X)|^2 \right] \]
est donnée par l'espérance conditionnelle :
\begin{equation}
    m(x) = \E[Y | X = x]
\end{equation}
\end{definition}

\paragraph{Preuve (Approche Bayésienne) :}
En utilisant la loi des probabilités totales (désintégration de la mesure), on peut décomposer le risque :
\[ \E[(Y-f(X))^2] = \E_X \left[ \E_Y[(Y-f(X))^2 | X=x] \right] \]
Pour chaque $x$, le minimum de $\E[(Y-c)^2 | X=x]$ par rapport à la constante $c$ est atteint pour $c = \E[Y|X=x]$.

\paragraph{Modèle de bruit additif :}
On suppose souvent le modèle suivant :
\[ Y = f(X) + \varepsilon, \quad \text{avec } \E[\varepsilon|X] = 0 \text{ et } \text{Var}(\varepsilon|X) = \sigma^2 \]
Dans ce cas, la fonction cible est bien $f(x) = \E[Y|X=x]$.

\section{Méthodes d'Estimation Non-Paramétriques}

Puisque $f_{X,Y}$ est inconnue, nous devons estimer $m(x)$ à partir des données $\mathcal{D}_N$.

\subsection{Approche Heuristique : $k$-plus proches voisins ($k$-NN)}
L'idée est de moyenner les réponses $y_i$ des observations dont les $x_i$ sont les plus proches de $x$. Soit $\sigma_x$ une permutation des indices telle que $\|x - x_{\sigma_x(1)}\| \leq \dots \leq \|x - x_{\sigma_x(N)}\|$.
\begin{itemize}
    \item \textbf{Si $k=1$ :} $\hat{f}(x) = y_{\sigma_x(1)}$. On interpole les données (Risque de sur-apprentissage).
    \item \textbf{Si $k=N$ :} $\hat{f}(x) = \frac{1}{N} \sum y_n = \bar{Y}$. Modèle constant (Risque de sous-apprentissage).
\end{itemize}

\subsection{Lissage par Noyau : Estimateur de Nadaraya-Watson}
On cherche à estimer $m(x) = \int y \frac{f_{X,Y}(x,y)}{f_X(x)} dy$. En remplaçant les densités par leurs estimateurs de noyau (Parzen-Rosenblatt) :
\begin{itemize}
    \item $\hat{f}_X(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$
    \item $\hat{f}_{X,Y}(x,y) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) K_h(y - y_n)$
\end{itemize}

L'estimateur de \textbf{Nadaraya-Watson} devient :
\begin{equation}
    \hat{f}(x) = \sum_{n=1}^N w_n(x) y_n, \quad \text{où } w_n(x) = \frac{K_h(x - x_n)}{\sum_{i=1}^N K_h(x - x_i)}
\end{equation}
\textit{Note : Les poids $w_n(x)$ somment à 1 et représentent l'influence relative du point $n$ sur la prédiction en $x$.}

\section{Régularisation et Splines de Lissage}

Pour éviter le sur-apprentissage tout en restant flexible, on restreint l'espace des solutions en ajoutant une pénalité de régularisation.

\subsection{Principe de Projection et Pénalisation}
On cherche $f$ dans un sous-espace $\mathcal{E}$ de $L^2$ ou on minimise :
\[ \hat{f} = \argmin_{f} \sum_{n=1}^N |y_n - f(x_n)|^2 + \lambda \text{Pen}(f) \]
\begin{itemize}
    \item \textbf{Régression Ridge :} $\text{Pen}(f) = \|f\|^2_{L^2}$ (favorise les petites normes).
    \item \textbf{Lasso :} $\text{Pen}(f) = \|f\|_{L^1}$ (favorise la parcimonie).
\end{itemize}

\subsection{Splines de Lissage}
On s'intéresse au problème de minimisation sur l'espace des fonctions deux fois dérivables sur $[a, b]$ :
\begin{equation}
    J(f) = \frac{1}{N} \sum_{n=1}^N (y_n - f(x_n))^2 + \lambda \int_a^b |f''(t)|^2 dt
\end{equation}
Le terme $\int |f''(t)|^2 dt$ pénalise la courbure de la fonction (sa "rugosité").

\begin{definition}[Spline Cubique]
Une fonction $S$ est une spline cubique sur une partition $a = t_0 < t_1 < \dots < t_p = b$ si :
\begin{enumerate}
    \item $S$ est un polynôme de degré $\leq 3$ sur chaque intervalle $[t_n, t_{n+1}]$.
    \item $S$ est de classe $C^2$ sur $[a, b]$.
\end{enumerate}
\end{definition}

\paragraph{Résultat Fondamental :}
La solution du problème $J(f)$ est unique et est une \textbf{spline cubique naturelle} dont les nœuds sont situés aux points d'observation $x_1, \dots, x_N$.
Bien que l'espace $C^2$ soit de dimension infinie, la solution appartient à un espace de dimension finie $N$, ce qui rend le calcul possible par des algorithmes d'algèbre linéaire.


\end{document}