- Introduced Chapter 0: Introduction to Statistical Estimation with foundational concepts and methods. - Added Chapter 1: Non-Parametric Density Estimation covering kernel methods and performance analysis. - Included Chapter 2: Theory of Regression focusing on non-parametric methods and regularization techniques. - Implemented Chapter 3: Neural Networks as Approximators discussing the limitations of linear approximation methods. - Added corresponding PDF files for each chapter.
133 lines
No EOL
6.5 KiB
TeX
133 lines
No EOL
6.5 KiB
TeX
\documentclass[11pt,a4paper]{article}
|
|
\usepackage[utf8]{inputenc}
|
|
\usepackage[T1]{fontenc}
|
|
\usepackage[french]{babel}
|
|
\usepackage{amsmath, amssymb, amsthm, amsfonts}
|
|
\usepackage{geometry}
|
|
\geometry{margin=2.5cm}
|
|
\usepackage{xcolor}
|
|
\usepackage{hyperref}
|
|
|
|
% --- Environnements Mathématiques ---
|
|
\newtheorem{theorem}{Théorème}[section]
|
|
\newtheorem{definition}{Définition}[section]
|
|
\newtheorem{proposition}{Proposition}[section]
|
|
\newtheorem{remark}{Remarque}[section]
|
|
\newtheorem{example}{Exemple}[section]
|
|
|
|
% --- Commandes Personnalisées ---
|
|
\newcommand{\E}{\mathbb{E}}
|
|
\newcommand{\R}{\mathbb{R}}
|
|
\newcommand{\argmin}{\operatornamewithlimits{argmin}}
|
|
\newcommand{\X}{\mathcal{X}}
|
|
|
|
\title{\textbf{Cours de Statistique : Théorie de la Régression}\\ \large Fondamentaux, Non-paramétrique et Régularisation}
|
|
\author{Lecture 2}
|
|
\date{}
|
|
|
|
\begin{document}
|
|
|
|
\maketitle
|
|
|
|
\section{Introduction et Cadre Probabiliste}
|
|
|
|
L'objectif de la régression est de prédire une variable aléatoire de sortie $Y \in \R$ à partir d'un vecteur de variables d'entrée (prédicteurs) $X \in \X \subset \R^d$.
|
|
|
|
Soit $(X, Y)$ un couple de variables aléatoires suivant une loi de probabilité jointe inconnue, caractérisée par sa densité $f_{X,Y}(x,y)$. Nous disposons d'un échantillon de $N$ observations indépendantes et identiquement distribuées (i.i.d.) :
|
|
\[ \mathcal{D}_N = \{ (x_n, y_n) \}_{n=1}^N \]
|
|
Nous cherchons une fonction de décision $f : \X \to \R$ telle que $f(X)$ soit une "bonne" approximation de $Y$.
|
|
|
|
\section{L'approche Naïve et ses Limites}
|
|
|
|
Une approche intuitive consiste à minimiser le risque empirique (erreur quadratique moyenne sur les données observées) :
|
|
\begin{equation}
|
|
f^* = \argmin_{f \in \mathcal{F}} \frac{1}{N} \sum_{n=1}^N |y_n - f(x_n)|^2
|
|
\end{equation}
|
|
|
|
\paragraph{Le problème du sur-apprentissage (Overfitting)}
|
|
Si l'espace de fonctions $\mathcal{F}$ est trop vaste (par exemple, l'ensemble de toutes les fonctions continues), il existe une infinité de solutions annulant parfaitement l'erreur empirique.
|
|
\begin{itemize}
|
|
\item \textbf{Polynôme de Lagrange :} On peut construire un polynôme de degré $N-1$ passant par tous les points $(x_n, y_n)$.
|
|
\item \textbf{Conséquence :} Bien que l'erreur d'entraînement soit nulle, la capacité de généralisation sur de nouvelles données est médiocre. C'est le phénomène de sur-apprentissage.
|
|
\end{itemize}
|
|
|
|
\section{Caractérisation de la Solution Optimale}
|
|
|
|
Pour définir proprement la "meilleure" fonction, on se place dans le cadre théorique de la minimisation du risque quadratique attendu (L2).
|
|
|
|
\begin{definition}[Fonction de régression]
|
|
La solution du problème de minimisation théorique :
|
|
\[ f^* = \argmin_{f \in L^2(P_X)} \E_{X,Y} \left[ |Y - f(X)|^2 \right] \]
|
|
est donnée par l'espérance conditionnelle :
|
|
\begin{equation}
|
|
m(x) = \E[Y | X = x]
|
|
\end{equation}
|
|
\end{definition}
|
|
|
|
\paragraph{Preuve (Approche Bayésienne) :}
|
|
En utilisant la loi des probabilités totales (désintégration de la mesure), on peut décomposer le risque :
|
|
\[ \E[(Y-f(X))^2] = \E_X \left[ \E_Y[(Y-f(X))^2 | X=x] \right] \]
|
|
Pour chaque $x$, le minimum de $\E[(Y-c)^2 | X=x]$ par rapport à la constante $c$ est atteint pour $c = \E[Y|X=x]$.
|
|
|
|
\paragraph{Modèle de bruit additif :}
|
|
On suppose souvent le modèle suivant :
|
|
\[ Y = f(X) + \varepsilon, \quad \text{avec } \E[\varepsilon|X] = 0 \text{ et } \text{Var}(\varepsilon|X) = \sigma^2 \]
|
|
Dans ce cas, la fonction cible est bien $f(x) = \E[Y|X=x]$.
|
|
|
|
\section{Méthodes d'Estimation Non-Paramétriques}
|
|
|
|
Puisque $f_{X,Y}$ est inconnue, nous devons estimer $m(x)$ à partir des données $\mathcal{D}_N$.
|
|
|
|
\subsection{Approche Heuristique : $k$-plus proches voisins ($k$-NN)}
|
|
L'idée est de moyenner les réponses $y_i$ des observations dont les $x_i$ sont les plus proches de $x$. Soit $\sigma_x$ une permutation des indices telle que $\|x - x_{\sigma_x(1)}\| \leq \dots \leq \|x - x_{\sigma_x(N)}\|$.
|
|
\begin{itemize}
|
|
\item \textbf{Si $k=1$ :} $\hat{f}(x) = y_{\sigma_x(1)}$. On interpole les données (Risque de sur-apprentissage).
|
|
\item \textbf{Si $k=N$ :} $\hat{f}(x) = \frac{1}{N} \sum y_n = \bar{Y}$. Modèle constant (Risque de sous-apprentissage).
|
|
\end{itemize}
|
|
|
|
\subsection{Lissage par Noyau : Estimateur de Nadaraya-Watson}
|
|
On cherche à estimer $m(x) = \int y \frac{f_{X,Y}(x,y)}{f_X(x)} dy$. En remplaçant les densités par leurs estimateurs de noyau (Parzen-Rosenblatt) :
|
|
\begin{itemize}
|
|
\item $\hat{f}_X(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$
|
|
\item $\hat{f}_{X,Y}(x,y) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) K_h(y - y_n)$
|
|
\end{itemize}
|
|
|
|
L'estimateur de \textbf{Nadaraya-Watson} devient :
|
|
\begin{equation}
|
|
\hat{f}(x) = \sum_{n=1}^N w_n(x) y_n, \quad \text{où } w_n(x) = \frac{K_h(x - x_n)}{\sum_{i=1}^N K_h(x - x_i)}
|
|
\end{equation}
|
|
\textit{Note : Les poids $w_n(x)$ somment à 1 et représentent l'influence relative du point $n$ sur la prédiction en $x$.}
|
|
|
|
\section{Régularisation et Splines de Lissage}
|
|
|
|
Pour éviter le sur-apprentissage tout en restant flexible, on restreint l'espace des solutions en ajoutant une pénalité de régularisation.
|
|
|
|
\subsection{Principe de Projection et Pénalisation}
|
|
On cherche $f$ dans un sous-espace $\mathcal{E}$ de $L^2$ ou on minimise :
|
|
\[ \hat{f} = \argmin_{f} \sum_{n=1}^N |y_n - f(x_n)|^2 + \lambda \text{Pen}(f) \]
|
|
\begin{itemize}
|
|
\item \textbf{Régression Ridge :} $\text{Pen}(f) = \|f\|^2_{L^2}$ (favorise les petites normes).
|
|
\item \textbf{Lasso :} $\text{Pen}(f) = \|f\|_{L^1}$ (favorise la parcimonie).
|
|
\end{itemize}
|
|
|
|
\subsection{Splines de Lissage}
|
|
On s'intéresse au problème de minimisation sur l'espace des fonctions deux fois dérivables sur $[a, b]$ :
|
|
\begin{equation}
|
|
J(f) = \frac{1}{N} \sum_{n=1}^N (y_n - f(x_n))^2 + \lambda \int_a^b |f''(t)|^2 dt
|
|
\end{equation}
|
|
Le terme $\int |f''(t)|^2 dt$ pénalise la courbure de la fonction (sa "rugosité").
|
|
|
|
\begin{definition}[Spline Cubique]
|
|
Une fonction $S$ est une spline cubique sur une partition $a = t_0 < t_1 < \dots < t_p = b$ si :
|
|
\begin{enumerate}
|
|
\item $S$ est un polynôme de degré $\leq 3$ sur chaque intervalle $[t_n, t_{n+1}]$.
|
|
\item $S$ est de classe $C^2$ sur $[a, b]$.
|
|
\end{enumerate}
|
|
\end{definition}
|
|
|
|
\paragraph{Résultat Fondamental :}
|
|
La solution du problème $J(f)$ est unique et est une \textbf{spline cubique naturelle} dont les nœuds sont situés aux points d'observation $x_1, \dots, x_N$.
|
|
Bien que l'espace $C^2$ soit de dimension infinie, la solution appartient à un espace de dimension finie $N$, ce qui rend le calcul possible par des algorithmes d'algèbre linéaire.
|
|
|
|
|
|
\end{document} |