Add initial chapters on statistical estimation and regression
- Introduced Chapter 0: Introduction to Statistical Estimation with foundational concepts and methods. - Added Chapter 1: Non-Parametric Density Estimation covering kernel methods and performance analysis. - Included Chapter 2: Theory of Regression focusing on non-parametric methods and regularization techniques. - Implemented Chapter 3: Neural Networks as Approximators discussing the limitations of linear approximation methods. - Added corresponding PDF files for each chapter.
This commit is contained in:
parent
d5bbeaf34c
commit
d35d4c964b
8 changed files with 617 additions and 0 deletions
BIN
ch0.pdf
Normal file
BIN
ch0.pdf
Normal file
Binary file not shown.
142
ch0.tex
Normal file
142
ch0.tex
Normal file
|
|
@ -0,0 +1,142 @@
|
|||
\documentclass[11pt,a4paper]{article}
|
||||
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[T1]{fontenc}
|
||||
\usepackage[french]{babel}
|
||||
\usepackage{amsmath, amssymb, amsthm}
|
||||
\usepackage{geometry}
|
||||
\usepackage{booktabs}
|
||||
\usepackage{xcolor}
|
||||
\usepackage{mdframed}
|
||||
\usepackage{hyperref}
|
||||
|
||||
\geometry{top=2.5cm, bottom=2.5cm, left=2.5cm, right=2.5cm}
|
||||
|
||||
\title{\textbf{Cours 0 : Introduction à l'Estimation Statistique}}
|
||||
\author{Apprentissage Statistique / Statistiques Avancées}
|
||||
\date{}
|
||||
|
||||
\begin{document}
|
||||
|
||||
\maketitle
|
||||
|
||||
\begin{abstract}
|
||||
Ce cours introductif pose les fondations mathématiques des statistiques paramétriques et non paramétriques. Nous rappelons les principaux paradigmes de l'inférence statistique, passons en revue les méthodes classiques d'estimation paramétrique (Maximum de Vraisemblance et Méthode des Moments), et introduisons les concepts centraux des statistiques non paramétriques et de la théorie de l'approximation.
|
||||
\end{abstract}
|
||||
|
||||
\section{Rappels et Cadre Général}
|
||||
|
||||
Soit $(X_i)_{1 \le i \le N}$ un ensemble de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Nous supposons que les données sont générées par un processus dont la densité de probabilité (ou fonction de masse) est notée $p_\theta$.
|
||||
|
||||
Ici, le paramètre d'intérêt est $\theta \in \Theta$, où $\Theta \subseteq \mathbb{R}^d$ ($d < \infty$).
|
||||
Le problème fondamental de l'estimation statistique est le suivant : \textit{Étant donné l'observation du jeu de données $\{x_1, \dots, x_N\}$, comment trouver un estimateur de $\theta$, noté $\widehat{\theta}$ ?}
|
||||
|
||||
\subsection{Résumé des Paradigmes Statistiques}
|
||||
Selon la nature de $\Theta$ et selon que $\theta$ est considéré comme déterministe ou comme une variable aléatoire, différents cadres mathématiques s'appliquent. Ces notions sont généralement abordées dans les cours d'introduction aux statistiques et à l'analyse numérique. Les principaux résultats sont résumés dans le Tableau \ref{tab:paradigmes}.
|
||||
|
||||
\begin{table}[h!]
|
||||
\centering
|
||||
\renewcommand{\arraystretch}{1.5}
|
||||
\begin{tabular}{p{3.5cm} p{5.5cm} p{5.5cm}}
|
||||
\toprule
|
||||
& \textbf{$\theta$ est déterministe} & \textbf{$\theta$ est aléatoire} (possède une distribution a priori) \\
|
||||
\midrule
|
||||
\textbf{$\theta$ dans un ensemble discret ou fini}\newline (ex : $\theta \in \{0, 1\}$) &
|
||||
\textbf{Tests d'hypothèses}\newline Lemme de Neyman-Pearson \newline (Maximiser $P_D$ sous la contrainte $P_{FA} \le \alpha$) &
|
||||
\textbf{Théorie de la décision}\newline - Maximum de Vraisemblance (MV) si $\theta$ est équiprobable.\newline - Maximum A Posteriori (MAP) si les a priori sont inégaux. \\
|
||||
\midrule
|
||||
\textbf{$\theta$ dans un ensemble continu, dimension finie}\newline (ex : $\theta \in [0, 1]$) &
|
||||
\textbf{Théorie de l'estimation}\newline - Aucun estimateur universellement optimal n'existe.\newline - Les performances sont bornées inférieurement par la \textit{Borne de Cramér-Rao} (BCR). &
|
||||
\textbf{Approche bayésienne}\newline - Estimateur de l'Erreur Quadratique Moyenne Minimale (MMSE) : $\widehat{\theta} = \mathbb{E}[\theta | X]$\newline - Les performances sont bornées par la BCR bayésienne. \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
\caption{Aperçu des cadres statistiques}
|
||||
\label{tab:paradigmes}
|
||||
\end{table}
|
||||
|
||||
\section{Statistiques Paramétriques}
|
||||
|
||||
En statistiques paramétriques, nous supposons que la distribution sous-jacente appartient à une famille connue régie par un paramètre déterministe de dimension finie $\theta \in \mathbb{R}^d$.
|
||||
|
||||
\subsection{Estimation par le Maximum de Vraisemblance (MV)}
|
||||
La fonction de vraisemblance $L(\theta; x_1, \dots, x_N)$ représente la probabilité conjointe d'observer les données sachant le paramètre $\theta$. En raison de l'hypothèse i.i.d., elle se factorise ainsi :
|
||||
\begin{equation}
|
||||
L(\theta; x_1, \dots, x_N) = p_\theta(x_1, \dots, x_N) = \prod_{n=1}^N p_\theta(x_n)
|
||||
\end{equation}
|
||||
|
||||
L'Estimateur du Maximum de Vraisemblance (EMV) est la valeur du paramètre qui maximise cette fonction :
|
||||
\begin{equation}
|
||||
\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} L(\theta; x_1, \dots, x_N)
|
||||
\end{equation}
|
||||
En pratique, il est strictement équivalent et numériquement beaucoup plus stable de maximiser la log-vraisemblance, $l(\theta) = \log L(\theta)$ (en utilisant le logarithme népérien, de base $e$) :
|
||||
\begin{equation}
|
||||
\widehat{\theta}_{\text{MV}} = \arg\max_{\theta \in \mathbb{R}^d} l(\theta; x_1, \dots, x_N) \quad \text{où} \quad l(\theta; x_1, \dots, x_N) = \sum_{n=1}^N \log p_\theta(x_n)
|
||||
\end{equation}
|
||||
|
||||
\begin{mdframed}[backgroundcolor=gray!10]
|
||||
\textbf{Exemple : Loi de Bernoulli} \\
|
||||
Soit $p_\theta$ une loi de Bernoulli de paramètre $\theta \in [0,1]$. Soient $x_1, \dots, x_N \in \{0, 1\}$ des réalisations i.i.d. La fonction de masse pour une observation unique est $p_\theta(x_n) = \theta^{x_n} (1-\theta)^{1-x_n}$.
|
||||
|
||||
La fonction de vraisemblance est :
|
||||
\[ L(\theta; x_1, \dots, x_N) = \prod_{n=1}^N \theta^{x_n} (1-\theta)^{1-x_n} = \theta^{S_N} (1-\theta)^{N-S_N} \]
|
||||
où $S_N = \sum_{n=1}^N x_n$ est le nombre de succès.
|
||||
|
||||
La log-vraisemblance est :
|
||||
\[ l(\theta) = S_N \log(\theta) + (N - S_N) \log(1-\theta) \]
|
||||
Pour trouver le maximum, nous dérivons par rapport à $\theta$ et annulons la dérivée :
|
||||
\[ \frac{\partial l}{\partial \theta} = \frac{S_N}{\theta} - \frac{N - S_N}{1-\theta} = 0 \implies S_N(1-\theta) = \theta(N - S_N) \implies S_N = N\theta \]
|
||||
Ainsi, l'estimateur du MV est la moyenne empirique : $\widehat{\theta}_{\text{MV}} = \frac{1}{N} S_N$.
|
||||
\end{mdframed}
|
||||
|
||||
\subsection{Méthode des Moments}
|
||||
La méthode des moments consiste à exprimer les moments théoriques de la distribution (qui sont des fonctions de $\theta$) et à les égaler aux moments empiriques de l'échantillon.
|
||||
|
||||
\begin{mdframed}[backgroundcolor=gray!10]
|
||||
\textbf{Exemple utilisant la mesure empirique} \\
|
||||
Soit $X$ une variable aléatoire dont la distribution de probabilité peut s'écrire à l'aide de masses de Dirac : $p_\theta(x) = \theta \delta_1(x) + (1-\theta)\delta_0(x)$.
|
||||
Le premier moment théorique (l'espérance) est :
|
||||
\[ \mathbb{E}_{p_\theta}[X] = \int x p_\theta(x) dx = 1 \cdot \theta + 0 \cdot (1-\theta) = \theta \]
|
||||
La distribution empirique basée sur $N$ échantillons est donnée par $\widehat{p}(x) = \frac{1}{N} \sum_{n=1}^N \delta_{x_n}(x)$.
|
||||
L'espérance empirique est :
|
||||
\[ \widehat{\theta} = \mathbb{E}_{\widehat{p}}[X] = \int x \left( \frac{1}{N} \sum_{n=1}^N \delta_{x_n}(x) \right) dx = \frac{1}{N} \sum_{n=1}^N x_n \]
|
||||
ce qui représente intuitivement le ratio du nombre de $1$ sur le nombre total d'échantillons.
|
||||
\end{mdframed}
|
||||
|
||||
\section{Statistiques Non Paramétriques}
|
||||
|
||||
En statistiques non paramétriques, l'hypothèse selon laquelle le mécanisme générateur des données appartient à une famille paramétrique de dimension finie est abandonnée. L'objet d'intérêt est plutôt une fonction $f$ appartenant à un espace fonctionnel de dimension infinie $\mathcal{F}$ (par ex., $f \in \mathcal{F}$).
|
||||
|
||||
\subsection{Travailler dans des Espaces de Dimension Infinie}
|
||||
Pour manipuler rigoureusement les espaces de dimension infinie, nous restreignons généralement $\mathcal{F}$ à un \textbf{Espace de Hilbert}. Un espace de Hilbert généralise la notion d'espace euclidien ; il est muni d'un produit scalaire $\langle \cdot, \cdot \rangle$ qui induit une distance, et il possède une base dénombrable. Cela permet de représenter les fonctions via des décompositions sur une base (ex : séries de Fourier, ondelettes).
|
||||
|
||||
\subsection{Théorie de l'Approximation et Compromis d'Erreur}
|
||||
Lorsque l'on tente d'estimer une fonction $f \in \mathcal{F}$ en utilisant un espace d'hypothèses restreint ou fini $\mathcal{H}$ à partir de $N$ échantillons finis, nous rencontrons deux sources principales d'erreur :
|
||||
|
||||
\begin{enumerate}
|
||||
\item \textbf{L'erreur d'approximation (Biais) :} L'erreur introduite en restreignant notre recherche à un espace plus petit et plus simple $\mathcal{H}$ plutôt qu'au véritable espace de dimension infinie $\mathcal{F}$. Elle mesure à quel point le meilleur modèle possible dans $\mathcal{H}$ peut approcher la vraie fonction $f$.
|
||||
\item \textbf{L'erreur d'estimation (Variance) :} L'erreur provenant du fait que nous ne disposons que d'un nombre fini $N$ d'échantillons pour trouver la fonction optimale au sein de $\mathcal{H}$.
|
||||
\end{enumerate}
|
||||
|
||||
Ces deux erreurs conduisent au fondamental \textbf{compromis Biais-Variance}. Augmenter la complexité de l'espace d'hypothèses diminue l'erreur d'approximation mais augmente l'erreur d'estimation, et inversement.
|
||||
|
||||
\subsection{Approche Minimax}
|
||||
Pour dériver des bornes sur ces erreurs lorsque $N$ est fini et que la dimensionnalité est potentiellement élevée, les statisticiens utilisent souvent l'\textbf{approche Minimax}. Cela implique de trouver l'estimateur qui minimise le risque maximum possible (erreur espérée) sur la pire distribution possible dans la classe $\mathcal{F}$.
|
||||
\[ \inf_{\widehat{f}} \sup_{f \in \mathcal{F}} \mathbb{E}[L(\widehat{f}, f)] \]
|
||||
|
||||
\section{Problèmes Classiques en Non Paramétrique}
|
||||
|
||||
\subsection{Estimation de Densité}
|
||||
Soit $X$ une variable aléatoire ayant une Fonction de Répartition (FR) notée $F$ et une Densité de Probabilité (DP) notée $f$.
|
||||
Par définition :
|
||||
\[ F(A) = \mathbb{P}(X \in A) = \int_A f(x) dx \]
|
||||
Pour $A = (-\infty, x]$, la fonction de répartition est :
|
||||
\[ F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^x f(u) du \]
|
||||
\textbf{Objectif :} Étant donné des échantillons $\{x_1, \dots, x_N\}$, trouver un estimateur $\widehat{f}(x; x_1, \dots, x_N)$ qui approche la vraie densité $f(x)$ partout. (Les méthodes classiques incluent les histogrammes et l'estimation par noyaux).
|
||||
|
||||
\subsection{Régression Non Paramétrique}
|
||||
Considérons des observations appariées $(X, Y)$ où la relation est régie par :
|
||||
\[ Y = f(X) + \varepsilon \]
|
||||
Ici, $\varepsilon$ est un bruit aléatoire centré (de moyenne nulle) et indépendant de $X$, tel que $\mathbb{E}[\varepsilon] = 0$.
|
||||
\textbf{Objectif :} Étant donné un jeu de données de paires $\{(X_n, Y_n)\}_{1 \le n \le N}$, estimer la fonction inconnue $f(x)$ pour prédire les valeurs futures : $\widehat{y} = \widehat{f}(x)$.
|
||||
|
||||
\end{document}
|
||||
BIN
ch1.pdf
Normal file
BIN
ch1.pdf
Normal file
Binary file not shown.
223
ch1.tex
Normal file
223
ch1.tex
Normal file
|
|
@ -0,0 +1,223 @@
|
|||
\documentclass[12pt,a4paper]{article}
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[french]{babel}
|
||||
\usepackage[T1]{fontenc}
|
||||
\usepackage{amsmath, amssymb, amsthm}
|
||||
\usepackage{geometry}
|
||||
\geometry{margin=2.5cm}
|
||||
|
||||
% --- Environnements de théorèmes ---
|
||||
\newtheorem{definition}{Définition}[section]
|
||||
\newtheorem{theorem}{Théorème}[section]
|
||||
\newtheorem{remark}{Remarque}[section]
|
||||
\newtheorem{example}{Exemple}[section]
|
||||
\newtheorem{proposition}{Proposition}[section]
|
||||
|
||||
% --- Commandes personnalisées ---
|
||||
\newcommand{\E}{\mathbb{E}}
|
||||
\renewcommand{\P}{\mathbb{P}}
|
||||
\newcommand{\R}{\mathbb{R}}
|
||||
\newcommand{\Ltwo}{L^2([0,1])}
|
||||
\newcommand{\ind}{\mathbb{1}}
|
||||
|
||||
\title{Cours de Statistique : Estimation de Densité Non-Paramétrique}
|
||||
\author{Note de cours réorganisée}
|
||||
\date{Mars 2026}
|
||||
|
||||
\begin{document}
|
||||
|
||||
\maketitle
|
||||
|
||||
\section{Introduction et Motivation}
|
||||
|
||||
L'objectif de l'estimation de densité est de reconstruire une fonction de densité de probabilité $f$ à partir d'un échantillon de variables aléatoires $X_1, \dots, X_N$ indépendantes et identiquement distribuées (i.i.d.) selon $f$.
|
||||
|
||||
\begin{definition}[Densité de probabilité]
|
||||
Une fonction $f : \R \to \R$ est une densité de probabilité si elle vérifie :
|
||||
\begin{enumerate}
|
||||
\item $f(x) \geq 0$ pour presque tout $x$.
|
||||
\item $f \in L^1(\R)$ et $\int_{\R} f(x) dx = 1$.
|
||||
\end{enumerate}
|
||||
\end{definition}
|
||||
|
||||
\begin{remark}
|
||||
La valeur ponctuelle $f(x_0)$ n'est pas informative par elle-même car la mesure de Lebesgue d'un singleton $\{x_0\}$ est nulle. Pour estimer $f$, nous devons imposer une \textbf{contrainte de régularité} (smoothness). On suppose généralement que $f$ appartient à un sous-espace de fonctions régulières $\mathcal{F} \subsetneq L^1$.
|
||||
\end{remark}
|
||||
|
||||
\section{L'approche "Naïve" : L'estimateur par intervalle}
|
||||
|
||||
Considérons une réalisation i.i.d. $x_1, \dots, x_N$ d'une loi de densité $f$. Pour un point $x$ donné et un petit paramètre $h > 0$, la probabilité que $X$ appartienne à l'intervalle $[x-h, x+h]$ est :
|
||||
\[ \P(X \in [x-h, x+h]) = \int_{x-h}^{x+h} f(u) du \]
|
||||
|
||||
Si $f$ est continue en $x$ et $h$ est petit, alors $\int_{x-h}^{x+h} f(u) du \approx 2h f(x)$. On peut estimer cette probabilité par la proportion empirique de données tombant dans cet intervalle :
|
||||
\[ \hat{p} = \frac{1}{N} \sum_{n=1}^N \ind_{[x-h, x+h]}(x_n) \]
|
||||
|
||||
D'où l'estimateur "naïf" de la densité :
|
||||
\[ \hat{f}(x) = \frac{1}{2Nh} \sum_{n=1}^N \ind_{[x-h, x+h]}(x_n) = \frac{1}{Nh} \sum_{n=1}^N K\left(\frac{x-x_n}{h}\right) \]
|
||||
où $K(u) = \frac{1}{2}\ind_{[-1, 1]}(u)$ est appelé le \textbf{noyau rectangulaire}.
|
||||
|
||||
\section{L'approche par Projection (Espaces de Hilbert)}
|
||||
|
||||
Cette méthode repose sur la décomposition de $f$ dans une base orthonormée de l'espace de Hilbert $\Ltwo$.
|
||||
|
||||
\subsection{Espace de Hilbert et Bases Orthonormées}
|
||||
On munit $\Ltwo$ du produit scalaire :
|
||||
\[ \langle f, g \rangle = \int_0^1 f(x)\overline{g(x)} dx \]
|
||||
Soit $\{e_k\}_{k \in \mathbb{Z}}$ une base orthonormée de $\Ltwo$ (par exemple la base de Fourier $e_k(x) = e^{i 2\pi k x}$). Toute fonction $f \in \Ltwo$ peut s'écrire :
|
||||
\[ f(x) = \sum_{k \in \mathbb{Z}} \alpha_k e_k(x) \quad \text{avec} \quad \alpha_k = \langle f, e_k \rangle \]
|
||||
|
||||
\subsection{Régularité et Espaces de Sobolev}
|
||||
Pour quantifier la "douceur" de $f$, on utilise les espaces de Sobolev $W^s$.
|
||||
\begin{definition}[Espace de Sobolev]
|
||||
Pour $s > 0$, on définit $W^s([0,1])$ comme l'espace des fonctions $f \in \Ltwo$ telles que :
|
||||
\[ \sum_{k \in \mathbb{Z}} |\alpha_k|^2 (1 + |k|)^{2s} < +\infty \]
|
||||
On définit l'ellipsoïde de Sobolev $B(s, R) = \{ f \in W^s : \|f\|_{W^s}^2 \leq R^2 \}$.
|
||||
\end{definition}
|
||||
|
||||
\subsection{Construction de l'estimateur par projection}
|
||||
On approche d'abord $f$ par une version tronquée à l'ordre $M$ :
|
||||
\[ \tilde{f}(x) = \sum_{|k| \leq M} \alpha_k e_k(x) \]
|
||||
Cependant, les coefficients $\alpha_k$ sont inconnus. On remarque que :
|
||||
\[ \alpha_k = \int_0^1 e_k(x) f(x) dx = \E[e_k(X)] \]
|
||||
Par la méthode des moments, on estime $\alpha_k$ par la moyenne empirique :
|
||||
\[ \hat{\alpha}_k = \frac{1}{N} \sum_{n=1}^N e_k(X_n) \]
|
||||
L'estimateur final est :
|
||||
\[ \hat{f}(x) = \sum_{|k| \leq M} \hat{\alpha}_k e_k(x) \]
|
||||
|
||||
\section{Analyse des Performances : Risque Quadratique}
|
||||
|
||||
Le risque est mesuré par l'Erreur Quadratique Moyenne Intégrée (MISE).
|
||||
\[ \text{Risk}(\hat{f}, f) = \E \left[ \int_0^1 |\hat{f}(x) - f(x)|^2 dx \right] \]
|
||||
|
||||
\subsection{Décomposition Biais-Variance}
|
||||
En utilisant l'orthogonalité de la base, le risque se décompose en :
|
||||
\[ \text{Risk} = \underbrace{\|\tilde{f} - f\|^2}_{\text{Biais}^2 \text{ (Troncature)}} + \underbrace{\E[\|\hat{f} - \tilde{f}\|^2]}_{\text{Variance} \text{ (Estimation)}} \]
|
||||
|
||||
\begin{enumerate}
|
||||
\item \textbf{Le Biais (Erreur d'approximation)} : Pour $f \in B(s, R)$, on montre que :
|
||||
\[ \text{Biais}^2 = \sum_{|k| > M} |\alpha_k|^2 = \sum_{|k| > M} |\alpha_k|^2 \frac{(1+|k|)^{2s}}{(1+|k|)^{2s}} \leq \frac{R^2}{M^{2s}} = O(M^{-2s}) \]
|
||||
|
||||
\item \textbf{La Variance (Erreur statistique)} :
|
||||
\[ \text{Variance} = \sum_{|k| \leq M} \E[|\hat{\alpha}_k - \alpha_k|^2] = \sum_{|k| \leq M} \frac{\text{Var}(e_k(X))}{N} \]
|
||||
Si les fonctions de base sont bornées ($|e_k| \leq C$), alors $\text{Var}(e_k(X)) \leq C^2$.
|
||||
D'où : $\text{Variance} = O\left(\frac{M}{N}\right)$.
|
||||
\end{enumerate}
|
||||
|
||||
Le risque total est donc de l'ordre de :
|
||||
\[ \text{Risk} \approx \frac{M}{N} + \frac{1}{M^{2s}} \]
|
||||
|
||||
\section{Optimisation du paramètre de troncature}
|
||||
|
||||
Pour minimiser le risque, nous cherchons le $M$ optimal ($M^*$) qui équilibre le biais et la variance.
|
||||
\[ \frac{\partial}{\partial M} \left( \frac{M}{N} + M^{-2s} \right) = 0 \implies \frac{1}{N} - 2s M^{-(2s+1)} = 0 \]
|
||||
On obtient :
|
||||
\[ M^* \sim N^{\frac{1}{2s+1}} \]
|
||||
|
||||
\textbf{Vitesse de convergence :}
|
||||
En réinjectant $M^*$ dans l'expression du risque, on trouve :
|
||||
\[ \text{Risk}^* \sim N^{-\frac{2s}{2s+1}} \]
|
||||
\begin{itemize}
|
||||
\item Si $s \to \infty$ (fonction très lisse), la vitesse approche $N^{-1}$ (vitesse paramétrique).
|
||||
\item Si $s \to 0$ (fonction peu régulière), $M^* \sim N$ et la vitesse est très lente.
|
||||
\end{itemize}
|
||||
|
||||
\section{Introduction à l'Approche par Noyau}
|
||||
|
||||
L'approche par noyau généralise l'idée de la section 2.
|
||||
\begin{definition}[Noyau]
|
||||
Un noyau $K : \R \to \R$ est une fonction intégrable telle que $\int_{\R} K(u) du = 1$. On définit le noyau translaté et mis à l'échelle par la fenêtre (bandwidth) $h$ :
|
||||
\[ K_h(u) = \frac{1}{h} K\left(\frac{u}{h}\right) \]
|
||||
\end{definition}
|
||||
|
||||
L'estimateur à noyau est défini par le produit de convolution entre la mesure empirique et le noyau :
|
||||
\[ \hat{f}(x) = (K_h * f_{emp})(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) \]
|
||||
|
||||
\section{Analyse de l'Estimateur à Noyau}
|
||||
|
||||
L'estimateur à noyau repose sur deux idées fondamentales (souvent appelées "Tricks" dans les notes) :
|
||||
\begin{enumerate}
|
||||
\item \textbf{L'approximation :} La convolution $(K_h * f)(x)$ converge vers $f(x)$ quand $h \to 0$.
|
||||
\item \textbf{L'estimation :} L'espérance de l'estimateur $\hat{f}(x)$ est précisément cette convolution.
|
||||
\end{enumerate}
|
||||
|
||||
\subsection{Cadre d'analyse : Espaces de Hölder}
|
||||
|
||||
Pour garantir une certaine vitesse de convergence, nous supposons que la densité $f$ appartient à un espace de régularité fonctionnelle.
|
||||
|
||||
\begin{definition}[Espace de Hölder $\Lambda(s, L)$]
|
||||
Soit $s > 0$. On écrit $s = k + \beta$ avec $k \in \mathbb{N}$ et $\beta \in ]0, 1]$. Une fonction $f$ appartient à l'espace de Hölder $\Lambda(s, L)$ si :
|
||||
\begin{enumerate}
|
||||
\item $f$ est $k$ fois dérivable.
|
||||
\item La $k$-ième dérivée est $\beta$-Höldérienne :
|
||||
$\forall x, y \in \R, |f^{(k)}(x) - f^{(k)}(y)| \leq L |x-y|^\beta$.
|
||||
\end{enumerate}
|
||||
\end{definition}
|
||||
|
||||
\subsection{Hypothèses sur le noyau (Noyaux de Parzen-Rosenblatt)}
|
||||
|
||||
Pour exploiter la régularité d'ordre $s$, le noyau $K$ doit posséder des propriétés de moments :
|
||||
\begin{enumerate}
|
||||
\item $\int K(u) du = 1$.
|
||||
\item $\int |u|^s |K(u)| du < +\infty$.
|
||||
\item $\int u^l K(u) du = 0$ pour tout $l \in \{1, \dots, k\}$. On dit alors que $K$ est un \textbf{noyau d'ordre $k$}.
|
||||
\end{enumerate}
|
||||
|
||||
\subsection{Résultat 1 : Contrôle du Biais}
|
||||
|
||||
\begin{theorem}[Borne sur le biais]
|
||||
Si $f \in \Lambda(s, L)$ et $K$ est un noyau d'ordre $k$, alors le biais de l'estimateur vérifie :
|
||||
\[ \sup_x | \E[\hat{f}(x)] - f(x) | = \sup_x | (K_h * f)(x) - f(x) | \leq \frac{L \cdot C}{k!} h^s = O(h^s) \]
|
||||
où $C = \int |y|^s |K(y)| dy$.
|
||||
\end{theorem}
|
||||
|
||||
\begin{proof}[Esquisse de preuve]
|
||||
Par changement de variable $y = \frac{x-u}{h}$ :
|
||||
\[ (K_h * f)(x) - f(x) = \int K(y) [f(x - hy) - f(x)] dy \]
|
||||
En utilisant un développement de Taylor-Young de $f$ à l'ordre $k$ en $x$ :
|
||||
\[ f(x-hy) = f(x) - h y f'(x) + \dots + \frac{(-hy)^k}{k!} f^{(k)}(x - \epsilon hy) \]
|
||||
Grâce aux propriétés d'annulation des moments du noyau (ordre $k$), les termes de dérivées s'annulent à l'intégration, ne laissant que le reste de Taylor qui est borné par la condition de Hölder en $h^s$.
|
||||
\end{proof}
|
||||
|
||||
\subsection{Résultat 2 : Contrôle de la Variance}
|
||||
|
||||
\begin{theorem}[Borne sur la variance]
|
||||
Si $K$ est de carré intégrable ($K \in L^2$) et $f$ est bornée, alors :
|
||||
\[ \text{Var}(\hat{f}(x)) \leq \frac{C'}{Nh} = O\left(\frac{1}{Nh}\right) \]
|
||||
où $C' = \|f\|_\infty \int K^2(u) du$.
|
||||
\end{theorem}
|
||||
|
||||
\begin{proof}
|
||||
Puisque les $X_n$ sont i.i.d. :
|
||||
\[ \text{Var}(\hat{f}(x)) = \frac{1}{N} \text{Var}(K_h(x - X_1)) \leq \frac{1}{N} \E[K_h(x - X_1)^2] \]
|
||||
\[ \E[K_h(x - X_1)^2] = \int \frac{1}{h^2} K\left(\frac{x-u}{h}\right)^2 f(u) du \]
|
||||
Par changement de variable $u' = \frac{x-u}{h}$, on obtient :
|
||||
\[ \frac{1}{h} \int K(u')^2 f(x - hu') du' \leq \frac{\|f\|_\infty}{h} \int K^2(u') du' \]
|
||||
\end{proof}
|
||||
|
||||
\section{Conclusion : Le compromis Biais-Variance}
|
||||
|
||||
Le risque quadratique total se comporte comme :
|
||||
\[ \text{Risque}(h) \approx \underbrace{h^{2s}}_{\text{Biais}^2} + \underbrace{\frac{1}{Nh}}_{\text{Variance}} \]
|
||||
|
||||
\subsection{Fenêtre optimale $h^*$}
|
||||
En minimisant cette expression par rapport à $h$, on trouve :
|
||||
\[ h^{2s+1} \sim \frac{1}{N} \implies h^* = N^{-\frac{1}{2s+1}} \]
|
||||
|
||||
\subsection{Vitesse de convergence minimax}
|
||||
En remplaçant $h^*$ dans l'expression du risque, on obtient la vitesse de convergence :
|
||||
\[ \text{Risque}^* \sim N^{-\frac{2s}{2s+1}} \]
|
||||
|
||||
\begin{remark}[Synthèse entre les deux approches]
|
||||
\begin{table}[h]
|
||||
\centering
|
||||
\begin{tabular}{|l|c|c|}
|
||||
\hline
|
||||
\textbf{Méthode} & \textbf{Paramètre de lissage} & \textbf{Rôle} \\ \hline
|
||||
Projection & $M$ (nombre de modes) & Régularisation par troncature \\ \hline
|
||||
Noyau & $1/h$ (inverse de la fenêtre) & Régularisation par lissage \\ \hline
|
||||
\end{tabular}
|
||||
\end{table}
|
||||
Dans les deux cas, on retrouve la même vitesse de convergence. Le paramètre $M$ en projection joue un rôle inversement proportionnel à $h$ dans l'approche par noyau. Plus $s$ (la régularité) est grand, plus la vitesse approche $1/N$, la vitesse "standard" de la statistique paramétrique.
|
||||
\end{remark}
|
||||
|
||||
\end{document}
|
||||
BIN
ch2.pdf
Normal file
BIN
ch2.pdf
Normal file
Binary file not shown.
133
ch2.tex
Normal file
133
ch2.tex
Normal file
|
|
@ -0,0 +1,133 @@
|
|||
\documentclass[11pt,a4paper]{article}
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[T1]{fontenc}
|
||||
\usepackage[french]{babel}
|
||||
\usepackage{amsmath, amssymb, amsthm, amsfonts}
|
||||
\usepackage{geometry}
|
||||
\geometry{margin=2.5cm}
|
||||
\usepackage{xcolor}
|
||||
\usepackage{hyperref}
|
||||
|
||||
% --- Environnements Mathématiques ---
|
||||
\newtheorem{theorem}{Théorème}[section]
|
||||
\newtheorem{definition}{Définition}[section]
|
||||
\newtheorem{proposition}{Proposition}[section]
|
||||
\newtheorem{remark}{Remarque}[section]
|
||||
\newtheorem{example}{Exemple}[section]
|
||||
|
||||
% --- Commandes Personnalisées ---
|
||||
\newcommand{\E}{\mathbb{E}}
|
||||
\newcommand{\R}{\mathbb{R}}
|
||||
\newcommand{\argmin}{\operatornamewithlimits{argmin}}
|
||||
\newcommand{\X}{\mathcal{X}}
|
||||
|
||||
\title{\textbf{Cours de Statistique : Théorie de la Régression}\\ \large Fondamentaux, Non-paramétrique et Régularisation}
|
||||
\author{Lecture 2}
|
||||
\date{}
|
||||
|
||||
\begin{document}
|
||||
|
||||
\maketitle
|
||||
|
||||
\section{Introduction et Cadre Probabiliste}
|
||||
|
||||
L'objectif de la régression est de prédire une variable aléatoire de sortie $Y \in \R$ à partir d'un vecteur de variables d'entrée (prédicteurs) $X \in \X \subset \R^d$.
|
||||
|
||||
Soit $(X, Y)$ un couple de variables aléatoires suivant une loi de probabilité jointe inconnue, caractérisée par sa densité $f_{X,Y}(x,y)$. Nous disposons d'un échantillon de $N$ observations indépendantes et identiquement distribuées (i.i.d.) :
|
||||
\[ \mathcal{D}_N = \{ (x_n, y_n) \}_{n=1}^N \]
|
||||
Nous cherchons une fonction de décision $f : \X \to \R$ telle que $f(X)$ soit une "bonne" approximation de $Y$.
|
||||
|
||||
\section{L'approche Naïve et ses Limites}
|
||||
|
||||
Une approche intuitive consiste à minimiser le risque empirique (erreur quadratique moyenne sur les données observées) :
|
||||
\begin{equation}
|
||||
f^* = \argmin_{f \in \mathcal{F}} \frac{1}{N} \sum_{n=1}^N |y_n - f(x_n)|^2
|
||||
\end{equation}
|
||||
|
||||
\paragraph{Le problème du sur-apprentissage (Overfitting)}
|
||||
Si l'espace de fonctions $\mathcal{F}$ est trop vaste (par exemple, l'ensemble de toutes les fonctions continues), il existe une infinité de solutions annulant parfaitement l'erreur empirique.
|
||||
\begin{itemize}
|
||||
\item \textbf{Polynôme de Lagrange :} On peut construire un polynôme de degré $N-1$ passant par tous les points $(x_n, y_n)$.
|
||||
\item \textbf{Conséquence :} Bien que l'erreur d'entraînement soit nulle, la capacité de généralisation sur de nouvelles données est médiocre. C'est le phénomène de sur-apprentissage.
|
||||
\end{itemize}
|
||||
|
||||
\section{Caractérisation de la Solution Optimale}
|
||||
|
||||
Pour définir proprement la "meilleure" fonction, on se place dans le cadre théorique de la minimisation du risque quadratique attendu (L2).
|
||||
|
||||
\begin{definition}[Fonction de régression]
|
||||
La solution du problème de minimisation théorique :
|
||||
\[ f^* = \argmin_{f \in L^2(P_X)} \E_{X,Y} \left[ |Y - f(X)|^2 \right] \]
|
||||
est donnée par l'espérance conditionnelle :
|
||||
\begin{equation}
|
||||
m(x) = \E[Y | X = x]
|
||||
\end{equation}
|
||||
\end{definition}
|
||||
|
||||
\paragraph{Preuve (Approche Bayésienne) :}
|
||||
En utilisant la loi des probabilités totales (désintégration de la mesure), on peut décomposer le risque :
|
||||
\[ \E[(Y-f(X))^2] = \E_X \left[ \E_Y[(Y-f(X))^2 | X=x] \right] \]
|
||||
Pour chaque $x$, le minimum de $\E[(Y-c)^2 | X=x]$ par rapport à la constante $c$ est atteint pour $c = \E[Y|X=x]$.
|
||||
|
||||
\paragraph{Modèle de bruit additif :}
|
||||
On suppose souvent le modèle suivant :
|
||||
\[ Y = f(X) + \varepsilon, \quad \text{avec } \E[\varepsilon|X] = 0 \text{ et } \text{Var}(\varepsilon|X) = \sigma^2 \]
|
||||
Dans ce cas, la fonction cible est bien $f(x) = \E[Y|X=x]$.
|
||||
|
||||
\section{Méthodes d'Estimation Non-Paramétriques}
|
||||
|
||||
Puisque $f_{X,Y}$ est inconnue, nous devons estimer $m(x)$ à partir des données $\mathcal{D}_N$.
|
||||
|
||||
\subsection{Approche Heuristique : $k$-plus proches voisins ($k$-NN)}
|
||||
L'idée est de moyenner les réponses $y_i$ des observations dont les $x_i$ sont les plus proches de $x$. Soit $\sigma_x$ une permutation des indices telle que $\|x - x_{\sigma_x(1)}\| \leq \dots \leq \|x - x_{\sigma_x(N)}\|$.
|
||||
\begin{itemize}
|
||||
\item \textbf{Si $k=1$ :} $\hat{f}(x) = y_{\sigma_x(1)}$. On interpole les données (Risque de sur-apprentissage).
|
||||
\item \textbf{Si $k=N$ :} $\hat{f}(x) = \frac{1}{N} \sum y_n = \bar{Y}$. Modèle constant (Risque de sous-apprentissage).
|
||||
\end{itemize}
|
||||
|
||||
\subsection{Lissage par Noyau : Estimateur de Nadaraya-Watson}
|
||||
On cherche à estimer $m(x) = \int y \frac{f_{X,Y}(x,y)}{f_X(x)} dy$. En remplaçant les densités par leurs estimateurs de noyau (Parzen-Rosenblatt) :
|
||||
\begin{itemize}
|
||||
\item $\hat{f}_X(x) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n)$
|
||||
\item $\hat{f}_{X,Y}(x,y) = \frac{1}{N} \sum_{n=1}^N K_h(x - x_n) K_h(y - y_n)$
|
||||
\end{itemize}
|
||||
|
||||
L'estimateur de \textbf{Nadaraya-Watson} devient :
|
||||
\begin{equation}
|
||||
\hat{f}(x) = \sum_{n=1}^N w_n(x) y_n, \quad \text{où } w_n(x) = \frac{K_h(x - x_n)}{\sum_{i=1}^N K_h(x - x_i)}
|
||||
\end{equation}
|
||||
\textit{Note : Les poids $w_n(x)$ somment à 1 et représentent l'influence relative du point $n$ sur la prédiction en $x$.}
|
||||
|
||||
\section{Régularisation et Splines de Lissage}
|
||||
|
||||
Pour éviter le sur-apprentissage tout en restant flexible, on restreint l'espace des solutions en ajoutant une pénalité de régularisation.
|
||||
|
||||
\subsection{Principe de Projection et Pénalisation}
|
||||
On cherche $f$ dans un sous-espace $\mathcal{E}$ de $L^2$ ou on minimise :
|
||||
\[ \hat{f} = \argmin_{f} \sum_{n=1}^N |y_n - f(x_n)|^2 + \lambda \text{Pen}(f) \]
|
||||
\begin{itemize}
|
||||
\item \textbf{Régression Ridge :} $\text{Pen}(f) = \|f\|^2_{L^2}$ (favorise les petites normes).
|
||||
\item \textbf{Lasso :} $\text{Pen}(f) = \|f\|_{L^1}$ (favorise la parcimonie).
|
||||
\end{itemize}
|
||||
|
||||
\subsection{Splines de Lissage}
|
||||
On s'intéresse au problème de minimisation sur l'espace des fonctions deux fois dérivables sur $[a, b]$ :
|
||||
\begin{equation}
|
||||
J(f) = \frac{1}{N} \sum_{n=1}^N (y_n - f(x_n))^2 + \lambda \int_a^b |f''(t)|^2 dt
|
||||
\end{equation}
|
||||
Le terme $\int |f''(t)|^2 dt$ pénalise la courbure de la fonction (sa "rugosité").
|
||||
|
||||
\begin{definition}[Spline Cubique]
|
||||
Une fonction $S$ est une spline cubique sur une partition $a = t_0 < t_1 < \dots < t_p = b$ si :
|
||||
\begin{enumerate}
|
||||
\item $S$ est un polynôme de degré $\leq 3$ sur chaque intervalle $[t_n, t_{n+1}]$.
|
||||
\item $S$ est de classe $C^2$ sur $[a, b]$.
|
||||
\end{enumerate}
|
||||
\end{definition}
|
||||
|
||||
\paragraph{Résultat Fondamental :}
|
||||
La solution du problème $J(f)$ est unique et est une \textbf{spline cubique naturelle} dont les nœuds sont situés aux points d'observation $x_1, \dots, x_N$.
|
||||
Bien que l'espace $C^2$ soit de dimension infinie, la solution appartient à un espace de dimension finie $N$, ce qui rend le calcul possible par des algorithmes d'algèbre linéaire.
|
||||
|
||||
|
||||
\end{document}
|
||||
BIN
ch3.pdf
Normal file
BIN
ch3.pdf
Normal file
Binary file not shown.
119
ch3.tex
Normal file
119
ch3.tex
Normal file
|
|
@ -0,0 +1,119 @@
|
|||
\documentclass[11pt]{article}
|
||||
\usepackage[utf8]{inputenc}
|
||||
\usepackage[T1]{fontenc}
|
||||
\usepackage[french]{babel}
|
||||
\usepackage{amsmath, amssymb, amsthm}
|
||||
\usepackage{geometry}
|
||||
\geometry{a4paper, margin=2.5cm}
|
||||
|
||||
% Définition des environnements
|
||||
\newtheorem{theorem}{Théorème}
|
||||
\newtheorem{lemma}[theorem]{Lemme}
|
||||
\newtheorem{definition}{Définition}
|
||||
\newtheorem{remark}{Remarque}
|
||||
|
||||
% Commandes mathématiques
|
||||
\newcommand{\R}{\mathbb{R}}
|
||||
\newcommand{\N}{\mathbb{N}}
|
||||
\newcommand{\Fcal}{\mathcal{F}}
|
||||
\newcommand{\norm}[1]{\left\|#1\right\|}
|
||||
\newcommand{\abs}[1]{\left|#1\right|}
|
||||
\newcommand{\ud}{\mathrm{d}}
|
||||
\newcommand{\dx}{\ud \vec{x}}
|
||||
\newcommand{\dw}{\ud \vec{\omega}}
|
||||
\newcommand{\x}{\vec{x}}
|
||||
\newcommand{\w}{\vec{\omega}}
|
||||
\newcommand{\kvec}{\vec{k}}
|
||||
\newcommand{\proj}{\text{proj}}
|
||||
\newcommand{\spanvec}{\text{span}}
|
||||
|
||||
\title{Cours 3 : Les réseaux de neurones comme approximateurs \\ \large Limites des méthodes d'approximation linéaires}
|
||||
\author{}
|
||||
\date{}
|
||||
|
||||
\begin{document}
|
||||
|
||||
\maketitle
|
||||
|
||||
\section{Introduction et Contexte}
|
||||
|
||||
L'objectif de ce chapitre est de démontrer que les méthodes d'approximation linéaires souffrent du \textbf{fléau de la dimension} lorsqu'elles sont appliquées à certaines classes de fonctions régulières. Ce résultat motive l'utilisation de méthodes non-linéaires (réseaux de neurones) qui atteignent de meilleurs taux de convergence.
|
||||
|
||||
\begin{remark}
|
||||
Un réseau de neurones avec $N$ neurones peut être beaucoup plus performant pour approximer une fonction de $d$ variables qu'un sous-espace de dimension $N$ préfixé (comme les polynômes ou les ondelettes).
|
||||
\end{remark}
|
||||
|
||||
\section{Cadre Mathématique}
|
||||
|
||||
\subsection{La classe de fonctions $\Fcal_C$}
|
||||
|
||||
\begin{definition}[Classe de régularité $\Fcal_C$]
|
||||
Soit $C > 0$. On définit la classe $\Fcal_C$ comme l'ensemble des fonctions $f \in L^2([0,1]^d)$ dont la transformée de Fourier $F(\vec{\omega})$ vérifie :
|
||||
\begin{equation}
|
||||
\Fcal_C = \left\{ f \mid f(\vec{x}) = \int_{\R^d} F(\vec{\omega}) e^{2\pi i \vec{\omega} \cdot \vec{x}} \dw \text{ et } \int_{\R^d} \|\vec{\omega}\|_1 |F(\vec{\omega})| \dw \le C \right\}
|
||||
\end{equation}
|
||||
où $\|\vec{\omega}\|_1 = \sum_{j=1}^d |\omega_j|$.
|
||||
\end{definition}
|
||||
|
||||
\subsection{Écart de Kolmogorov}
|
||||
|
||||
\begin{definition}[Écart de Kolmogorov]
|
||||
Pour une classe $K \subset L^2([0,1]^d)$, l'écart de dimension $N$ est :
|
||||
\begin{equation}
|
||||
w_N(K) = \inf_{H_N, \dim(H_N) \le N} \sup_{f \in K} \norm{f - \proj_{H_N}f}_{L^2}
|
||||
\end{equation}
|
||||
\end{definition}
|
||||
|
||||
\section{Résultat Principal : Fléau de la Dimension}
|
||||
|
||||
\begin{theorem}
|
||||
Il existe $\kappa > 0$ tel que pour tout $N \ge 1$ et $d \ge 1$ :
|
||||
\begin{equation}
|
||||
\label{eq:lower_bound}
|
||||
w_N(\Fcal_C) \ge \kappa \frac{C}{d} \frac{1}{N^{1/d}}
|
||||
\end{equation}
|
||||
\end{theorem}
|
||||
|
||||
[Image of curse of dimensionality in function approximation]
|
||||
|
||||
\section{Preuve du Théorème}
|
||||
|
||||
\subsection{Étape 1 : Fonctions de test}
|
||||
Soient $\{\kvec_j\}_{j=1}^{2N} \subset \N^d$, ordonnés par $\|\kvec_1\|_1 \le \dots \le \|\kvec_{2N}\|_1$. On définit :
|
||||
\[ h_j^*(\x) = \cos(2\pi \kvec_j \cdot \x), \quad j=1, \dots, 2N \]
|
||||
|
||||
\subsection{Étape 2 : Normalisation}
|
||||
\begin{lemma}
|
||||
La fonction $f_{\kvec}(\x) = \frac{C}{2\|\kvec\|_1} \cos(2\pi \kvec \cdot \x)$ appartient à $\Fcal_C$.
|
||||
\end{lemma}
|
||||
\begin{proof}
|
||||
La transformée de Fourier de $\cos(2\pi \kvec \cdot \x)$ est $\frac{1}{2} (\delta_{\kvec} + \delta_{-\kvec})$. Ainsi :
|
||||
\[ \int \|\w\|_1 |F_{f_{\kvec}}(\w)| \dw = \frac{C}{4\|\kvec\|_1} (\|\kvec\|_1 + \|-\kvec\|_1) = \frac{C}{2} \le C \]
|
||||
\end{proof}
|
||||
|
||||
\subsection{Étape 3 : Borne sur l'erreur}
|
||||
Pour tout sous-espace $H_N$ de dimension $N$, il existe une combinaison des $2N$ fonctions de test qui est orthogonale à $H_N$. L'erreur est alors minorée par :
|
||||
\begin{equation}
|
||||
\label{eq:gen_bound}
|
||||
w_N(\Fcal_C) \ge \min_{j \in \{1, \dots, 2N\}} \frac{C}{2\sqrt{2}\|\kvec_j\|_1} = \frac{C}{2\sqrt{2}\|\kvec_{2N}\|_1}
|
||||
\end{equation}
|
||||
|
||||
\subsection{Étape 4 : Combinatoire}
|
||||
Le nombre de vecteurs $\kvec \in \N^d$ tels que $\|\kvec\|_1 \le m$ est $\binom{m+d}{d}$. On cherche $m$ tel que :
|
||||
\begin{equation}
|
||||
\label{eq:comb_condition}
|
||||
\binom{m+d}{d} \ge 2N
|
||||
\end{equation}
|
||||
En utilisant l'inégalité $\binom{m+d}{d} \ge (\frac{m}{d})^d$, la condition est satisfaite si :
|
||||
\begin{equation}
|
||||
\label{eq:m_choice}
|
||||
m \ge d (2N)^{1/d}
|
||||
\end{equation}
|
||||
|
||||
\subsection{Étape 5 : Conclusion}
|
||||
En injectant \eqref{eq:m_choice} dans \eqref{eq:gen_bound}, on obtient :
|
||||
\begin{equation}
|
||||
w_N(\Fcal_C) \ge \frac{C}{2\sqrt{2} \cdot d (2N)^{1/d}} \ge \kappa \frac{C}{d} \frac{1}{N^{1/d}}
|
||||
\end{equation}
|
||||
Ceci démontre que pour les méthodes linéaires, l'erreur décroît de plus en plus lentement à mesure que $d$ augmente.
|
||||
\end{document}
|
||||
Loading…
Add table
Reference in a new issue