diff --git a/RKHS.md b/RKHS.md
index 8726672..2552221 100644
--- a/RKHS.md
+++ b/RKHS.md
@@ -50,13 +50,263 @@ Soit $k$ un noyau défini positif sur $\mathcal{X}$.
     * $\forall f \in H_k, \forall x \in \mathcal{X}, f(x) = \langle f, k(\cdot, x) \rangle_{H_k}$
 
 
-### Proof
+### Proof (constructive)
 
-$$ H_{0} = \left  \{ f : \mathbb{X} \to \mathbb{R}, (\alpha_{1}, \dots, \alpha_{n}) \in \mathbb{R}^{n}, f(x) = \sum_{i=1}^{n} \alpha_{i} k(x, x_{i}) \right \} $$
+**Étape 1 — Pré-espace de Hilbert $H_0$**
 
-Let $ g(x) = \sum_{i=1}^{m} \beta_{i} k(x, z_{i}) $
+On définit l'espace des combinaisons linéaires finies de noyaux :
 
-$$
-\langle f, g \rangle_{H_0} = \sum_{i=1}^{n} \sum_{j=1}^{m} \alpha_{i} \beta_{j} k(x_{i}, z_{j})
-$$
+$$H_0 = \left\{ f : \mathcal{X} \to \mathbb{R} \;\middle|\; \exists\, (\alpha_i)_{i \in I} \in \mathbb{R}^{|I|},\; f(x) = \sum_{i \in I} \alpha_i k(x, x_i),\; x_i \in \mathcal{X},\; |I| < \infty \right\}$$
 
+Pour $f(\cdot) = \sum_{i \in I} \alpha_i k(\cdot, x_i)$ et $g(\cdot) = \sum_{j \in J} \beta_j k(\cdot, z_j)$, on définit le produit scalaire :
+
+$$\langle f, g \rangle_{H_0} := \sum_{i \in I,\, j \in J} \alpha_i \beta_j k(x_i, z_j)$$
+
+On remarque que $\langle f, g \rangle_{H_0} = \sum_{j \in J} \beta_j f(z_j) = \sum_{i \in I} \alpha_i g(x_i)$, ce qui montre que ce produit ne dépend pas du choix de développement de $f$ ou $g$. De plus, $\langle f, f \rangle_{H_0} \geq 0$ (la matrice de Gram est SDP) et $\langle f, f \rangle_{H_0} = 0 \Leftrightarrow f = 0$.
+
+**Étape 2 — Norme et propriété de reproduction**
+
+On définit $\|f\|^2_{H_0} := \langle f, f \rangle_{H_0} = \sum_{i,j \in I} \alpha_i K_{ij} \alpha_j = \boldsymbol{\alpha}^T K \boldsymbol{\alpha}$, où $K$ est la matrice de Gram.
+
+La propriété de reproduction est vérifiée dans $H_0$ :
+
+$$\langle f, k(\cdot, x) \rangle_{H_0} = \left\langle \sum_i \alpha_i k(\cdot, x_i),\, k(\cdot, x) \right\rangle = \sum_i \alpha_i k(x_i, x) = f(x)$$
+
+**Étape 3 — Complétion en espace de Hilbert**
+
+$H_0$ est un pré-espace de Hilbert. On le complète par les limites de suites de Cauchy. Pour une suite de Cauchy $(f_n)_n$ dans $H_0$, la convergence ponctuelle est assurée car :
+
+$$|f_p(x) - f_q(x)| = |\langle f_p - f_q, k(\cdot, x) \rangle| \leq \|f_p - f_q\| \sqrt{k(x,x)}$$
+
+donc $f(x) := \lim_{n \to \infty} f_n(x)$ existe pour tout $x \in \mathcal{X}$.
+
+**Étape 4 — Construction de $\mathcal{H}$**
+
+On pose $\mathcal{H} = \{\text{limites ponctuelles de suites de Cauchy de } H_0\}$, avec $H_0 \subset \mathcal{H}$. Pour deux fonctions $f, g \in \mathcal{H}$ limites ponctuelles de $(f_n) \in H_0$ et $(g_n) \in H_0$, on définit :
+
+$$\langle f, g \rangle_{\mathcal{H}} = \lim_{n \to \infty} \langle f_n, g_n \rangle_{H_0}$$
+
+Cette limite existe et ne dépend que de $f$ et $g$ (par Cauchy-Schwartz). La propriété de reproduction s'étend à $\mathcal{H}$ : $\lim_{n \to \infty} \langle f_n, k(\cdot, x) \rangle = \lim_{n \to \infty} f_n(x) = f(x)$.
+
+**Unicité :** Si $\mathcal{H}'$ est un autre RKHS de noyau reproduisant $k$, alors $H_0 \subset \mathcal{H}'$ et par densité et complétude, $\mathcal{H}' = \mathcal{H}$.
+
+> **Résultat intermédiaire :** Toute suite de Cauchy $(f_n)_n \in H_0$ qui converge ponctuellement vers $0$ vérifie $\lim_{n \to \infty} \|f_n\|_{\mathcal{H}} = 0$.
+
+---
+
+## 5. Propriétés de clôture des noyaux
+
+Les noyaux PDS sont stables par les opérations suivantes :
+
+| Opération | Feature map associée |
+|---|---|
+| a) $K_1(x,y) + K_2(x,y)$ | $\Phi(x) = (\Phi_1(x), \Phi_2(x))^T$ |
+| b) $\alpha K_1(x,y)$ pour $\alpha > 0$ | $\Phi(x) = \sqrt{\alpha}\Phi_1(x)$ |
+| c) $K_1(x,y) K_2(x,y)$ | $\Phi(x)_{ij} = \Phi_1(x)_i \Phi_2(x)_j$ (produit tensoriel) |
+| d) $f(x) f(y)$ pour toute $f$ | $\Phi(x) = f(x)$ |
+| e) $x^T A y$ pour $A \succeq 0$ | $\Phi(x) = L^T x$ pour $A = LL^T$ (Cholesky) |
+
+> De ces propriétés, on déduit que tout polynôme de noyaux est encore un noyau, et que la limite ponctuelle de noyaux est aussi un noyau.
+
+---
+
+## 6. Inégalité de Cauchy-Schwartz pour les noyaux
+
+Soit $k$ un noyau PDS. Alors $\forall (x, z) \in \mathcal{X}^2$ :
+
+$$k(x, z)^2 \leq k(x, x)\, k(z, z)$$
+
+**Preuve :** La matrice de Gram $K = \begin{pmatrix} k(x,x) & k(x,z) \\ k(z,x) & k(z,z) \end{pmatrix}$ est SDP, donc $\det(K) = k(x,x)k(z,z) - k(x,z)^2 \geq 0$.
+
+---
+
+## 7. Espace des features et feature map
+
+Tout espace de Hilbert $\mathcal{H}$ pour lequel il existe $\varphi : \mathcal{X} \to \mathcal{H}$ avec :
+$$\forall (x, x') \in \mathcal{X} \times \mathcal{X},\quad k(x, x') = \langle \varphi(x), \varphi(x') \rangle_{\mathcal{H}}$$
+est appelé **espace des features** associé à $k$, et $\varphi$ est appelée **feature map**.
+
+Le RKHS $\mathcal{H}_k$ est le plus petit espace des features associé à $k$, avec $\varphi(x) = k(\cdot, x)$.
+
+$$\mathcal{H}_k = \overline{\text{Span}\{\varphi(x) = k(\cdot, x) : x \in \mathcal{X}\}} \subset \mathcal{F}(\mathcal{X}, \mathbb{R})$$
+
+---
+
+# Apprentissage avec les noyaux
+
+## 1. Cadre statistique de l'apprentissage supervisé
+
+Soit $\mathcal{S} = \{(x_i, y_i)\}_{i=1}^n$ un échantillon i.i.d. issu d'une distribution jointe $\mu$ sur $(X, Y)$, avec $X \in \mathbb{R}^d$ et $Y \in \mathbb{R}$.
+
+**Problème d'apprentissage supervisé :** Étant donnée une fonction de perte $\ell : \mathbb{R} \times \mathbb{R} \to \mathbb{R}^+$, on cherche :
+
+$$\min_{f \in \mathcal{H}} \mathbb{E}_\mu[\ell(Y, f(X))]$$
+
+En pratique, on ne peut pas minimiser le risque vrai $R(f) := \mathbb{E}[\ell(Y, f(X))]$. On le remplace par le **risque empirique** :
+
+$$R_n(f) := \frac{1}{n} \sum_{i=1}^n \ell(y_i, f(x_i))$$
+
+Pour contrôler la complexité du modèle et éviter le sur-apprentissage, on résout un problème de **minimisation du risque empirique régularisé** :
+
+$$\arg\min_{h \in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \ell(y_i, h(x_i)) + \lambda \Omega(h)$$
+
+où $\Omega : \mathcal{H} \to \mathbb{R}^+$ est une fonction de régularisation et $\lambda > 0$ un hyperparamètre. La variante contrainte s'écrit :
+
+$$\arg\min_{h \in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \ell(y_i, h(x_i)) \quad \text{s.t. } \Omega(h) \leq C$$
+
+**Exemples de pertes :**
+- Classification binaire : $\ell(y, f(x)) = \mathbf{1}_{y \neq f(x)}$
+- Régression : $\ell(y, f(x)) = (y - f(x))^2$
+
+---
+
+## 2. Théorème du Représentant (Representer Theorem)
+
+**Théorème (Wahba, 1978 ; Schoelkopf et al., 2001)**
+
+Soit $\{x_1, \dots, x_n\}$ un ensemble de points de $\mathcal{X}$, $\lambda > 0$, $k$ un noyau PDS symétrique et $\mathcal{H}_k$ le RKHS associé. Pour $g : [0, \infty[ \to \mathbb{R}$ strictement croissante et $c : (\mathcal{X} \times \mathbb{R})^n \to \mathbb{R} \cup \{+\infty\}$ toute fonction de coût, toute fonction $f \in \mathcal{H}_k$ minimisant :
+
+$$J(f) = c(x_1, \dots, x_n, f(x_1), \dots, f(x_n)) + \lambda g(\|f\|_{\mathcal{H}_k})$$
+
+admet une solution de la forme :
+
+$$f_n(\cdot) = \sum_{i=1}^n \alpha_i k(\cdot, x_i)$$
+
+### Preuve
+
+Soit $\mathcal{H}_1 = \text{span}\{k(x_i, \cdot),\, i = 1, \dots, n\}$. Tout $f \in \mathcal{H}$ s'écrit $f = f_1 + f_1^\perp$ avec $f_1 \in \mathcal{H}_1$ et $f_1^\perp \in \mathcal{H}_1^\perp$.
+
+Par la propriété de reproduction : $f(x_i) = \langle f(\cdot), k(x_i, \cdot) \rangle = \langle f_1(\cdot), k(x_i, \cdot) \rangle = f_1(x_i)$
+
+Donc $c(f(x_1), \dots, f(x_n)) = c(f_1(x_1), \dots, f_1(x_n))$.
+
+Par orthogonalité : $\|f\|^2 = \|f_1\|^2 + \|f_1^\perp\|^2 \geq \|f_1\|^2$
+
+Comme $g$ est strictement croissante : $g(\|f\|) \geq g(\|f_1\|)$, avec égalité si et seulement si $f_1^\perp = 0$.
+
+Ainsi $J(f_1) \leq J(f)$, et tout minimiseur de $J$ vérifie $f_1^\perp = 0$, i.e. $f = f_1 = \sum_i \alpha_i k(\cdot, x_i)$.
+
+---
+
+# Régression Ridge à Noyau (Kernel Ridge Regression)
+
+## 1. Régression ridge linéaire
+
+La régression ridge linéaire dans $\mathbb{R}^d$ avec régularisation $\ell_2$ :
+
+$$\arg\min_{\beta \in \mathbb{R}^d} L(\beta) := \frac{1}{n} \sum_{i=1}^n (y_i - \beta^T x_i)^2 + \lambda \|\beta\|^2$$
+
+soit encore (en notant $\mathbf{y}$ le vecteur des $y_i$) :
+
+$$\arg\min_{\beta \in \mathbb{R}^d} \frac{1}{n}(\mathbf{y} - X\beta)^T(\mathbf{y} - X\beta) + \lambda \beta^T \beta$$
+
+La condition du premier ordre donne :
+
+$$\frac{\partial L(\beta)}{\partial \beta} = 0 \iff \beta_{\text{ridge}} = (X^T X + \lambda n I)^{-1} X^T \mathbf{y}$$
+
+On remarque que $\beta_{\text{ridge}} = X^T (XX^T + \lambda n I_n)^{-1} \mathbf{y} =: X^T \boldsymbol{\alpha}_{\text{ridge}}$ avec $\boldsymbol{\alpha}_{\text{ridge}} := (XX^T + \lambda n I_n)^{-1} \mathbf{y}$.
+
+## 2. Application au noyau : Kernel Ridge Regression
+
+On cherche à résoudre le problème de régression ridge dans $\mathcal{H}_k$ :
+
+$$\arg\min_{f \in \mathcal{H}_k} L(f) := \frac{1}{n} \sum_i (y_i - f(x_i))^2 + \lambda \|f\|^2_{\mathcal{H}_k}$$
+
+Par le théorème du représentant : $f(x) = \sum_{i=1}^n \alpha_i k(x, x_i)$.
+
+En notant $K$ la matrice de Gram $n \times n$ (avec $K_{ij} = k(x_i, x_j)$), le problème se réécrit :
+
+$$L(\boldsymbol{\alpha}) = \frac{1}{n}\|Y - K\boldsymbol{\alpha}\|^2 + \lambda \boldsymbol{\alpha}^T K \boldsymbol{\alpha} = \frac{1}{n}(Y - K\boldsymbol{\alpha})^T(Y - K\boldsymbol{\alpha}) + \lambda \boldsymbol{\alpha}^T K \boldsymbol{\alpha}$$
+
+### Condition du premier ordre
+
+$$\frac{\partial L}{\partial \boldsymbol{\alpha}} = -\frac{1}{n}K(Y - K\boldsymbol{\alpha}) + \lambda K\boldsymbol{\alpha} = -\frac{1}{n}KY + \frac{1}{n}K^2\boldsymbol{\alpha} + \lambda K\boldsymbol{\alpha} = 0$$
+
+ce qui donne $K(K + n\lambda I)\boldsymbol{\alpha} = KY$, donc :
+
+$$\boxed{\boldsymbol{\alpha} = (K + n\lambda I)^{-1} Y}$$
+
+$(K + \lambda I)$ est inversible dès que $\lambda > 0$ (car $K \succeq 0$).
+
+**Unicité :** Si $\boldsymbol{\alpha}' = \boldsymbol{\alpha} + \epsilon$ avec $K\epsilon = 0$, alors $\|f_{\alpha'} - f_\alpha\|^2 = \epsilon^T K \epsilon = 0$, donc la solution est unique.
+
+> **Remarque :** En pratique, on évite l'inversion d'une matrice $n \times n$ en utilisant une **approximation de faible rang** ou la **descente de gradient stochastique**.
+
+### Cas linéaire
+
+Si $k(x, x') = x^T x'$ (noyau linéaire), alors $K = XX^T$ et :
+
+$$\boldsymbol{\alpha}_{\text{ridge}} = (XX^T + n\lambda I)^{-1} Y$$
+
+ce qui correspond bien à la formule duale de la régression ridge linéaire.
+
+## 3. Sélection des hyperparamètres
+
+Les hyperparamètres sont $\lambda$ (et $\sigma$ si le noyau gaussien est utilisé). Les méthodes de sélection sont :
+
+- **Validation croisée** (cross-validation)
+- **Leave-One-Out (LOO)** — cas particulier de la validation croisée
+
+L'estimateur de **Validation Croisée Généralisée (GCV)**, introduit par Grace Wahba (1978), est une approximation de l'estimateur LOO :
+
+$$GCV_\lambda(K, y) = n \cdot \frac{y^T(K + \lambda I)^{-2} y}{\text{Tr}((K + \lambda I)^{-1})^2}$$
+
+Cet estimateur est uniformément consistant (voir Misiakiewicz et Saaed, 2024).
+
+---
+
+# SVM revisité
+
+## 1. Classification binaire avec noyau
+
+Soit $\mathcal{S} = \{(x_i, y_i)\}_{i=1}^n$ avec $y_i \in \mathcal{Y} = \{-1, +1\}$. On choisit un noyau PDS $k$ sur $\mathcal{X}$ et on définit $\mathcal{H}_k$ le RKHS associé. On considère des modèles binaires de la forme :
+
+$$f(x) = \text{sign}(h(x)), \quad h \in \mathcal{H}_k$$
+
+## 2. Perte hinge
+
+On utilise la **perte hinge** :
+
+$$\ell_{\text{hinge}}(y, h(x)) = \max(1 - yh(x), 0)$$
+
+qui est une borne supérieure convexe de la perte 0-1 non continue.
+
+## 3. Formulation dans le RKHS
+
+On résout le problème de minimisation du risque empirique régularisé avec perte hinge :
+
+$$\arg\min_{h \in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \max(1 - y_i h(x_i), 0) + \lambda \|h\|^2_{\mathcal{H}_k}$$
+
+Par le théorème du représentant, $h(x) = \sum_{i=1}^n \alpha_i k(x, x_i) = \sum_{i=1}^n \alpha_i \varphi(x_i)$. Le problème se réécrit dans $\mathbb{R}^n$ :
+
+$$\arg\min_{\boldsymbol{\alpha} \in \mathbb{R}^n} \frac{1}{n} \sum_{i=1}^n \max(1 - y_i (K\boldsymbol{\alpha})_i, 0) + \lambda \boldsymbol{\alpha}^T K \boldsymbol{\alpha}$$
+
+On introduit des **variables d'écart** $\xi_1, \dots, \xi_n \in \mathbb{R}$ pour reformuler le problème :
+
+$$\min_{\boldsymbol{\alpha} \in \mathbb{R}^n,\, \boldsymbol{\xi} \in \mathbb{R}^n} \frac{1}{n} \sum_{i=1}^n \xi_i + \lambda \boldsymbol{\alpha}^T K \boldsymbol{\alpha}$$
+
+sous les contraintes $\xi_i \geq 1 - y_i (K\boldsymbol{\alpha})_i$ et $\xi_i \geq 0$.
+
+Il s'agit d'un **problème d'optimisation quadratique avec contraintes affines**, résolu via :
+- Définition du Lagrangien et des coefficients lagrangiens
+- Conditions d'optimalité du premier ordre (KKT)
+- Réécriture du Lagrangien en fonction des multiplicateurs
+- Résolution par un solveur convexe
+
+> **Remarque :** En pratique, on prend $f(x) = \text{sign}(h(x) + b)$ avec $b \in \mathbb{R}$, ce qui nécessite un **théorème du représentant semi-paramétrique**.
+
+## 4. Théorème du représentant semi-paramétrique
+
+**Théorème 5 (Schoelkopf et al., 2001)**
+
+Supposons qu'en plus des conditions du théorème du représentant général, on dispose d'un ensemble de $M$ fonctions réelles $\{\psi_p\}_{p=1}^M$ sur $\mathcal{X}$, telles que la matrice $n \times M$ $(\psi_p(x_i))_{ip}$ soit de rang $M$. Alors toute $\tilde{f} := f + h$, avec $f \in \mathcal{H}_k$ et $h \in \text{span}(\psi_p)$, minimisant le risque régularisé :
+
+$$c(x_1, \dots, x_n, \tilde{f}(x_1), \dots, \tilde{f}(x_n)) + g(\|f\|_{\mathcal{H}_k})$$
+
+admet une représentation de la forme :
+
+$$\tilde{f}_n(\cdot) = \sum_{i=1}^n \alpha_i k(\cdot, x_i) + \sum_{p=1}^M \beta_p \psi_p(\cdot)$$
+
+avec des coefficients $\beta_p$ uniques.
+
+Dans le cas du SVM avec biais, on pose $M = 1$ et $\psi_1 \equiv 1$ (fonction constante), ce qui donne bien $f(x) = \sum_i \alpha_i k(x, x_i) + b$.