# OCVX : La differentielle (le retour) # La differentielle en TOP-DOWN La semaine derniere, vous avez cherche a generaliser la notion de derivabilite d'une fonction $\phi:\mathbb R\to\mathbb R$ a celle de differentiabilite d'une fonction $f:\mathbb R^n\to\mathbb R$. Le point de vue aborde: on sait deriver le long d'un vecteur $v\in\mathbb R^n$, cad qu'on sait deriver la fonction $$ t\mapsto f(\overbrace{a}^{\text{le pt qu'on} \\ \text{cherche a deriver}}+tv) $$ A partir de la on cherche a construire un objet multidimensional qui va remplacer la derivee dans le cas unidimensionnel. On sait deriver une fonction de $\mathbb R\to\mathbb R$ $\to$ On sait donc deriver une fonction de $\mathbb R^n\to\mathbb R$ le long d'un vecteur $v$ (en particulier le long des axes). $\to$ On regroupe les derivees le long des axes dans un objet qu'on appelle le gradient $\to$ Definition de la differentielle en un point :::danger C'est la demarche BOTTOM-UP ::: ## Aujourd'hui On va generaliser la notion de derivabilite d'une fonction de $\mathbb R\to\mathbb R$ a l'aide des normes sur $\mathbb R^n$ $\to$ Analyser "*l'objet differentiel*" qu'on obtient et decrire une partie des proprietes qu'il a $\to$ retrouver les derivees partielles comme ecriture en coordonnnees de la differentielle en un point :::danger C'est la demarche TOP-DOWN ::: # Rappel sur $\mathbb R$ :::info Etant donne une fonction $\phi:\mathbb R\to\mathbb R$ on dit que $\phi$ est derivable en $a\in\mathbb R$ si $$\lim_{h\to a}\frac{\phi(a+h)-\phi(a)}{h}$$ existe. Dans ce cas cette limite est appelee le nombre derivee de $\phi$ en $a$ et on le note $\phi'(a)$ ::: ## De maniere equivalente :::success $\phi$ est derivable en $a$ s'il existe un nombre reel $\alpha$ tel que pour $h$ assez petit (h proche de 0) $$ \phi(a+h)=\phi(a)+\alpha h + h\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}} $$ Dans ce cas $\alpha$ est le nombre derivee de $\phi$ en $a$ et on le note $\phi'(a)$ ::: :::info Dans $\mathbb R$: si $\phi$ est derivable en $a$ alors $$ \forall h\text{ assez petit}\quad \phi(a+h)=\phi(a)+\phi'(a)h+h\varepsilon(h) $$ ::: # Proposition d'extension au cas d'une fonction $f:\mathbb R^n\to\mathbb R$ f est differentiable en $a$ si $$ \forall \underbrace{h}_{\in\mathbb R^n}\underbrace{\text{ assez petit}}_{\exists\eta\gt0\text{ tq }h\in\mathcal B(0,\eta)}\quad f(a+h)=f(a) +\overbrace{\lambda_a(h)}^{\text{lineaire en }h}+ \Vert h\Vert\overbrace{\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon:\mathbb R^n&\to\mathbb R \\ \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}}^{\text{pas lineaire en }h} $$ $h$ varie de tel sorte a ce qu'on reste dans la boule $\mathcal B(0,\eta)$ ![](https://i.imgur.com/KVZ6sPS.png) :::info **Definition**: une fonction $f:\mathbb R^n\to\mathbb R$ est differentiable en un point $a\in\mathbb R^n$ s'il existe une application lineaire $\lambda_a:\mathbb R^n\to\mathbb R$ telle que $$ \forall h\text{ assez petit}:\quad f(a+h)=f(a)+\lambda_a(h)+\Vert h\Vert\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}\quad\color{orange}{(D_1)} $$ ::: :::warning On ne precise pas la norme car elles sont equivalentes. ::: Question: *Pour $f$ donne, combien y a-t-il d'applications lineaires qui satisfait $\color{orange}{D_1}$ ?* Il n'y a qi'une seule, qu'on appelle la differentielle en $a$. :::info **Lemme**: Si $\lambda_a$ existe, elle est unique. ::: ## Preuve On suppose qu'il existe 2 applications lineaires $\lambda_a$ et $\mu_a$ qui satisfont $\color{orange}{(D_1)}$, cad $$ \begin{aligned} \forall h\text{ assez petit}:\quad f(a+h)&=f(a)+\lambda_a(h)+\Vert h\Vert\varepsilon_1(h)\\ -f(a+h)&=f(a)+\mu_a(h)+\Vert h\Vert\varepsilon_2(h)\\ \overbrace{\underbrace{(\lambda_a-\mu_a)}_{\text{Une app lineaire en }h}}^{\text{On va montrer que} \\ \text{c'est l'app lineaire nulle}}(h)&=\Vert h\Vert(\underbrace{\varepsilon_1(h)-\varepsilon_2(h)}_{\begin{aligned}\varepsilon:\mathbb R^n&\to\mathbb R \\ \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}) \end{aligned} $$ On est dans la situation suivante: $$ \forall h\in\mathcal B(0,\eta)\text{ pour }\eta\gt0\quad\underbrace{\psi}_{\text{lineaire}}(h)=\Vert h\Vert\underbrace{\varepsilon(h)}_{\begin{aligned} \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}} $$ ### Demonstration: Ma $\psi$ est nulle On va prendre un vecteur $$\overbrace{v\in\mathbb R^n}^{\Vert v\Vert=1}$$, soit $t\in]-\eta,\eta[$ (donc $tv\in\mathcal B(0,\eta)$) On a: $$ \begin{aligned} \psi(tv)=\Vert tv\Vert\varepsilon(tv)&\Leftrightarrow t\psi(v)=\Vert t\Vert\Vert v\Vert\varepsilon(tv)\\ &\Leftrightarrow signe(t)\frac{\psi(v)}{\Vert v\Vert}=\varepsilon(tv) \end{aligned} $$ Si on se limite a $t\in[0,\eta[$, on a $\frac{\psi(v)}{\Vert v\Vert}=\varepsilon(tv)$ Dans la relation $$ \forall t\in[0,\eta]\quad \frac{\psi(v)}{\underbrace{\Vert v\Vert}_{\text{constant}}}=\underbrace{\varepsilon(tv)}_{\begin{aligned}\varepsilon(tv)&\to0\\t&\mapsto0\end{aligned}}\\ \Rightarrow\psi(v)=0 $$ Etant donne un vecteur $v\in\mathbb R^n$, $\Vert v\Vert=1$, $\psi(v)=0$. En particulier, $\forall i\in\{1,...,n\}$; $\psi(e_i)=0$ Donc la matrice de $\psi$ dans la base canonique est nulle, i.e. $\psi = 0$ :::success Donc $\lambda_a=\mu_a$ ::: :::info **Definition**: On appelle differentielle de $f:\mathbb R^n\to\mathbb R$ au point $a$, l'unique application lineaire (si elle existe) qui satisfait: $$ \color{orange}{D_{abs}}: \quad f(a+h)=f(a)+Df(a)(h)+\Vert h\Vert\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}} $$ ::: Dans ce contexte, $Df(a)$ a une matrice dans la base canonique de taille $(1,n)$ ## Exemple 1.On note $$\begin{aligned}f:\mathbb R^n&\to\mathbb R \\ h&\to \underbrace{A}_{A\text{ est une matrice ligne}}h+n\end{aligned}$$ $$ \begin{aligned} f(a+h)&=A(a+h)+b\\ &= Aa + Ah +b\\ &=(\underbrace{Aa+b})+Ah\\ &=f(a) + \underbrace{Ah}_{\text{lineaire en }h} + \underbrace{o}_{\Vert h\Vert\varepsilon(h) \\ \varepsilon \text{ est nul la}} \end{aligned} $$ D'apres la definition: $$ Df(a)(h) = Ah\\ Df(a):h\to Ah $$ 2. $$ f:\mathbb R^n\to\mathbb R\\ x\to x^Tx\\ \begin{aligned} f(a+h)&=(a+h)^T(a+h)\\ &=aTa+h^Ta+a^Th+\overbrace{h^Th}^{\Vert h\Vert_2\Vert h\Vert_2}\\ &=f(a) +\underbrace{2a^Th}_{\text{lineaire en }h} +\Vert h\Vert \varepsilon(h) \end{aligned}\\ $$ :::info **Definition (rappel)**: $$ \Vert h\Vert_2+\sqrt{h^Th} $$ ::: **Remarque**: $h^Ta\in\mathbb R$, $(h^Ta)^T=h^Ta\Rightarrow a^Th^{T^T}=a^Th$ car ce sont des **reels**. :::success Donc $Df(a):h\to2a^Th$ ::: Dans le cas $n=1$ $$ \begin{aligned} f:x&\to x^2\\ D f(a):h&\mapsto Df(a)(h)\\ f'(a)&=2a \end{aligned} $$ ## Proprietes usuelles Les proprietes usuelles de derivabilites et de calcul des derivees s'etend au cas des fonctions de $\mathbb R^n\to\mathbb R$. Soient $f,g:\mathbb R^n\to\mathbb R$ et $a\in\mathbb R^n$, on suppose $f,g$ differentiable en $a$. $$ \begin{aligned} \forall h\text{ AP}\quad f(a+h)&=f(a)+D f(a)(h)+\Vert h\Vert\varepsilon_1(h)\\ g(a+h)&=f(a)+D g(a)(h)+\Vert h\Vert\varepsilon_2(h)\\ (+):(f+g)(a+h)&=(f+g)(a)+(\underbrace{D f(a)+D g(a)}_{\text{lineaire en }h})(h)+\Vert h\Vert (\underbrace{\varepsilon_1(h)+\varepsilon_2(h)}_{\varepsilon(h)}) \end{aligned} $$ :::danger $$ D(f+g)(a)=D f(a)+D g(a) $$ ::: $$ (\times):(fg)(a+h)=(fg)(a) + f(a)D g(a)(h)+g(a)D f(a)(h)\\ +D f(a)(h)D g(a)(h)+\\ \Vert h\Vert\varepsilon_1(h)D g(a)(h) + \Vert h\Vert\varepsilon_2(h)D f(a)(h) +\\ \Vert h\Vert^2\varepsilon_1(h)\varepsilon_2(h) + \Vert h\Vert(\varepsilon_1(h)g(a) + \varepsilon_2(h)f(a))\\ \color{red}{D(fg)(a)=f(a)D g(a)+g(a)D f(a)}\\ \color{orange}{D (fg)(a):h\to f(a)D g(a)(h) + g(a)D f(a)(h)} $$ ## Matrice ligne La differentielle de $f:\mathbb R^n\to\mathbb R$ en $a$ quand elle existe est une matrice ligne: *comment en decrire les coeffs ?* :::info **Definition**(temporaire): Quand $f$ est differentiable au point $a$ on appelle gradient de $f$ en $a$ le vecteur $v$ (colonne) $\nabla f(a)$ dont la transposee est la marice de $Df(a)$ dans les bases canoniques ::: On a donc: pour tout $h$ assez petit $$ f(a+h)=f(a)+\nabla f(a)^Th+\Vert h\Vert \underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}} $$ On est interesse par calculer $\nabla f(a)^Te_i$ $\forall i\in\{1,...,n\}$ Soit $t\in\mathbb R$ $$ f(a+t_{e_i})=f(a)+\nabla f(a)^T(te_i)+\Vert te_i\Vert\varepsilon(te_i)\\ \Leftrightarrow f(a+t_{e_i})-f(a)=t\nabla f(a)^Te_i+\Vert te_i\Vert\varepsilon(te_i)\\ \frac{\Leftrightarrow f(a+t_{e_i})-f(a)}{t}=\nabla f(a)^Te_i+\Vert e_i\Vert\varepsilon'(te_i)\quad t\neq0\\ \Leftrightarrow\nabla f(a)^Te_i=\underbrace{\frac{f(a+te_i)}{t}}_{\to_{t\to 0}\delta e_if(a)=\frac{\delta}{\delta x_i}f(a)}-\underbrace{\Vert e_i\Vert\varepsilon'(te_i)}_{t\to0 \\ \to 0} $$ En prenant la limite on vient de constater (avec la definition temporaire de $\nabla f(a)$) que $\nabla f(a)^Te_i=\frac{\delta}{\delta x_i}f(a)$ Cad que la ieme coordonnee de votre gradient c'est la derivee partielle par rapport a $x_i$ :::info **Defintion**: Le gradient d'une fonctino $f$ en un point $a\in\mathbb R^n$ c'est le vecteur $v$ des derivees partielles: $$ \nabla f(a)=\biggr(\frac{\delta f}{\delta x_i}(a)\biggr)_{1\le i\le n} $$ ::: :::danger Les definitions "temporaire" et definitives de gradient ne sont pas equivalentes: on peut admettre des derivees partielles sans etre differentiable ::: :::info **Prop**: Si une fonction $f:\mathbb R^n\to\mathbb R$ admet un gradient en un point $a$, et si $x\to\nabla f(x)$ est **continue** au voisinage de $a$, alors $f$ est differentiable en $a$, cad qu'on peut ecrire $$ \forall h \text{ assez petit}\\ f(a+h)=f(a)+\nabla f(a)^Th+o_a(h) $$ ::: **Remarque**: si $f$ est differentiable en $a$: $$ \underbrace{\delta_v f(a)}_{\color{red}{\text{derivee directionnelle de } f\\ \text{en } a \text{ le long de } v}}=\nabla f(a)^Tv $$ # Derivee d'une composee Pour parler de composee on va generaliser un petit peu le cadre avec lequel on a travaille jusque la. On s'interesse donc aux fonctions $$ f:\mathbb R^n\to\mathbb R^n $$ On note $f_1,...,f_n$ les fonctions coordonnees de $f$, $f=(f_1,...,f_n)$ ## Exemple $$ \begin{aligned} g:\mathbb R^2&\to\mathbb R^3\\ (x,y)&\mapsto \begin{pmatrix}\cos(xy) \\ x^2+y \\ 2y\end{pmatrix}\\ g_1:\mathbb R^2&\to\mathbb R\\ (x,y)&\mapsto \cos(xy)\\ g_2:\mathbb R^2&\to\mathbb R\\ (x,y)&\mapsto x^2+y\\ g_3:\mathbb R^2&\to\mathbb R\\ (x,y)&\mapsto 2y\\ \end{aligned} $$ Une fonction $f:\mathbb R^n\to\mathbb R^m$ va etre dite differentielle si on a une ecriture: $$ f(a+h)=f(a)+\underbrace{Df(a)}_{\text{differentielle de } f\\ \text{en } a,\text{de matrice}\\ \text{dans les bases canoniques}\\ \text{de taille: }(m,n)}(h)+\underbrace{\Vert h\Vert}_{\text{une norme sur }\mathbb R^n}\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon:\mathbb R^n&\to\mathbb R^m \\ \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}} $$ :::success La matrice de $\lambda f(a)$ dans les bases canoniques est appellee la **jacobienne** de $f$ en $a$. $$ J_f(a)=\begin{pmatrix} \frac{\delta f_1(a)}{\delta x_1}&\dots &\frac{\delta f_1(a)}{\delta x_n}\\ \vdots&\ddots&\vdots\\ \frac{\delta f_m(a)}{\delta x_1}&\dots &\frac{\delta f_m(a)}{\delta x_n}\\ \end{pmatrix}\\ =\begin{pmatrix} \nabla f_1(a)^T\\ \vdots\\ \nabla f_m(a)^T \end{pmatrix}\\ = (\nabla f_1(a),...,\nabla f_m(a))^T\\ $$ ::: Pour $f:\mathbb R^n\to\mathbb R^m$ si on est differentiable en $a\in\mathbb R^n$ On a $\forall h$ AP: $$ f(a+h)=f(a)+J_{f}(a)h+o_a(h) $$ ## Question: Soit $f,g$, $f:\mathbb R^n\to\mathbb R^m$, $g:\mathbb R^m\to\mathbb R^p$, si $f$ et $g$ sont differentiable respectivement $f$ en $a$ et $g$ en $b=f(a)$ alors $$ D(g\circ f)(a)=D g(\color{red}{f(a)})\circ D f(\color{red}{a}) $$ Matriciellement: $$ J_{g\circ f}(a) = J_g(f(a))\times J_f(a) $$