Lien de la note Hackmd

La differentielle en TOP-DOWN

La semaine derniere, vous avez cherche a generaliser la notion de derivabilite d’une fonction $\phi:\mathbb R\to\mathbb R$ a celle de differentiabilite d’une fonction $f:\mathbb R^n\to\mathbb R$.

Le point de vue aborde: on sait deriver le long d’un vecteur $v\in\mathbb R^n$, cad qu’on sait deriver la fonction

\[t\mapsto f(\overbrace{a}^{\text{le pt qu'on} \\ \text{cherche a deriver}}+tv)\]

A partir de la on cherche a construire un objet multidimensional qui va remplacer la derivee dans le cas unidimensionnel.

On sait deriver une fonction de $\mathbb R\to\mathbb R$ $\to$ On sait donc deriver une fonction de $\mathbb R^n\to\mathbb R$ le long d’un vecteur $v$ (en particulier le long des axes). $\to$ On regroupe les derivees le long des axes dans un objet qu’on appelle le gradient $\to$ Definition de la differentielle en un point

C’est la demarche BOTTOM-UP

Aujourd’hui

On va generaliser la notion de derivabilite d’une fonction de $\mathbb R\to\mathbb R$ a l’aide des normes sur $\mathbb R^n$ $\to$ Analyser “l’objet differentiel” qu’on obtient et decrire une partie des proprietes qu’il a $\to$ retrouver les derivees partielles comme ecriture en coordonnnees de la differentielle en un point

C’est la demarche TOP-DOWN

Rappel sur $\mathbb R$

Etant donne une fonction $\phi:\mathbb R\to\mathbb R$ on dit que $\phi$ est derivable en $a\in\mathbb R$ si $\lim_{h\to a}\frac{\phi(a+h)-\phi(a)}{h}$ existe. Dans ce cas cette limite est appelee le nombre derivee de $\phi$ en $a$ et on le note $\phi’(a)$

De maniere equivalente

$\phi$ est derivable en $a$ s’il existe un nombre reel $\alpha$ tel que pour $h$ assez petit (h proche de 0)

\[\phi(a+h)=\phi(a)+\alpha h + h\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}\]

Dans ce cas $\alpha$ est le nombre derivee de $\phi$ en $a$ et on le note $\phi’(a)$

Dans $\mathbb R$: si $\phi$ est derivable en $a$ alors

$\forall h\text{ assez petit}\quad \phi(a+h)=\phi(a)+\phi'(a)h+h\varepsilon(h)$

Proposition d’extension au cas d’une fonction $f:\mathbb R^n\to\mathbb R$

f est differentiable en $a$ si

\[\forall \underbrace{h}_{\in\mathbb R^n}\underbrace{\text{ assez petit}}_{\exists\eta\gt0\text{ tq }h\in\mathcal B(0,\eta)}\quad f(a+h)=f(a) +\overbrace{\lambda_a(h)}^{\text{lineaire en }h}+ \Vert h\Vert\overbrace{\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon:\mathbb R^n&\to\mathbb R \\ \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}}^{\text{pas lineaire en }h}\]

$h$ varie de tel sorte a ce qu’on reste dans la boule $\mathcal B(0,\eta)$

Definition: une fonction $f:\mathbb R^n\to\mathbb R$ est differentiable en un point $a\in\mathbb R^n$ s’il existe une application lineaire $\lambda_a:\mathbb R^n\to\mathbb R$ telle que

$\forall h\text{ assez petit}:\quad f(a+h)=f(a)+\lambda_a(h)+\Vert h\Vert\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}\quad\color{orange}{(D_1)}$

On ne precise pas la norme car elles sont equivalentes.

Question: Pour $f$ donne, combien y a-t-il d’applications lineaires qui satisfait $\color{orange}{D_1}$ ? Il n’y a qi’une seule, qu’on appelle la differentielle en $a$.

Lemme: Si $\lambda_a$ existe, elle est unique.

Preuve

On suppose qu’il existe 2 applications lineaires $\lambda_a$ et $\mu_a$ qui satisfont $\color{orange}{(D_1)}$, cad

\[\begin{aligned} \forall h\text{ assez petit}:\quad f(a+h)&=f(a)+\lambda_a(h)+\Vert h\Vert\varepsilon_1(h)\\ -f(a+h)&=f(a)+\mu_a(h)+\Vert h\Vert\varepsilon_2(h)\\ \overbrace{\underbrace{(\lambda_a-\mu_a)}_{\text{Une app lineaire en }h}}^{\text{On va montrer que} \\ \text{c'est l'app lineaire nulle}}(h)&=\Vert h\Vert(\underbrace{\varepsilon_1(h)-\varepsilon_2(h)}_{\begin{aligned}\varepsilon:\mathbb R^n&\to\mathbb R \\ \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}) \end{aligned}\]

On est dans la situation suivante:

\[\forall h\in\mathcal B(0,\eta)\text{ pour }\eta\gt0\quad\underbrace{\psi}_{\text{lineaire}}(h)=\Vert h\Vert\underbrace{\varepsilon(h)}_{\begin{aligned} \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}\]

Demonstration: Ma $\psi$ est nulle

On va prendre un vecteur $\overbrace{v\in\mathbb R^n}^{\Vert v\Vert=1}$, soit $t\in]-\eta,\eta[$ (donc $tv\in\mathcal B(0,\eta)$)

On a:

\[\begin{aligned} \psi(tv)=\Vert tv\Vert\varepsilon(tv)&\Leftrightarrow t\psi(v)=\Vert t\Vert\Vert v\Vert\varepsilon(tv)\\ &\Leftrightarrow signe(t)\frac{\psi(v)}{\Vert v\Vert}=\varepsilon(tv) \end{aligned}\]

Si on se limite a $t\in[0,\eta[$, on a $\frac{\psi(v)}{\Vert v\Vert}=\varepsilon(tv)$

Dans la relation

\[\forall t\in[0,\eta]\quad \frac{\psi(v)}{\underbrace{\Vert v\Vert}_{\text{constant}}}=\underbrace{\varepsilon(tv)}_{\begin{aligned}\varepsilon(tv)&\to0\\t&\mapsto0\end{aligned}}\\ \Rightarrow\psi(v)=0\]

Etant donne un vecteur $v\in\mathbb R^n$, $\Vert v\Vert=1$, $\psi(v)=0$. En particulier, $\forall i\in{1,…,n}$; $\psi(e_i)=0$ Donc la matrice de $\psi$ dans la base canonique est nulle, i.e. $\psi = 0$

Donc $\lambda_a=\mu_a$

Definition: On appelle differentielle de $f:\mathbb R^n\to\mathbb R$ au point $a$, l’unique application lineaire (si elle existe) qui satisfait:

$\color{orange}{D_{abs}}: \quad f(a+h)=f(a)+Df(a)(h)+\Vert h\Vert\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}$

Dans ce contexte, $Df(a)$ a une matrice dans la base canonique de taille $(1,n)$

Exemple

1.On note $\begin{aligned}f:\mathbb R^n&\to\mathbb R \\ h&\to \underbrace{A}_{A\text{ est une matrice ligne}}h+n\end{aligned}$

\[\begin{aligned} f(a+h)&=A(a+h)+b\\ &= Aa + Ah +b\\ &=(\underbrace{Aa+b})+Ah\\ &=f(a) + \underbrace{Ah}_{\text{lineaire en }h} + \underbrace{o}_{\Vert h\Vert\varepsilon(h) \\ \varepsilon \text{ est nul la}} \end{aligned}\]

D’apres la definition:

\[Df(a)(h) = Ah\\ Df(a):h\to Ah\]

2. $f:\mathbb R^n\to\mathbb R\\ x\to x^Tx\\ \begin{aligned} f(a+h)&=(a+h)^T(a+h)\\ &=aTa+h^Ta+a^Th+\overbrace{h^Th}^{\Vert h\Vert_2\Vert h\Vert_2}\\ &=f(a) +\underbrace{2a^Th}_{\text{lineaire en }h} +\Vert h\Vert \varepsilon(h) \end{aligned}\\$

Definition (rappel):

$\Vert h\Vert_2+\sqrt{h^Th}$

Remarque: $h^Ta\in\mathbb R$, $(h^Ta)^T=h^Ta\Rightarrow a^Th^{T^T}=a^Th$ car ce sont des reels.

Donc $Df(a):h\to2a^Th$

Dans le cas $n=1$

\[\begin{aligned} f:x&\to x^2\\ D f(a):h&\mapsto Df(a)(h)\\ f'(a)&=2a \end{aligned}\]

Proprietes usuelles

Les proprietes usuelles de derivabilites et de calcul des derivees s’etend au cas des fonctions de $\mathbb R^n\to\mathbb R$. Soient $f,g:\mathbb R^n\to\mathbb R$ et $a\in\mathbb R^n$, on suppose $f,g$ differentiable en $a$.

\[\begin{aligned} \forall h\text{ AP}\quad f(a+h)&=f(a)+D f(a)(h)+\Vert h\Vert\varepsilon_1(h)\\ g(a+h)&=f(a)+D g(a)(h)+\Vert h\Vert\varepsilon_2(h)\\ (+):(f+g)(a+h)&=(f+g)(a)+(\underbrace{D f(a)+D g(a)}_{\text{lineaire en }h})(h)+\Vert h\Vert (\underbrace{\varepsilon_1(h)+\varepsilon_2(h)}_{\varepsilon(h)}) \end{aligned}\]

$D(f+g)(a)=D f(a)+D g(a)$

\[(\times):(fg)(a+h)=(fg)(a) + f(a)D g(a)(h)+g(a)D f(a)(h)\\ +D f(a)(h)D g(a)(h)+\\ \Vert h\Vert\varepsilon_1(h)D g(a)(h) + \Vert h\Vert\varepsilon_2(h)D f(a)(h) +\\ \Vert h\Vert^2\varepsilon_1(h)\varepsilon_2(h) + \Vert h\Vert(\varepsilon_1(h)g(a) + \varepsilon_2(h)f(a))\\ \color{red}{D(fg)(a)=f(a)D g(a)+g(a)D f(a)}\\ \color{orange}{D (fg)(a):h\to f(a)D g(a)(h) + g(a)D f(a)(h)}\]

Matrice ligne

La differentielle de $f:\mathbb R^n\to\mathbb R$ en $a$ quand elle existe est une matrice ligne: comment en decrire les coeffs ?

Definition(temporaire): Quand $f$ est differentiable au point $a$ on appelle gradient de $f$ en $a$ le vecteur $v$ (colonne) $\nabla f(a)$ dont la transposee est la marice de $Df(a)$ dans les bases canoniques

On a donc: pour tout $h$ assez petit

\[f(a+h)=f(a)+\nabla f(a)^Th+\Vert h\Vert \underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}\]

On est interesse par calculer $\nabla f(a)^Te_i$ $\forall i\in{1,…,n}$

Soit $t\in\mathbb R$

\[f(a+t_{e_i})=f(a)+\nabla f(a)^T(te_i)+\Vert te_i\Vert\varepsilon(te_i)\\ \Leftrightarrow f(a+t_{e_i})-f(a)=t\nabla f(a)^Te_i+\Vert te_i\Vert\varepsilon(te_i)\\ \frac{\Leftrightarrow f(a+t_{e_i})-f(a)}{t}=\nabla f(a)^Te_i+\Vert e_i\Vert\varepsilon'(te_i)\quad t\neq0\\ \Leftrightarrow\nabla f(a)^Te_i=\underbrace{\frac{f(a+te_i)}{t}}_{\to_{t\to 0}\delta e_if(a)=\frac{\delta}{\delta x_i}f(a)}-\underbrace{\Vert e_i\Vert\varepsilon'(te_i)}_{t\to0 \\ \to 0}\]

En prenant la limite on vient de constater (avec la definition temporaire de $\nabla f(a)$) que $\nabla f(a)^Te_i=\frac{\delta}{\delta x_i}f(a)$

Cad que la ieme coordonnee de votre gradient c’est la derivee partielle par rapport a $x_i$

Defintion: Le gradient d’une fonctino $f$ en un point $a\in\mathbb R^n$ c’est le vecteur $v$ des derivees partielles:

\[\nabla f(a)=\biggr(\frac{\delta f}{\delta x_i}(a)\biggr)_{1\le i\le n}\]

Les definitions “temporaire” et definitives de gradient ne sont pas equivalentes: on peut admettre des derivees partielles sans etre differentiable

Prop: Si une fonction $f:\mathbb R^n\to\mathbb R$ admet un gradient en un point $a$, et si $x\to\nabla f(x)$ est continue au voisinage de $a$, alors $f$ est differentiable en $a$, cad qu’on peut ecrire

$\forall h \text{ assez petit}\\ f(a+h)=f(a)+\nabla f(a)^Th+o_a(h)$

Remarque: si $f$ est differentiable en $a$:

\[\underbrace{\delta_v f(a)}_{\color{red}{\text{derivee directionnelle de } f\\ \text{en } a \text{ le long de } v}}=\nabla f(a)^Tv\]

Derivee d’une composee

Pour parler de composee on va generaliser un petit peu le cadre avec lequel on a travaille jusque la. On s’interesse donc aux fonctions

\[f:\mathbb R^n\to\mathbb R^n\]

On note $f_1,…,f_n$ les fonctions coordonnees de $f$, $f=(f_1,…,f_n)$

Exemple

\[\begin{aligned} g:\mathbb R^2&\to\mathbb R^3\\ (x,y)&\mapsto \begin{pmatrix}\cos(xy) \\ x^2+y \\ 2y\end{pmatrix}\\ g_1:\mathbb R^2&\to\mathbb R\\ (x,y)&\mapsto \cos(xy)\\ g_2:\mathbb R^2&\to\mathbb R\\ (x,y)&\mapsto x^2+y\\ g_3:\mathbb R^2&\to\mathbb R\\ (x,y)&\mapsto 2y\\ \end{aligned}\]

Une fonction $f:\mathbb R^n\to\mathbb R^m$ va etre dite differentielle si on a une ecriture:

\[f(a+h)=f(a)+\underbrace{Df(a)}_{\text{differentielle de } f\\ \text{en } a,\text{de matrice}\\ \text{dans les bases canoniques}\\ \text{de taille: }(m,n)}(h)+\underbrace{\Vert h\Vert}_{\text{une norme sur }\mathbb R^n}\underbrace{\varepsilon(h)}_{\begin{aligned}\varepsilon:\mathbb R^n&\to\mathbb R^m \\ \varepsilon(h)&\to0\\h&\mapsto0\end{aligned}}\]

La matrice de $\lambda f(a)$ dans les bases canoniques est appellee la jacobienne de $f$ en $a$.

$J_f(a)=\begin{pmatrix} \frac{\delta f_1(a)}{\delta x_1}&\dots &\frac{\delta f_1(a)}{\delta x_n}\\ \vdots&\ddots&\vdots\\ \frac{\delta f_m(a)}{\delta x_1}&\dots &\frac{\delta f_m(a)}{\delta x_n}\\ \end{pmatrix}\\ =\begin{pmatrix} \nabla f_1(a)^T\\ \vdots\\ \nabla f_m(a)^T \end{pmatrix}\\ = (\nabla f_1(a),...,\nabla f_m(a))^T\\$

Pour $f:\mathbb R^n\to\mathbb R^m$ si on est differentiable en $a\in\mathbb R^n$ On a $\forall h$ AP:

\[f(a+h)=f(a)+J_{f}(a)h+o_a(h)\]

Question:

Soit $f,g$, $f:\mathbb R^n\to\mathbb R^m$, $g:\mathbb R^m\to\mathbb R^p$, si $f$ et $g$ sont differentiable respectivement $f$ en $a$ et $g$ en $b=f(a)$ alors

\[D(g\circ f)(a)=D g(\color{red}{f(a)})\circ D f(\color{red}{a})\]

Matriciellement:

\[J_{g\circ f}(a) = J_g(f(a))\times J_f(a)\]

OCVX: Differentielles (le retour)

La differentielle en TOP-DOWN

Aujourd’hui

Rappel sur $\mathbb R$

De maniere equivalente

Proposition d’extension au cas d’une fonction $f:\mathbb R^n\to\mathbb R$

Preuve

Demonstration: Ma $\psi$ est nulle

Exemple

Proprietes usuelles

Matrice ligne

Derivee d’une composee

Exemple

Question:

Further Reading

OCVX: Hyperplan d'appui

OCVX: Espaces tangents

OCVX: Introduction