Lien de la note Hackmd
Rappels
- Hyperplan d’appui a une partie $A$ de $\mathbb R^n$ en un point $p\in A$, est un hyperplan affine de $\mathbb R^n$ qui laisse $A$ dans un des deux demi-espaces definis par $H$
Etant donne un vecteur normal $\vec \nu$ definissant $H\in\mathbb R^n$ et $p$ un point dans $H\cap A$ on a
\[\forall x\in A; <\vec\nu, x-p>\le 0\]- On a definit par ailleurs la notion de gradient d’une fonction differentiable $f:\mathbb R^n \to \mathbb R$ en un point $a$, determinee par la relation:
Plan du cours
Objectif d’aujourd’hui
- Etendre la notion de droite tangente au graphe d’une fonction $f:\mathbb R\to\mathbb R$
- Au cas des fonctions $\phi:\mathbb R^n\to\mathbb R$
- au cas des parties de $\mathbb R^n$ decrites comme courbes de niveaux de fonctions
- Utiliser le point 1. pour obtenir une lieuristique, permettant de construire des methodes iteratives d’optimisation
- Revoir la notion de droite tangente dans le cas $\mathbb R$ (une dimension)
- $f:\mathbb R\to\mathbb R$
- Graphe
- On va definir une maniere de generaliser la notion de droite tangente
- $f:\mathbb R\to\mathbb R$
- Graphe
- On adapte cette definition au cas de courbes de niveaux
- $g:\mathbb R^2\to\mathbb R$
- zeros de $g$ (courbes de niveau de $g$)
- Conclusion pour le cas general
- $\phi:\mathbb R^n\to\mathbb R$
Espace tangent
Le gradient en dimension 1 correspond a la notion de derivee, qui permet de definir la notion de droite tangente au graphe d’une fonction en un point. Dans ce contexte, l’interpretation geometrique de la notion de gradient est connue. En particulier le fait que vous soyez croissants ou decroissant vous est donne par le signe de votre gradient; cela vous permet de savoir dans quelle direction aller si vous cherchez des points ou votre fonction a des plus petite ou plus grandes valeurs.
Que signifie un nombre positif ou negatif pour un vecteur de $\mathbb R$ ? Si on est positif (resp. negatif), on est dans la moitie positive(resp. negative) de notre droite reelle.
\(Q: \min_{x\in\mathbb R}f(x)\) On cherche a minimiser la fonction $f$
Dans ce dessin, le signe de la derivee vous dit que si vous voulez chercher des points $x$ avec $f(x)\le f(a)$, il faut aller dans le sens oppose a $f’(a)$.
La droite $D_{f,p}$ est derivee parametriquement par
\[\begin{aligned} \mathbb R&\to^{\lambda}\mathbb R^2\\ t&\mapsto (a+t, f'(a)t + f(a))\color{green}{= (a, f(a)) + t(1, f'(a))}\color{red}{=P} \end{aligned}\]On est en train de dire que $D_{f,p}$ est la droite passant par $p$, de direction $Vect\biggr((1,f’(a))\biggr)$
Cette notion de droite tangente ne semble pas, telle quelle, facilement generalisable au cas de fonctions de $\mathbb R^n\to\mathbb R$
Definition Soit $A$ une partie de $\mathbb R^n$, soit $p\in A$. On appelle \(\color{red}{\text{germe d'une courbe (derivable) } \gamma:\underbrace{]-\varepsilon,\varepsilon[}_{\varepsilon\gt0}\to A\text{ tel que }\gamma(0)=p}\), la derivee de $\gamma$ en $0$
Cela correspond au vecteur vitesse en $p$ d’un point materiel passant par $p$ a l’instant 0, si $\gamma$ decrit la position de ce point en fonction du temps $t$.
L’ensemble des germes de courbes en $p$ definit un sous-espace vectoriel de $\mathbb R^n$. $\color{orange}{\text{On le note }T_{A,p}\text{, il s’appelle espace tangent a }A\text{ en }p}$.
Que donne $\color{orange}{T_{A,p}}$ dans le cas du graphe de $f$?
Si $A$ est $\Gamma_f$ (graphe de $f$) toute courbe passant par $p$ $\gamma:]-\varepsilon,\varepsilon[\to\Gamma_f$ est de la forme:
\(\gamma(t) = \underbrace{(\psi(t), f(\psi(t)))}_{\color{orange}{\psi(t), \phi(t)}} \quad \text{pour }\psi:]-\varepsilon,\varepsilon[\to\mathbb R\) avec $\psi(0) = a$
Si $\gamma$ est derivable en 0:
\[\gamma'(0) = (\psi'(0),\psi'(0)f'(a)) = \psi'(0)(1,f'(a))\]Conclusion
\[T_{A,p} = Vect\biggr((1, f'(a))\biggr)\]autrement dit: $D_{f,p} = p + T_{A,p}$
Definition Etant donne une partie $A\subseteq\mathbb R^n$ et $p\in A$, on appelle espace tangent a $A$ en $p$ l’espace vectoriel $T_{A,p}$ compose des germes de courbes dans $A$ passant par $p$.
Remarque: Geometriquement, on represente souvent $p+T_{A,p}$ et non $T_{A,p}$
Notre prochaine etape est de reinterpreter $p+T_{A,p}$ de maniere implicite de facon a faire apparaitre la notion de gradient d’une fonction $\mathbb R^n\to\mathbb R$.
On a $D_{f,p}: (a,f(a)) + t(1,f’(a))$ pour $t\in\mathbb R$.
Comment obtenir une ecriture implicite de $D_{f,p}$ ? Si $(x,y)\in D_{f,p}$ alors
\[\begin{cases} x = a + t\\ y = f(a) + f'(a)t \end{cases} \Leftrightarrow f'(a)(x-a) = y - f(a)\]Questions
- Comment ecrit-on $\Gamma_f$ comme zeros d’une fonction ?
- Quel est le gradient de cette fonction au point $p$ ?
- Quel est $\perp$ de ce gradient au point $p$ ?
Premiere question
$\Gamma_f$ est zeros de la fonction:
\[\begin{aligned} \phi:\mathbb R^2&\to\mathbb R\\ (x,y) &\mapsto f(x)-y \end{aligned}\\ \begin{aligned} z(\phi) = \{(x,y)\vert f(x)-y=0\} &= \{(x,y)\vert f(x)=y\}\\ &= \{(x,f(x))\vert x\in\mathbb R\}\\ &= \Gamma_f \end{aligned}\]Deuxieme question
\[\nabla\phi((a,f(a))) = \begin{pmatrix}\frac{\partial\phi}{\partial x}(a,f(a)) \\ \frac{\partial\phi}{\partial y}(a,f(a)) \end{pmatrix} = \begin{pmatrix}f'(a) \\ -1\end{pmatrix}\\ \phi(x,y) = f(x) - y\]Ce qui genere notre droite tangente c’est $(1, f’(a))$ et on a obtenu le vecteur $(f’(a), -1)$.
On a obtenu un vecteur orthogonal a notre droite tangente
Troisieme question
L’orthogonal a $\nabla\phi(p)$ au point $p$:
\[\nabla\phi(p)^T \begin{pmatrix} x - a \\ y-f(a) \end{pmatrix} = \begin{pmatrix} f'(a) \\ -1 \end{pmatrix} \begin{pmatrix} x - a \\ y - f(a) \end{pmatrix} = f'(a)(x-a)- ( y - f(a))\]$\perp\nabla\phi(p): f’(a)(x-a) = y-f(a)$ ($\perp$ passant par $p$)
“Vectorialise”: $f’(a)x = y \Leftrightarrow\nabla\phi(p)^T \begin{pmatrix}x \ y\end{pmatrix} = 0$
$\nabla\phi(p)$ nous donne $T_{\Gamma_{f,p}}$, Autrement dit:
\(D_{f,p}:p + \underbrace{\nabla\phi(p)^{\perp}}_{\color{orange}{T_{\Gamma_{f,p}}}}\)
Prop Soit $f:\mathbb R^n\to\mathbb R$ une fonction differentiable en un point $p\in\mathcal C_{f,r}$. L’espace tangent a $\mathcal C_{f,r}$ au point $p$ est donne par l’hyperplan orthogonal ($\perp$) a $\nabla f(p)$.
Question: Calculer l’espace tangent au point $(1, 1)$ de $\mathcal C_{f,r}$ pour \(\begin{aligned}f:\mathbb R^2&\to\mathbb R \\ (x,y)&\mapsto x^2+y^2\end{aligned}\)
\[\begin{aligned} \nabla f(x,y) = \begin{pmatrix}2x \\ 2y\end{pmatrix}; \quad \nabla f(1,1)^T\begin{pmatrix}x \\ y\end{pmatrix} &= 0\\ \Leftrightarrow 2x+2y &=0\\ \Leftrightarrow x+y&=0 \end{aligned}\]Apport de la convexite
Rappel
Une fonction $f:\mathbb R^n\to\mathbb R$, differentiable, est convexe si $\forall x,y\in\mathbb R^n$
\(f(y)- f(x) \ge\nabla f(x)^T(y-x)\qquad \text{(E)}\)
Hypothese
Hypothese $f:\mathbb R^n\to\mathbb R$ une fonction convexe
Dans ce cas $\forall r\in\mathbb R$, $\mathcal C_{f\le r}$ est convexe $\subseteq\mathbb R^n$
Ici, \(\forall y\in\mathcal C_{f_1\le v}\), $\nabla f(x)^T(y-a)\le0$. Donc $x+\nabla f(x)^{\perp}$ est un hyperplan d’appui a \(\mathcal C_{f_1\le v}\)
Convexite: $f(y)-f(x)\ge\nabla f(x)^T(y-x)$
Donc le demi-espace positif est a exclure si l’on souhaite chercher un point $x^+$ tel que $f(x^+)\le f(x)$
On vient d’eliminier toute une partie de l’espace de nos recherches.
Question: Dans quelle direction chercher ?
Prop Soit $f:U\subset\mathbb R^n\to\mathbb R$ une fonction differentiable. Soit $x\in\mathcal C_{f,r}$, si $\nabla f(x)\neq 0$ $\exists x^+=x+\Delta x$ tel que $f(x)\ge f(x^+)$ detour, par un deplacement $\Delta x$ a l’oppose de la direction de $\nabla f(x)$
Remarques
- On ne connait pas a priori l’amplitude par laquelle on doit additioner $\nabla f(x)$ a $x$, pour obtenir $x^+$
- Ce resultat est vrai meme si $f$ n’est pas convexe, on ne garantit plus la recherche d’un minimum global
Question: Il se passe quoi si $\nabla f(x) = 0$ ?
Questions des eleves
J’ai pas compris la particule a une vitese constante sur x? Comment on défini la “vitesse”?
Tu images que la courbe gamma représente le déplacement de la particule le long de la courbe A -> gamma(t) = abscisse de la particule le long de la courbe. Avec en t=0, ta particule qui passe par le point p
La vitesse instantanée = dérivée de la position. Vitesse instantanée de la particule en p = dérivée de gamma en 0
Ta particule peut adopter plusieurs profils de vitesse le long de la courbe (accélérer, décélérer, etc), mais elle est contrainte de suivre le profile de la courbe
Donc la valeur du vecteur vitesse gamma’(0) peut effectivement varier selon le profil de vitesse
Mais la direction de ce vecteur vitesse sera toujours la même, et c’est ce qui défini l’espace tangent (en dim 1)
Mais du coup on fait tout ça juste pour trouver un vecteur qui appartient a l’espace tangent?
En fait cette idée est très générale, et indépendante de la dimension de l’espace dans lequel on travaille. En dim 1, ça peut paraître un peu overkill de faire tout ça “juste” pour avoir la direction de la tangente. Mais quand on va passer sur des dimensions supérieurs (donc des surfaces, etc), là tu auras plusieurs directions possibles de te balader sur la surface et d’approcher ton point p. Imagine $f(x,y) = x^2 + y^2$, donc une surface en forme de bol. En (0,0), tu as plusieurs directions pour approcher (0,0) en restant sur la surface. Pour chacune de ces courbes possibles, tu vas avoir un vecteur vitesse associé. Et c’est l’ensemble de ces vecteurs vitesse (enfin, l’espace généré par ces vecteurs vitesse) qui va définir le plan tangent
J’ai encore du mal à voir en quoi c’est différent d’une différentielle
Il y a effectivement un lien entre les deux notions, mais ce ne sont pas du tout les mêmes objets : une différentielle est une application linéaire, un espace tangent est une sous-partie de ton espace de travail.