CAMA : ma40 Méthode du gradient conjugué

Cours du 24 / 05

Méthode du gradient conjugue

Si on a calculé le

μ

optimal alors la plus forte pente

\nabla J (x^{k + 1})

sera orthogonale à la pente qui définie la droite sur laquelle on cherche

μ

. On a donc

\nabla J (x^{k + 1})^{T} . \nabla J (x^{k}) = 0

Le minimum suivant

x^{k + 2}

sera le minimum de l'espace généré par

\nabla J (x^{k + 1})

\nabla J (x^{k})

On ne sait pas si

x^{k + 3}

sera calculé le long de la direction

\nabla J (x^{k})

Une recherche optimale du minimum d'une fonction convexe dans un espace

R^{n}

ne devrait pas prendre plus de

n

itérations si on est capable de calculer le

μ

optimal dans la direction choisie.
On cherche le minimum dans les directions des vecteurs de la base de notre espace

R^{n}

afin de trouver le minimum global.

Générer une base de
$R^{n}$

Si on veut trouver notre minimum global en

n

itérations au maximum, il faut que nos directions ne soient pas redondantes et que les

n

premières directions génèrent

R^{n}

ou en forment une base.
La nouvelle direction

d^{k}

doit être orthogonale à toutes les directions précédentes et permet de trouver une base qui génère un espace de dimension

k + 1

Le cas
$A x = b$

La fonctionnelle à minimiser est :

J (x) = \frac{1}{2} x^{T} A x - b . x

Si A est symétrique, son gradient est
$\nabla J (x) = A x - b$

Si on calcule

x^{k}

comme avant on a l'orthogonnalité de 2 directions successives.

Que se passe-t-il si

$x^{k} + 1$ minimise
$J$ dans l'espace
$G_{k}$ généré par toutes les directions précédentes ?

J (x^{k + 1}) = min_{v \in G_{k}} J (x^{k} + v)

avec

G_{k} = s p a n {d^{0}, d^{1}, \dots, d^{k}} = {v = \sum_{i = 0}^{k} α_{i} d^{i} \forall α_{i} \in ℝ}

Toutes les dérivées partielles par rapport aux vecteurs de

G_{k}

sont nulles :

\nabla J (x^{k + 1}) . w = 0 \forall w \in G_{k}

Cela se vérifie si

w

est un des vecteurs de la base:

\nabla J (x^{k + 1}) . e_{i} = [\begin{matrix} \partial J / \partial x_{1} \\ \partial J / \partial x_{2} \\ ⋮ \\ \partial J / \partial x_{i} \\ ⋮ \\ \partial J / \partial x_{n} \end{matrix}] . [\begin{matrix} 0 \\ 0 \\ ⋮ \\ 1 \\ ⋮ \\ 0 \end{matrix}] = \frac{\partial J}{\partial x_{i}} (x^{k + 1})

La dérivée partielle de

J

dans une direction

w

G_{k}

est nulle revient a dire

\nabla J (x^{k + 1})

est orthogonal à

w

Générer les directions
$d^{i}$

La formule itérative devient :

x^{k + 1} = x^{k} - µ^{k} d^{k}

Pour calculer les
$d^{k}$ on utilise la formule des dérivées partielles de
$J$ par rapport à un vecteur
$w \in G_{k}$ où elles sont nulles.
$d^{i}$ génèrent l'espace
$G_{k}$ , il suffit que les dérivées partielles de
$J$ par rapport
$d^{i}$ soient nulles

$\nabla J (x^{k + 1}) . d^{i} = 0 \forall i \leq k (1)$

En déroulant les calculs on obtient :

\begin{aligned} \nabla J (x^{k}) . d^{i} - µ^{k} A d^{k} . d^{i} & = 0 \forall i \leq k \end{aligned}

Si
$i < k$ , le premier terme est nul :
$A d^{k} . d^{i} = 0 \forall i < k (2)$
- On a les conditions pour construire la nouvelle direction
  $d^{k}$
  $d^{k} = \nabla J (x^{k}) - \sum_{i = 0}^{k - 1} \frac{A \nabla J (x^{k}) . d^{i}}{A d^{i} . d^{i}} d^{i}$
Si
$i = k$ , on obtient la valeur nécessaire
$µ^{k}$ pour garantir que
$\nabla J (x^{k + 1}) . d^{k} = 0$ :
$µ^{k} = \frac{\nabla J (x^{k}) . d^{k}}{A d^{k} . d^{k}} = \frac{(A x^{k} - b) . d^{k}}{A d^{k} . d^{k}}$

Propriété

L'ensemble des gradients de

J

aux points

x^{i}

forment une base de l'espace

G_{k}

\nabla J (x^{k + 1}) ⊥ \nabla J (x^{i}) \forall i \leq k