# ASE3: Analyse en composantes principales
# Donnees et leurs caracteristiques
## Tableau des donnees
Les observations de $p$ variables sur $n$ individus sont regroupes en une matrice $X$ a $n$ ligned et $p$ colonnes
$$
X=\begin{matrix}te_1 \\ \vdots \\ te_i \\ \vdots \\te_n\end{matrix}\begin{pmatrix}
X^{(1)} &\dots &X^{(j)} &\dots &X^{(p)}\\
\vdots&\vdots&\vdots&\vdots&\vdots\\
\dots&\dots &\color{red}{X_i^{(j)}} &\dots &\dots\\
\vdots&\vdots&\vdots&\vdots&\vdots\\
\dots&\dots&\dots&\dots&\dots
\end{pmatrix}\\
te_i=(X_i^{(1)},X_i^{(2)},\dots,X_i^{(j)},\dots,X_i^{(p)})\\
e_i=\begin{pmatrix}X_i^{(1)} \\ \vdots \\ X_i^{(j)} \\ \vdots \\ X_i^{(p)}\end{pmatrix}
$$
$$X_i^{(j)}$$ est la valeur prise par la variable $X$ sur le ieme individu.
## Matrice des poids
On associe a chaque indvidu un poids $p_i\ge0$ (probabilite de choisir l'individu)
$$
\sum_{i=1}^np_i=1, D=
\begin{pmatrix}
p_1 &0&\dots&0 \\
0 &p_2&\dots&0 \\
\vdots &\vdots &\ddots&\vdots\\
0 &0 &\dots &p_n
\end{pmatrix}
$$
Si $p_i=\frac{1}{n}\Rightarrow D=\frac{1}{n}I_n$ ou $I_n$ matrice identite $$\begin{pmatrix} 1&0&\dots &0 \\ 0&1&\dots&0 \\ \vdots&\vdots&\ddots &\vdots \\ 0 & 0&\dots&1 \end{pmatrix}$$ $\forall i=1,\dots,n$
## Centre de gravite
La vecteur $g$ des moyennes arithmetiques de chaque variable $X^{(j)}$ est definie par $g=(\bar X^{(1)},\bar X^{(2)},\dots,\bar X^{(p)})$
$$
\bar X^{(j)}=\sum_{i=j}^nP_iX_i^{(j)}\quad\text{moyenne de } X^{(j)}\quad\forall j\in [1,p]
$$
:::danger
Le tableau des donnees centrees et la matrice Y telle que
$$
Y_i^{(j)}=X_i^{(j)}-\bar X^{(j)}\quad\forall j\in[1,p], \forall i\in[1, n]
$$
:::
## Matrice de variance-covariance et matrice de correlation
:::info
**Definition**:
On appelle matrice de variance-covariance:
:::danger
$$
V=Y^TDY
$$
:::
:::
Si on note $D_{\frac{1}{S}}$ la *matrice diagonale des inverses des ecarts-types*:
$$
D_{\frac{1}{S}} = \begin{pmatrix}
\frac{1}{S_1} &\dots &0\\
\vdots &\ddots &\vdots \\
0&\dots&\frac{1}{S_p}
\end{pmatrix}
$$
ou:
- $s_j=\sqrt{V(X^{(j)})}=(\sum_{i=1}^np_i(X_i^{(j)}-\bar X^{j})^2)$
- $V(X^{(j)})$: variance de $X^{(j)}$
- $S_j$: ecart-type de $X^{(j)}$
On appelle la matrice des donnees centrees et reduite: $Z$ telle que:
$$
Z_i^{(j)}=\frac{y_i^{(j)}}{S_j}
$$
:::danger
Matriciellement:
$$
Z=Y\bullet D_{\frac{1}{S}}
$$
:::
La matrice regroupant les coefficients de correlation lineaire entre les $p$ variables est $R$:
$$
R=\begin{pmatrix}
1&\dots&p_{ij}\\
\vdots&\ddots&\vdots\\
p_{ij}&\dots&1
\end{pmatrix}\quad\text{symetrique}\\
r_{ij}=\underbrace{p_{ij}}_{\text{coefficient de correlation}}=\frac{Cov(X^{(i)}, X^{(j)})}{S_iS_j}
$$
Ou: $Cov(X^{(i)}, X^{(j)})$: covariance
$$
Cov(X^{(i)}, X^{(j)})=\sum_{k=1}^np_k\underbrace{y_k^{(i)}y_k^{(j)}}_{\text{produit scalaire des variables centrees}}
$$
**Remarque:**
$$
\begin{aligned}
R&=D_{\frac{1}{S}}VD_{\frac{1}{S}}\\
&=D_{\frac{1}{S}}Y^TDYD_{\frac{1}{S}}\\
&\Leftrightarrow\color{red}{\boxed{R=Z^TDZ}}
\end{aligned}
$$
# Espaces des individus
Chaque individu etant un vecteur defini par $p$ coordonnees est considere comme un element d'un espace vectoriel $F$ appele *l'espace des individus*.
Les $n$ individus forment alors un nuage de points dans $F$ et $g$ en est le barycentre (ou centre de gravite).
On munit l'espace $F$ d'une metrique (distance):
$$
\underbrace{<e_i, e_j>}_{\text{produit scalaire}}=e_i^TMe_j
$$
ou: $M$ est une matrice symetrique et definie positive (S.D.P)
**Remarque:** si $M=I$ (matrice identite), on se retrouve avec le produit scalaire usuel.
Si $$M=D_{\frac{1}{S^2}}=\begin{pmatrix}\frac{1}{S_1^2}&\dots&0 \\ &\vdots &\ddots &\vdots \\ 0 &\dots &\frac{1}{S_p^2} \end{pmatrix}$$ cela revient a diviser chaque caractere par son ecart-type.
## Inertie
:::info
**Definition:**
On appelle inertie totale du nuage de points la moyenne ponderee des carres des distances des points au centre de gravite:
$$
\begin{aligned}
I_g&=\sum_{i=1}^np_i(e_i-g)^TM(e_i-g)\\
&=\sum_{i=1}^np_i\Vert e_i-g\Vert^3
\end{aligned}
$$
:::
### Proprietes de l'inertie
On peut montrer que l'inertie du nuage est egale a la trace de la matrice $MV$:
:::danger
$$
I_g=Trace(MV)=Trace(VM)
$$
:::
# Espace des variables
On note $E$: l'espace des variables
$$
X^{(j)}=\begin{pmatrix}X_i^{(j)} \\ \vdots \\ X_n^{(j)} \end{pmatrix}
$$
On munit $E$ de la metrique $M=D$ avec D la matrice des poids
$$
\underbrace{<X^{(j)}, X^{(k)}>}_{\text{produit scalaire}}=(X^{(j)})^TDX^{(k)}
$$
Si les variables sont centrees:
$$
\begin{aligned}
(X^{(j)})^TDX^{(k)}&=\sum_{i=1}^np_iX^{(j)}_iX^{(k)}_i\\
&=Cov(X^{(j)}, X^{(k)})
\end{aligned}
$$
La norme de $X^{(j)}$ (variable centree)
$$
\begin{aligned}
\Vert X^{(j)}\Vert^2&=<X_n^{(j)}, X^{(j)}>\\
&=\sum_{i=1}^np_i(X_i^{(j)})^2=S_j^2\\
\Rightarrow\Vert X^{(j)}\Vert&=S_j\quad\text{ecart-type}
\end{aligned}
$$
On mesure l'angle entre 2 variables $X^{(j)}$ et $X^{(k)}$ (centrees):
$$
\cos(O_{jk})=\frac{<X^{(j)}, X^{(k)}>}{\Vert X^{(j)}\Vert\Vert X^{(k)}\Vert}\quad\text{similarite cosinus}\\
\color{red}{\boxed{\cos(O_{jk}) = \frac{Cov(X^{(j)}, X^{(k)})}{S_jS_k} = p_{jk}}}
$$
:::success
On retrouve le coefficient de correlation lineaire.
:::
# Variables engendree par un tableau des donnees
$A$ une variable $X^{(j)}$, on peut associer un axe de l'espace des individus $F$ et un vecteur de l'espace des variable et on peut egalement deduire $X^{(1)}, X^{(2)},\dots,X^{(j)}, \dots, X^{(p)}$ de nouvelles variables par combinaison lineaire.
Soit $\triangle$ un axe de $F$. $\triangle$ est engendre par un vecteur unitaire $a$ $$(a^T\underbrace{M}_{\text{metriques}}a=1)$$ et projetons les individus sur $\triangle$ (projection $M$-orthogonale)
![](https://i.imgur.com/ECi7TRA.png)
$$
\begin{aligned}
c_i=a^TMe_i&=e_i^TMa\\
&=<e_i,a>\quad\text{produit scalaire}
\end{aligned}
$$
La liste des coordonnees $c_i$ des individus sur $\triangle$ forme une nouvelle variable artificielle $C$
$$
C=\begin{pmatrix}C_1 \\ C_2 \\ \vdots \\ C_n\end{pmatrix}=X\underbrace{Ma}_{=u}=Xu
$$
On pose $u=Ma$: facteur
$$
\Rightarrow C=Xu=\sum_{j=1}^pu_jX^{(j)}
$$
:::success
Donc la nouvelle variable $C$ est une combinaison lineaire des variables initiales.
:::
L'ensemble des variables $C$ que l'on peut engendrer par combinaison lineaire des vecteurs colonnes de $X$ forme un sous-espace vectoriel (s.e.v.) de $E$ de dimension $\le p$
**Remarque**: Si $M=I\Rightarrow u=a$
On suppose que les variables sont centrees ($X=Y$) pour simplifier
:::info
**Proposition**:
:::danger
$$
V(C) = u^TVu\quad\text{variance de }C
$$
:::
:::
> **Demonstration:**
> $$
> \begin{aligned}
> V(C) &=c^TDc\\
> &= (Xu)^TDXu=u^T\underbrace{X^TDX}_{V}u\\
> &\Rightarrow V(C)u^TVu
> \end{aligned}
> $$
Le but de la methode est d'obtenir une representation approchee du nuage des $n$ individus dans un s.e.v de dimension faible.
:::warning
Ceci s'effectue par projection
:::
Il faut deformer le moins possible les distances en projection, ce qui signifie que l'inertie du nuage projete sur le s.e.v. $F_k$ soit maximale.
Soit $P$: la projetction $M$-orthogonale sur le s.e.v. $F_k$
$$
Pe_i=f_i\\
P^2=P\quad\text{et}\quad P^TM=MP
$$
![](https://i.imgur.com/cdisQKu.png)
Le nuage projete est associe au tableau: $XP^T$ car:
$$
\underbrace{f_i=Pe_i}_{\text{vecteur colonne}}\Rightarrow \underbrace{f_i^T=e_i^TP^T}_{\text{vecteur ligne}}
$$
On determine la matrice de var-covariance du tableau $XP^T$:
$$
(XP^T)^TD(XP^T)\quad\text{(les var sont centrees)}\\
=PX^TDXP^T\\
=\color{red}{\boxed{PVP^T}}
$$
On determine l'inertie du nuage projete: $Trace(PVP^TM)$
$$
\begin{aligned}
Tr(PVP^TM)&=Tr(PVMP)\\
&=Tr(VMP^2)\quad\text{car }Tr(AB)=Tr(BA)\\
&=Tr(VMP)
\end{aligned}
$$
:::success
Donc l'inertie du nuage projete est $Trace(VMP)$
:::
Le probleme est donc de trouver $P$: projection $M-$orthogonale de rang $k$ maximisant la trace de $VMP$, ce qui determinera $F_k$ ($\text{dim } F_k=k$)
## Theoreme
:::info
**Theoreme**:
Soit $F_k$ un s.e.v. portant l'inertie maximale, alors le s.e.v. de dimension $k+1$ portant l'inertie maximale est la somme directe de $F_k$ et du s.e.v. de dimension 1 $M$-orthognal a $F_k$ portant l'inertie maximale.
:::danger
$$
F_{k+1}=F_k+\underbrace{b\mathbb R}_{\text{dimension }1}
$$
:::
:::
Pour obtenir $F_k$ on pourra proceder de proche en proche en cherchant d'abord le s.e.v. de dimension $1$ d'inertie maximale puis le s.e.v. de dimension $1$ $M-$orthogonal au premier d'inertie maximale.
On chercher la droite de $\mathbb R^2$ passant par $g$, maximisant l'inertie du nuage projete sur cette droite, On rappelle la projection $M$-orthogonale sur la droite dirigee par $a$:
$$
P=a(a^TMa)^{-1}a^TM
$$
Inertie du nuage projete sur cette droite:
$$
\begin{aligned}
Tr(VMP)&=Tr(VMa(a^TMa)^{-1}a^TM)\\
&= \frac{1}{a^TMa}Tr(VMaa^TM)\\
&= \frac{1}{a^TMa}Tr(a^TMVMa)\\
&=\frac{a^TMVMa}{a^TMa}
\end{aligned}\\
\frac{d}{da}(\frac{a^TMVMa}{a^TMa})=0\quad\text{(*)}
$$
## Rappel
:::info
$$
\frac{d}{da}(\underbrace{a^TAa}_{\text{forme quadratique}})=Aa+A^Ta
$$
:::
:::danger
Si $A$ est symetrique:
$$
\frac{d}{da}(a^TAa)=2Aa
$$
:::
$$
\begin{aligned}
\text{(*)} &\Rightarrow \frac{(a^Tma)2MVMa-(a^TMVMa)2MA}{(a^TMa)^2}=0\\
&\Rightarrow MVMa=\biggr(\frac{a^TMVMa}{a^TMa}\biggr)Ma\\
&\Rightarrow VMa=\biggr(\frac{a^TMVMa}{a^TMa}\biggr)a\\
&\Rightarrow \color{red}{\boxed{VMa=\lambda a}}\quad\text{avec }\lambda=\frac{a^TMVMa}{a^TMa}
\end{aligned}
$$
:::success
Donc $a$ est un vecteur propre de $VM$ associe a $\lambda$ (valeur propre).
:::
:::warning
Il faut que $\lambda$ soit maximale.
:::
Donc le s.e.v. $F_k$ de dimension $k$ est engendre par les $k$ vecteurs propres de $VM associes aux $k$ plus grandes valeurs propres.
:::info
On appelle composantes principales:
:::danger
$$
C^{(i)}=Yu^{(i)}\quad u^{(i)}\text{: facteur}
$$
:::
:::
Si les variables initiales sont centrees alors $C^{(i)}=Xu^{(i)}$
:::danger
$$
V(C^{(i)}) = \lambda i\quad\forall i
$$
:::
# Qualites des representations sur les plans principaux
Le put de l'A.C.P. etant d'obtenir une representation des individus dans un espace de dimension plus faible que $p$.
:::info
Le critere le plus utilise est celui du pourcentage d'inertie totale expliquee on mesure la qualite de $F_k$ par:
$$
\frac{\lambda_1+\lambda_2+\dots+\lambda_k}{\lambda_1+\lambda_2+\dots+\lambda_p}
$$
:::
:::warning
Inertie totale:
$$
\lambda_1+\lambda_2+\dots+\lambda_p=I_{tot}
$$
:::
Si par exemple $\frac{\lambda_1+\lambda_2}{I_{tot}}=90\%$, on concoit qu'une representation du nuage dans le plan des 2 premiers axes principaux sera tres satisfaisante.
# Correlations entre composantes principales et variables initiales
La methode la plus naturelle pour donner une signification a une composante principale $C^{(i)}$ est de la relier aux variables $X^{(j)}$ (variables intiales) en calculant les coefficients de correlation lineaire
$$
p(X^{(j)}, C^{(i)})
$$
et en s'interessant aux plus forts coefficients en valeur absolue
:::danger
$$
p(X^{(j)}, C^{(i)})=\frac{Cov(X^{(j)}, C^{(i)})}{\sigma_{X^{(j)}}\sigma_{C^{(i)}}}
$$
:::
$$
Cov(X^{(j)}, C^{(i)}) = <y^{(j)}, C^{(i)}>\quad\text{ou }y^{(j)}\text{ : var centree}
$$