Try   HackMD

ASE3: Analyse en composantes principales

Donnees et leurs caracteristiques

Tableau des donnees

Les observations de

p variables sur
n
individus sont regroupes en une matrice
X
a
n
ligned et
p
colonnes

X=te1teiten(X(1)X(j)X(p)\colorredXi(j))tei=(Xi(1),Xi(2),,Xi(j),,Xi(p))ei=(Xi(1)Xi(j)Xi(p))

Xi(j) est la valeur prise par la variable
X
sur le ieme individu.

Matrice des poids

On associe a chaque indvidu un poids

pi0 (probabilite de choisir l'individu)

i=1npi=1,D=(p1000p2000pn)

Si

pi=1nD=1nIn ou
In
matrice identite
(100010001)
i=1,,n

Centre de gravite

La vecteur

g des moyennes arithmetiques de chaque variable
X(j)
est definie par
g=(X¯(1),X¯(2),,X¯(p))

X¯(j)=i=jnPiXi(j)moyenne de X(j)j[1,p]

Le tableau des donnees centrees et la matrice Y telle que

Yi(j)=Xi(j)X¯(j)j[1,p],i[1,n]

Matrice de variance-covariance et matrice de correlation

Definition:
On appelle matrice de variance-covariance:

V=YTDY

:::

Si on note

D1S la matrice diagonale des inverses des ecarts-types:

D1S=(1S1001Sp)

ou:

  • sj=V(X(j))=(i=1npi(Xi(j)X¯j)2)
  • V(X(j))
    : variance de
    X(j)
  • Sj
    : ecart-type de
    X(j)

On appelle la matrice des donnees centrees et reduite:

Z telle que:

Zi(j)=yi(j)Sj

Matriciellement:

Z=YD1S

La matrice regroupant les coefficients de correlation lineaire entre les

p variables est
R
:

R=(1pijpij1)symetriquerij=pijcoefficient de correlation=Cov(X(i),X(j))SiSj

Ou:

Cov(X(i),X(j)): covariance

Cov(X(i),X(j))=k=1npkyk(i)yk(j)produit scalaire des variables centrees

Remarque:

R=D1SVD1S=D1SYTDYD1S\colorredR=ZTDZ

Espaces des individus

Chaque individu etant un vecteur defini par

p coordonnees est considere comme un element d'un espace vectoriel
F
appele l'espace des individus.
Les
n
individus forment alors un nuage de points dans
F
et
g
en est le barycentre (ou centre de gravite).

On munit l'espace

F d'une metrique (distance):

<ei,ej>produit scalaire=eiTMej

ou:

M est une matrice symetrique et definie positive (S.D.P)

Remarque: si

M=I (matrice identite), on se retrouve avec le produit scalaire usuel.

Si

M=D1S2=(1S12001Sp2) cela revient a diviser chaque caractere par son ecart-type.

Inertie

Definition:
On appelle inertie totale du nuage de points la moyenne ponderee des carres des distances des points au centre de gravite:

Ig=i=1npi(eig)TM(eig)=i=1npieig3

Proprietes de l'inertie

On peut montrer que l'inertie du nuage est egale a la trace de la matrice

MV:

Ig=Trace(MV)=Trace(VM)

Espace des variables

On note

E: l'espace des variables

X(j)=(Xi(j)Xn(j))

On munit

E de la metrique
M=D
avec D la matrice des poids

<X(j),X(k)>produit scalaire=(X(j))TDX(k)

Si les variables sont centrees:

(X(j))TDX(k)=i=1npiXi(j)Xi(k)=Cov(X(j),X(k))

La norme de

X(j) (variable centree)

X(j)2=<Xn(j),X(j)>=i=1npi(Xi(j))2=Sj2X(j)=Sjecart-type

On mesure l'angle entre 2 variables

X(j) et
X(k)
(centrees):

cos(Ojk)=<X(j),X(k)>X(j)X(k)similarite cosinus\colorredcos(Ojk)=Cov(X(j),X(k))SjSk=pjk

On retrouve le coefficient de correlation lineaire.

Variables engendree par un tableau des donnees

A une variable
X(j)
, on peut associer un axe de l'espace des individus
F
et un vecteur de l'espace des variable et on peut egalement deduire
X(1),X(2),,X(j),,X(p)
de nouvelles variables par combinaison lineaire.

Soit

un axe de
F
.
est engendre par un vecteur unitaire
a
(aTMmetriquesa=1)
et projetons les individus sur
(projection
M
-orthogonale)

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

ci=aTMei=eiTMa=<ei,a>produit scalaire

La liste des coordonnees

ci des individus sur
forme une nouvelle variable artificielle
C

C=(C1C2Cn)=XMa=u=Xu

On pose

u=Ma: facteur

C=Xu=j=1pujX(j)

Donc la nouvelle variable

C est une combinaison lineaire des variables initiales.

L'ensemble des variables

C que l'on peut engendrer par combinaison lineaire des vecteurs colonnes de
X
forme un sous-espace vectoriel (s.e.v.) de
E
de dimension
p

Remarque: Si

M=Iu=a

On suppose que les variables sont centrees (

X=Y) pour simplifier

Proposition:

V(C)=uTVuvariance de C

:::

Demonstration:

V(C)=cTDc=(Xu)TDXu=uTXTDXVuV(C)uTVu

Le but de la methode est d'obtenir une representation approchee du nuage des

n individus dans un s.e.v de dimension faible.

Ceci s'effectue par projection

Il faut deformer le moins possible les distances en projection, ce qui signifie que l'inertie du nuage projete sur le s.e.v.

Fk soit maximale.

Soit

P: la projetction
M
-orthogonale sur le s.e.v.
Fk

Pei=fiP2=PetPTM=MP

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

Le nuage projete est associe au tableau:

XPT car:

fi=Peivecteur colonnefiT=eiTPTvecteur ligne

On determine la matrice de var-covariance du tableau

XPT:

(XPT)TD(XPT)(les var sont centrees)=PXTDXPT=\colorredPVPT

On determine l'inertie du nuage projete:

Trace(PVPTM)

Tr(PVPTM)=Tr(PVMP)=Tr(VMP2)car Tr(AB)=Tr(BA)=Tr(VMP)

Donc l'inertie du nuage projete est

Trace(VMP)

Le probleme est donc de trouver

P: projection
M
orthogonale de rang
k
maximisant la trace de
VMP
, ce qui determinera
Fk
(
dim Fk=k
)

Theoreme

Theoreme:
Soit

Fk un s.e.v. portant l'inertie maximale, alors le s.e.v. de dimension
k+1
portant l'inertie maximale est la somme directe de
Fk
et du s.e.v. de dimension 1
M
-orthognal a
Fk
portant l'inertie maximale.

Fk+1=Fk+bRdimension 1

:::

Pour obtenir

Fk on pourra proceder de proche en proche en cherchant d'abord le s.e.v. de dimension
1
d'inertie maximale puis le s.e.v. de dimension
1
M
orthogonal au premier d'inertie maximale.

On chercher la droite de

R2 passant par
g
, maximisant l'inertie du nuage projete sur cette droite, On rappelle la projection
M
-orthogonale sur la droite dirigee par
a
:

P=a(aTMa)1aTM

Inertie du nuage projete sur cette droite:

Tr(VMP)=Tr(VMa(aTMa)1aTM)=1aTMaTr(VMaaTM)=1aTMaTr(aTMVMa)=aTMVMaaTMadda(aTMVMaaTMa)=0(*)

Rappel

dda(aTAaforme quadratique)=Aa+ATa

Si

A est symetrique:

dda(aTAa)=2Aa

(*)(aTma)2MVMa(aTMVMa)2MA(aTMa)2=0MVMa=(aTMVMaaTMa)MaVMa=(aTMVMaaTMa)a\colorredVMa=λaavec λ=aTMVMaaTMa

Donc

a est un vecteur propre de
VM
associe a
λ
(valeur propre).

Il faut que

λ soit maximale.

Donc le s.e.v.

Fk de dimension
k
est engendre par les
k
vecteurs propres de $VM associes aux
k
plus grandes valeurs propres.

On appelle composantes principales:

C(i)=Yu(i)u(i): facteur

:::

Si les variables initiales sont centrees alors

C(i)=Xu(i)

V(C(i))=λii

Qualites des representations sur les plans principaux

Le put de l'A.C.P. etant d'obtenir une representation des individus dans un espace de dimension plus faible que

p.

Le critere le plus utilise est celui du pourcentage d'inertie totale expliquee on mesure la qualite de

Fk par:

λ1+λ2++λkλ1+λ2++λp

Inertie totale:

λ1+λ2++λp=Itot

Si par exemple

λ1+λ2Itot=90%, on concoit qu'une representation du nuage dans le plan des 2 premiers axes principaux sera tres satisfaisante.

Correlations entre composantes principales et variables initiales

La methode la plus naturelle pour donner une signification a une composante principale

C(i) est de la relier aux variables
X(j)
(variables intiales) en calculant les coefficients de correlation lineaire

p(X(j),C(i))

et en s'interessant aux plus forts coefficients en valeur absolue

p(X(j),C(i))=Cov(X(j),C(i))σX(j)σC(i)

Cov(X(j),C(i))=<y(j),C(i)>ou y(j) : var centree