--- titre: Analyse de données description : Cours d'analyse de donnée author : romain.baguet tags: ANDO, romain.baguet --- # Analyse de données [toc] ## Description bidimensionelle et mesure de corrélation ### Loi Conjointe de (X, Y) Soient X et Y 2 variables aléatoires discrètes définies sur sur le même espace probabilisé : ($\Omega\ , \tau\ , P$) $X(\Omega) = \{ x_i / i dans I \}$ valeurs de X $Y(\Omega) = \{ y_j / j dans J \}$ valeurs de Y ++def++ : On appelle ++loi conjointe++ du couple (X, Y) l'ensemble des couples ((X~i~, Y~j~), P~ij~) où X~i~ dans $X(\Omega), y_j dans Y(\Omega)$ P~ij~ = P((x = x~i~) union Y = y) Rq : Si I = [[1, r]] et J = [[1, s]] | x\\y | y~1~ | y~j~ | y~s~ | |-|-|-|-| |x1||| |xi||P~ij~| |xr||| P~ij~ = P((X = xi) union) P~ij~ >= 0 Somme(i, j) P~ij~ = 1 ### Lois marginales ++def++ Les variables X et Y sont appelees var marginales P(x = xi) = SOMME(j dans J) P~ij~ = SOMME(j dans J) P((X = xi) union (Y = yi)) P(X = xi) = P~i.~ ("P de i point") P(Y = yi) = SOMME(i dans I) P~ij~ = P~.j~ ("P de point j") ++Exemple++ | x\\y | 1 | 2 | 3 | 4 | P~i~ |-|-|-|-|-|-| |1|1/16|1/16|1/16|1/16|1/4 |2|0|2/16|1/16|1/16|1/4 |3|0|0|3/16|1/16|1/4 |4|0|0|0|4/16|1/4 |Loi de Y|1/16|3/16|5/16|7/16|1 |P~.j~ P(X = 4) = 1/4 P(Y = 3) = 5/16 ### Lois conditionelles ++Def++ on appelle loi conditionnelle de X = xi sachant que Y = yj P(X=xi / Y=yj) = $\frac{P((X=xi) \cup (Y=yj))}{P(Y=yj)} = \frac{Pij}{P_{.j}}$ P(Y=yj / X=xi) = $\frac{Pij}{P_{i.}}$ P((X=1) / (Y=3)) = $\frac{P((X=1) \cap (Y=3))}{P(Y=3)} = \frac{1/16}{5/16} = 1/5$ | x~i~ | 1 | 2 | 3 | 4 |-|-|-|-|-|-| |P(X/y=3)|1/5|1/5|3/5|0 ++Indépendance++ X et Y sont indépendant, ssi P((X=x) inter (Y=y)) = P(X=x) . P(Y=y) <=> P~ij~ = Pi * Pj quelque soient i et j appartenant a I * J <=> P(X=x/Y=y) = P(X=x) ### Loi d'une fonction de 2 variables Soit g: |R^2^ --> |R definie sur l'ensemlbe des valeures prises par X et Y. Z = g(X, Y) (Z = Zk) = $\cup_{(i,j), g(xi,yi) = zk} ((X=xi) \cap (Y=yi))$ P(Z=Zk) = $\sum_{(i,j), g(xi,yi) = zk} ((X=xi) \cap (Y=yi))$ En particulier g(X,Y) = X + Y = S $P(S=s) = \sum_{(i,j) / x_i+y_j=s_k} P((X=xi) \cap (Y=yi))$ ++Exemple precedent++ S=X+Y et |P = X.Y (|P est un ensemble) *Loi de S*: | s~k~ | 2 | 3 | 4 | 5 | 6 | 7 | 8 |-|-|-|-|-|-|-|-| |P(S/s~k~)|1/16|1/16|3/16|2/16|4/16|1/16|4/16 P(S=5) = P~1,4~ + P~2,3~ + P~3,2~ + P~4,1~ = 2/16 = 1/8 *Loi du produit |P = X,Y* |R~i~ | 1 | 2 | 3 | 4 | 6 | 8 | 9 | 12 | 16 |-|-|-|-|-|-|-|-|-|-|-| |P(\|P = \|R~i~)|1/16|1/16|1/16|3/16|1/16|1/16|3/16|1/16|4/16 (Note: les valeur de R~i~ correspondent aux multiples possibles du tableau de l'exemple (pas possible d'obtenir 5 par exemple, ou bien 7 en multipliant les valeurs du tableau)) *Esperence de Z = g(X,Y)* ++def++ $$E(Z) = \sum_{i,j} g(xi,yi)P_{ij}$$ ++Rq++: si X et Y sont 2 variables independantes alors E(X.Y) = E(X)E(Y) ++ex++ |x\\y | 0 | 1 | 2 | P~i~ (loi de X) |-|-|-|-|-|-|-|-| |0|1/20|1/4|0| 3/10 |1|17/60|1/4|1/6| 7/10 |P~j~|1/3|1/2|1/6|1 $E(X.Y) = \sum_{i=0}^1 \sum_{j=0}^2 i.j.P_{ij} = 1/4 + 2/6 = 1/4 + 1/3 = 7/12$ $E(X) = 7/10,\ E(Y)=1/2 + 1/3 = 5/6$ E(X.y) = 7/12 = E(X)E(Y) mais P((X=0)inter(Y=2)) = 0 different de P(X=0)P(Y=2) = (3/10) * (1/6) = 1/20 => X et Y ne sont pas indépendants ### Covariance Cov(X, Y) et corrélation ++Def++ On appelle covariance du couple (X,Y) Cov(X,Y) = E(X,Y) - E(X)E(Y) et le coefficient de corrélation : $\rho (x,y) = \frac{Cov(X,Y)}{\tau x * \tau y}$ avec $\tau x = \sqrt V(X)$ et $\tau y = \sqrt V(Y)$ ++Rq++ E: espace des v.a $\rho (X,Y) = \frac{<X\_E(X), Y\_E(Y))>}{||X\_E(X)|| ||Y\_E(Y)||}$ Cov(x,y) = <X_E(X), Y_E(Y)> produit scalaire ||X_E(X)|| = $\rho$ (X) ||Y_E(Y)|| = $\rho$ (Y) /X_E(X) / Teta \\ \\Y_E(Y) |$\rho$| <= 1 si $\rho = 1 (\theta = o[2\pi])$ => forte correlation lie si $\rho = 0 (\theta = \pi / 2[\pi])$ => pas de correlation lie ### Exercices #### Exercice 1 X v.a. de la loi: |x~i~|-1|-1|0|1|2 |-|-|-|-|-|- |P~i~|1/6|1/4|1/6|1/4|1/6 Doit Y=X^2^ ++1) Donner la loi du couple (X,Y)++ P((X=i) inter (Y=j)) = 0 si j different de i^2^ P((X=i) union (Y=i^2^)) = P(X=i) |x\\y|0|1|4|Loi de X |-|-|-|-|-| |-2|0|0|1/6|1/6 |-1|0|1/4|0|1/4 |0|1/6|0|0|1/6 |1|0|1/4|0|1/4 |2|0|0|1/6|1/6 |Loi de Y| 1/6| 1/2|1/3|1 ++2) En deduire la loi marginale de Y++ Loi de y -> derniere ligne du tableau. ++3) Independance et calculer Cov(X,Y)++ P((X=o) inter (Y=1)) = 0 != P(X=0)P(Y=1) = 1/6 * 1/2 = 1/12 => X et Y ne sont pas independants Cov(X,Y) = E(X,Y) - E(X)E(Y) E(X,Y) = $\sum_{i,j} x_iy_jP_{ij} = -1/4 + 1/4 -8/6 + 8/6 = 0$ E(Y) = -2/6 + 2/6 = 0 La correlation est nulle. #### Exercice 2 a appartenant a R+* X,Y 2 v.a. a valeurs dans P((X=k) inter (Y=j)) = a/(2^k+1^(j!)) PS: La double sommation est egale a 1 ++1) Determiner a++ Somme(k~ij~) P((X=k) inter Y=j) = 1 Somme(k=0 a +infini) Somme(j=0 a +infini) a / (2^k+1^j!) = 1 $$a\sum_{k=0}^{ifini} \sum_{j=0}^{infini}\frac{1}{2^{k+1}j!} = 1 <=> a\sum_{k=0} (1/(2^{k+1}))$$ ![](https://i.imgur.com/r5ECzVk.png) ++2) Les lois marginales de X et Y++ ![](https://i.imgur.com/UWrBklR.png) ![](https://i.imgur.com/jcTR5wc.png) ++3) Independance ? 4) Calculer Cov(x,y)++ ![](https://i.imgur.com/uAHXRIB.png) ![](https://i.imgur.com/N4k1cq2.png) ![](https://i.imgur.com/FmwW0L0.png) ![](https://i.imgur.com/I2FMYQE.png) ![](https://i.imgur.com/30QPwkS.png) ![](https://i.imgur.com/L5rrjLQ.png) ![](https://i.imgur.com/1D49X30.png) ![](https://i.imgur.com/HzVU8cg.png) ![](https://i.imgur.com/h5ghgPL.png) ![](https://i.imgur.com/Ln7odKl.png) #### Exercice 5 Une urne contient des boules noires en proportion $p\ (0<p<1)$ et des boules blanches en proportion $q=1-p$. On effectue une suite de tirages d'une boule avec remise. - 1) On note N le rang aléatoire d'apparition de la 1^ière^ boule noire et B celui de la 1^ière^ boule blanche - a) Determiner les lois de N et B E(N), V(N), E(B), V(B) - b) N et B sont-elles indépendantes ? - 2) On note X la longueur de la 1^ière^ suite de boules de la même couleur et Y celle de la deuxième suite de boules de la même couleur - a) Determiner la loi conjointe de (X, Y) - b) Loi de X ? E(X) et MQ e(x) >= 2 - c) Loi de Y ? E(Y) et V(Y) - d) Calculer P(X=Y) - e) Loi de X+Y ($p=\frac{1}{2}$) ![](https://i.imgur.com/aS3aDbn.png) ![](https://i.imgur.com/kPYUeMw.png) ![](https://i.imgur.com/BRlcPlU.png) ![](https://i.imgur.com/aKQXBmv.png) ![](https://i.imgur.com/Zo1pN9c.png) ![](https://i.imgur.com/L8BjC9p.png) ![](https://i.imgur.com/Zc4Nk9y.png) ![](https://i.imgur.com/FwKdaOY.png) ![](https://i.imgur.com/fKYedca.png) ![](https://i.imgur.com/WRPNbTP.png) ![](https://i.imgur.com/nkqF7uh.jpg) ![](https://i.imgur.com/LuNqxjN.jpg) ![](https://i.imgur.com/kllEbNO.jpg) ![](https://i.imgur.com/nkAsQ82.jpg) ## Descripion multidimensionnelle ### Tableau de données ↓ ### Matrice des poids ↓ ### Matrices des données centrées ↓ ### Matrice de Var_Cov et Matrice des corrélations ↓ ![](https://i.imgur.com/UBXhHoV.jpg) ![](https://i.imgur.com/YuKQLJt.jpg) **Suite des cours sur TEAMS** ![](https://i.imgur.com/jyOpoC7.png) ![](https://i.imgur.com/CgDysF4.png) ![](https://i.imgur.com/PxRJG90.png) ![](https://i.imgur.com/f94AaHB.png) ![](https://i.imgur.com/xbWeBIC.png) ![](https://i.imgur.com/CJmYWSC.png) ![](https://i.imgur.com/CC9gQYq.png) ![](https://i.imgur.com/lCe44Fx.png) ![](https://i.imgur.com/yMQ7453.png) ![](https://i.imgur.com/YMaFprM.png) ![](https://i.imgur.com/1668BxF.png) ![](https://i.imgur.com/rOuegJa.png) ![](https://i.imgur.com/CYgwkNt.png) ![](https://i.imgur.com/g4uBGuJ.png) ![](https://i.imgur.com/DsnSi1D.png) ### Algo A.C.P (Analyse en composantes principales) ### Projection