---
titre: Analyse de données
description : Cours d'analyse de donnée
author : romain.baguet
tags: ANDO, romain.baguet
---
# Analyse de données
[toc]
## Description bidimensionelle et mesure de corrélation
### Loi Conjointe de (X, Y)
Soient X et Y 2 variables aléatoires discrètes définies sur sur le même espace probabilisé : ($\Omega\ , \tau\ , P$)
$X(\Omega) = \{ x_i / i dans I \}$ valeurs de X
$Y(\Omega) = \{ y_j / j dans J \}$ valeurs de Y
++def++ : On appelle ++loi conjointe++ du couple (X, Y) l'ensemble des couples ((X~i~, Y~j~), P~ij~) où X~i~ dans $X(\Omega), y_j dans Y(\Omega)$
P~ij~ = P((x = x~i~) union Y = y)
Rq : Si I = [[1, r]] et J = [[1, s]]
| x\\y | y~1~ | y~j~ | y~s~ |
|-|-|-|-|
|x1|||
|xi||P~ij~|
|xr|||
P~ij~ = P((X = xi) union)
P~ij~ >= 0
Somme(i, j) P~ij~ = 1
### Lois marginales
++def++ Les variables X et Y sont appelees var marginales
P(x = xi) = SOMME(j dans J) P~ij~ = SOMME(j dans J) P((X = xi) union (Y = yi))
P(X = xi) = P~i.~ ("P de i point")
P(Y = yi) = SOMME(i dans I) P~ij~ = P~.j~ ("P de point j")
++Exemple++
| x\\y | 1 | 2 | 3 | 4 | P~i~
|-|-|-|-|-|-|
|1|1/16|1/16|1/16|1/16|1/4
|2|0|2/16|1/16|1/16|1/4
|3|0|0|3/16|1/16|1/4
|4|0|0|0|4/16|1/4
|Loi de Y|1/16|3/16|5/16|7/16|1
|P~.j~
P(X = 4) = 1/4
P(Y = 3) = 5/16
### Lois conditionelles
++Def++ on appelle loi conditionnelle de X = xi sachant que Y = yj
P(X=xi / Y=yj) = $\frac{P((X=xi) \cup (Y=yj))}{P(Y=yj)} = \frac{Pij}{P_{.j}}$
P(Y=yj / X=xi) = $\frac{Pij}{P_{i.}}$
P((X=1) / (Y=3)) = $\frac{P((X=1) \cap (Y=3))}{P(Y=3)} = \frac{1/16}{5/16} = 1/5$
| x~i~ | 1 | 2 | 3 | 4
|-|-|-|-|-|-|
|P(X/y=3)|1/5|1/5|3/5|0
++Indépendance++
X et Y sont indépendant, ssi
P((X=x) inter (Y=y)) = P(X=x) . P(Y=y)
<=> P~ij~ = Pi * Pj quelque soient i et j appartenant a I * J
<=> P(X=x/Y=y) = P(X=x)
### Loi d'une fonction de 2 variables
Soit g: |R^2^ --> |R definie sur l'ensemlbe des valeures prises par X et Y.
Z = g(X, Y)
(Z = Zk) = $\cup_{(i,j), g(xi,yi) = zk} ((X=xi) \cap (Y=yi))$
P(Z=Zk) = $\sum_{(i,j), g(xi,yi) = zk} ((X=xi) \cap (Y=yi))$
En particulier g(X,Y) = X + Y = S
$P(S=s) = \sum_{(i,j) / x_i+y_j=s_k} P((X=xi) \cap (Y=yi))$
++Exemple precedent++
S=X+Y et |P = X.Y (|P est un ensemble)
*Loi de S*:
| s~k~ | 2 | 3 | 4 | 5 | 6 | 7 | 8
|-|-|-|-|-|-|-|-|
|P(S/s~k~)|1/16|1/16|3/16|2/16|4/16|1/16|4/16
P(S=5) = P~1,4~ + P~2,3~ + P~3,2~ + P~4,1~ = 2/16 = 1/8
*Loi du produit |P = X,Y*
|R~i~ | 1 | 2 | 3 | 4 | 6 | 8 | 9 | 12 | 16
|-|-|-|-|-|-|-|-|-|-|-|
|P(\|P = \|R~i~)|1/16|1/16|1/16|3/16|1/16|1/16|3/16|1/16|4/16
(Note: les valeur de R~i~ correspondent aux multiples possibles du tableau de l'exemple (pas possible d'obtenir 5 par exemple, ou bien 7 en multipliant les valeurs du tableau))
*Esperence de Z = g(X,Y)*
++def++ $$E(Z) = \sum_{i,j} g(xi,yi)P_{ij}$$
++Rq++: si X et Y sont 2 variables independantes alors E(X.Y) = E(X)E(Y)
++ex++
|x\\y | 0 | 1 | 2 | P~i~ (loi de X)
|-|-|-|-|-|-|-|-|
|0|1/20|1/4|0| 3/10
|1|17/60|1/4|1/6| 7/10
|P~j~|1/3|1/2|1/6|1
$E(X.Y) = \sum_{i=0}^1 \sum_{j=0}^2 i.j.P_{ij} = 1/4 + 2/6 = 1/4 + 1/3 = 7/12$
$E(X) = 7/10,\ E(Y)=1/2 + 1/3 = 5/6$
E(X.y) = 7/12 = E(X)E(Y)
mais P((X=0)inter(Y=2)) = 0 different de P(X=0)P(Y=2) = (3/10) * (1/6) = 1/20
=> X et Y ne sont pas indépendants
### Covariance Cov(X, Y) et corrélation
++Def++ On appelle covariance du couple (X,Y)
Cov(X,Y) = E(X,Y) - E(X)E(Y)
et le coefficient de corrélation :
$\rho (x,y) = \frac{Cov(X,Y)}{\tau x * \tau y}$ avec $\tau x = \sqrt V(X)$ et $\tau y = \sqrt V(Y)$
++Rq++ E: espace des v.a
$\rho (X,Y) = \frac{<X\_E(X), Y\_E(Y))>}{||X\_E(X)|| ||Y\_E(Y)||}$
Cov(x,y) = <X_E(X), Y_E(Y)> produit scalaire
||X_E(X)|| = $\rho$ (X)
||Y_E(Y)|| = $\rho$ (Y)
/X_E(X)
/
Teta
\\
\\Y_E(Y)
|$\rho$| <= 1
si $\rho = 1 (\theta = o[2\pi])$ => forte correlation lie
si $\rho = 0 (\theta = \pi / 2[\pi])$ => pas de correlation lie
### Exercices
#### Exercice 1
X v.a. de la loi:
|x~i~|-1|-1|0|1|2
|-|-|-|-|-|-
|P~i~|1/6|1/4|1/6|1/4|1/6
Doit Y=X^2^
++1) Donner la loi du couple (X,Y)++
P((X=i) inter (Y=j)) = 0 si j different de i^2^
P((X=i) union (Y=i^2^)) = P(X=i)
|x\\y|0|1|4|Loi de X
|-|-|-|-|-|
|-2|0|0|1/6|1/6
|-1|0|1/4|0|1/4
|0|1/6|0|0|1/6
|1|0|1/4|0|1/4
|2|0|0|1/6|1/6
|Loi de Y| 1/6| 1/2|1/3|1
++2) En deduire la loi marginale de Y++
Loi de y -> derniere ligne du tableau.
++3) Independance et calculer Cov(X,Y)++
P((X=o) inter (Y=1)) = 0 != P(X=0)P(Y=1) = 1/6 * 1/2 = 1/12
=> X et Y ne sont pas independants
Cov(X,Y) = E(X,Y) - E(X)E(Y)
E(X,Y) = $\sum_{i,j} x_iy_jP_{ij} = -1/4 + 1/4 -8/6 + 8/6 = 0$
E(Y) = -2/6 + 2/6 = 0
La correlation est nulle.
#### Exercice 2
a appartenant a R+* X,Y 2 v.a. a valeurs dans P((X=k) inter (Y=j)) = a/(2^k+1^(j!))
PS: La double sommation est egale a 1
++1) Determiner a++
Somme(k~ij~) P((X=k) inter Y=j) = 1
Somme(k=0 a +infini) Somme(j=0 a +infini) a / (2^k+1^j!) = 1
$$a\sum_{k=0}^{ifini} \sum_{j=0}^{infini}\frac{1}{2^{k+1}j!} = 1 <=> a\sum_{k=0} (1/(2^{k+1}))$$

++2) Les lois marginales de X et Y++


++3) Independance ? 4) Calculer Cov(x,y)++










#### Exercice 5
Une urne contient des boules noires en proportion $p\ (0<p<1)$ et des boules blanches en proportion $q=1-p$. On effectue une suite de tirages d'une boule avec remise.
- 1) On note N le rang aléatoire d'apparition de la 1^ière^ boule noire et B celui de la 1^ière^ boule blanche
- a) Determiner les lois de N et B E(N), V(N), E(B), V(B)
- b) N et B sont-elles indépendantes ?
- 2) On note X la longueur de la 1^ière^ suite de boules de la même couleur et Y celle de la deuxième suite de boules de la même couleur
- a) Determiner la loi conjointe de (X, Y)
- b) Loi de X ? E(X) et MQ e(x) >= 2
- c) Loi de Y ? E(Y) et V(Y)
- d) Calculer P(X=Y)
- e) Loi de X+Y ($p=\frac{1}{2}$)














## Descripion multidimensionnelle
### Tableau de données ↓
### Matrice des poids ↓
### Matrices des données centrées ↓
### Matrice de Var_Cov et Matrice des corrélations ↓


**Suite des cours sur TEAMS**















### Algo A.C.P (Analyse en composantes principales)
### Projection