###### tags: `S8` `Commun` `ScD : Analyse des données - introduction à l'IA et à la RDF`
<style>
.table-center th, .table-center td {
text-align: center;
}
.row-around {
display: flex;
justify-content: space-around;
width: 100%;
}
strong {
text-align: center;
font-variant: small-caps;
font-size: 1.1em;
text-align: center;
}
.mathjax {
font-variant: normal;
}
.center {
display: block;
width: 100%;
text-align: center;
}
.red, h2 {
color: #a2727;
}
.pink {
color: #da3f7b;
}
.orange {
color: #ff9900;
}
.green, a {
color: #468f26;
}
.light-blue, h3 {
color: #25c5dc;
}
a:hover {
color: #66af46;
}
img, .markdown-body img {
max-width: 500px;
margin-left: calc(50% - 250px);
}
</style>
# Analyse des données
## Maquette
<div class="row-around">
<table class="table-center">
<thead>
<tr>
<th colspan="3">Horaires (h)</th>
</tr>
<tr>
<th>CM</th>
<th>TD</th>
<th>TP</th>
</tr>
</thead>
<tbody>
<tr>
<td>22</td>
<td>10</td>
<td>10</td>
</tr>
</tbody>
</table>
<table class="table-center">
<thead>
<tr>
<th colspan="3">Poids (%)</th>
</tr>
<tr>
<th>UE</th>
<th>CC</th>
<th>ET</th>
</tr>
</thead>
<tbody>
<tr>
<td>65</td>
<td>50</td>
<td>50</td>
</tr>
</tbody>
</table>
</div>
**Note CC :** 4 notes de CM => 20 -> 15 (3/4)
+ TP (compte rendu) => 5 (1/4)
+ bonus participation
**Note ET :** ?? (Il y a une anale sur Célène)
## Plan du cours
- Introduction : qu'est-ce-que l'Analyse de Données **(AD)** ?
- Outils nécessaires pour faire de l'AD
- Méthodes **descriptives**
- Analyse en Composante Principale **(ACP)**
- Analyse Factorielle en Correspondance Binaire **(AFCB)**
- Méthodes **décisionnelles**
- Analyse Factorielle Discriminante **(AFD)**
- Clustering de données
- Classification Ascendante Hiérarchique **(CAH)**
- Kmeans
## Introduction
### Outils nécessaires
- Stats
- Compétences minimums
- Moyennes ;
- Espérences ;
- Variances ;
- Écarts types ;
- Corrélation -> lié à la covariance.
- Calcul matriciel (tableau = matrice)
- Géométrie & espace vectoriel
### Définitions
**Analyse de données** sert à travailler sur de gros volumes de données (tableaux).
Faire de l'analyse descriptive en AD c'est construire des représentations graphiques de tableaux représentés sous la forme de nuages de points.
En statistiques, on fait des histogrammes, etc. (les statistiques s'appliquent sur des volumes de données assez faibles).
**Méthode descriptive :** Utilisées pour résumer des données (extraire des infos, stats)
**Analyse en Composante Principale (ACP)** permet de visualiser en 2 ou 3D de tableaux en nD avec n > 3.
**Méthode décisionnelle :** Utilisées pour prédire depuis des données
- Prédiction
- Prédire une classe (= reconnaissance de formes)
- Technique d'apprentissage automatique
**Espace vectoriel :** Une matrice est un espace vectoriel ; chacune de ses lignes est un vecteur
Ils appartiennent à R<sup>nb valeurs dans vecteur</sup>
Chaque vecteur peut être placé sur un graphique
ACP utilisé dans AFCB et AFD -> À COMPRENDRE

(Coef de corélation =~ 0 => on ne peut prédire Y en fn de X)
ICI : X et Y chacun une colonne du tableau, une croix une ligne du tableau
Cette représentation permet de savoir si X et Y sont liés/corrélés : si X grandit en même temps que Y, ou que l'on peut établir un lien quelqconque entre les deux, ils sont liés.
Le coefficient de corrélation varie entre -1 et 1, il est retrouvé via le placement des points
(Pas d'image pour 1)
1 => les points son sur la diagonale du 0 => Grandissent de manière corrélé, quand X est grand Y l'est également

-1 => Varie de manière **anti-corrélée**, inverse (quand X est grand, Y est petit)

Une autre utilité à la rep graphique des données :
Pouvoir dire qui se ressemble le plus avec la distance entre les points (géométrie, calcul de distances entre points (vecteurs))
Si d(v<sub>1</sub>, v<sub>2</sub>) = 0, v<sub>1</sub> et v<sub>2</sub> sont confondus, identiques (au moins sur ces données) ; ils se ressemblent beaucoup
On voit ainsi apparaître des groupes, on peut faire des classes d'individus, peremt de faire de l'analyse décisionnelle.
Les axes sont des descripteurs permettant de différencier les groupes (ici, ceux qui ont le covid de ceux qui ne l'on pas) car l'on voit bien apparaître des groupes distincts (il y a corrélation ; avec d'autres axes il ne pourrait y avoir aucun lien).
Pour résumer,, qu'est-ce que l'AD ?
Un mélange de stats, géométrie, calcul matriciel et espace vectoriel
Analyse de gros gros tableaux soit :
- Descriptive -> représentation graphique 2 ou 3D, analysée vectoriellement
- Décisionnelle -> calcul de distance entre les points/vecteurs : distance <=> ressemblance
<strong class="center">
L'AD c'est la transformation d'un tableau en nuage de points
</strong>

Si dans les varibles descriptives, deux ont une corrélation proche de 1, elles sont quasi identique : on peut enlever une colonne de la matrice (non intéressant dans la représentation)
**Barre sous X = matrice ou vecteur**
Statistiques | AD
-- | --
Echantillon de population mère (= population représentative) | Tableau grand quelconque
**CONTROLE QUESTIONS**
Pas demain (26/01), le cours d'après
1) Calcul : espérances mathématique, variances, écarts type (acquis)
2) Dessiner des nuages de points (acquis (peut-être revu demain si demandé
3) Type des variables dans un tableau
<strong class="center">CM2 - 26/01</strong>

On dit que le nuage 1 "N1" est dans un espace a "p" dimension et que le nuage 2 "N2" est dans un espace a "n" dimensions.
-> si on a 2 colonnes n1 est dans R3,
-> si on a 100 lignes n2 est dans R100
- individus : "lignes"
- variables : "colonnes" , représentent les individus
*Variables: attributs, caractéristiques, descripteurs,features, etc...*
### Types de tableaux
- Individus/Variables (quantitatif ou qualitatif)

- Distances (haut) ou similariés (bas) (individu/individu -> Les individus sont décrits par eux-mêmes)


- Contingence (effectifs) (individus/variables ou variables/variables)

- Tableau binaires

- n individus $\in{\mathbb{R}^p}$
- p variables $\in{\mathbb{R}^n}$
### Types de variables
- <span class="pink">**Binaire**(0 ou 1) :</span>
- Vrai/Faux ;
- Homme/Femme...
- <span class="pink">**Quantitative** ($\in R$) :</span> variable numérique, sur laquelle il est possible de calculer une moyenne ;
- Effectif ;
- Âge ;
- Taille...
- <span class="pink">**Qualitative** (variables textuelles) :</span> <ins>modalité</ins> textuelle
- Ville ;
- Nom ;
- Ordinales ou non ordinales : lorsqu'elles peuvent être ordonnées dans un sens logique, ordinale
<ins>-> Si associée à un nombre : toujours qualitatif !!!</ins>
*Qualitatif -> Quantitatif* = impossible (moyenne non significative)
*Qualitatif -> Binaire* = possibilité si on peut l'associer à 2 "états"
>ex : "présent/ou pas "
-> transformation des modalité de la variables qualitatives en colonnes, on rempli de 0 et de 1

Qualitatif :

Binaire



Résumé made in Ramel :

## Outils nécessessaires pour faire de l'AD
### Rappels outils de statistiques :
[Explication variance, covariance et coefficient de corrélation (eng)](https://www.alchemer.com/resources/blog/variance-covariance-correlation/)
Moyenne / E(x) (espérance mathématique)


<strong class="pink">Espérance :</strong> moyenne pondérée (prennant en compte le poids)
<span class="orange">
$$
E(X) = \sum_{i=1}^n x_i\times{P(X=x_i)}
$$
</span>

<strong class="pink">Variance $V(X) | \sigma(X)^2$ :</strong> Distance moyenne à la moyenne (au carré)
<span class="orange">
$$
V(X) = E((X-E(X))^2)
$$
</span>

<strong class="pink">Écart type $\sigma(X)$ :</strong> Distance moyenne à la moyenne
<span class="orange">
$$
\sigma(X) = \sqrt{V(X))}
$$
</span>
<span class="pink">**Covariance $COV(X, Y)$ :**</span> Permet d'établir un lien de corrélation entre X et Y (ne permet pas de calculer la variation)
<span class="orange">
$$
COV(X, Y) = E((X - E(X)) \times (Y - E(Y)))
$$
</span>

<span class="pink">**Coefficient de corrélation entre X et Y :**</span> Coefficient permettant de calculer comment va varier Y quand X varie (X * coef = Y) (-1 = inversement proportionnel ; 1 = proportionnel ; 0 = aucun lien)
<span class="orange">
$$
corr(X,Y) = \dfrac{COV(X,Y)}{\sigma(X)\times{\sigma(Y)}}
$$
</span>
### Rappel sur le calcul matriciel :

<b>n</b> lignes ($L_i$) contenant p valeurs, <b>p</b> colonnes ($C_i$) contennant n valeurs
$$
{A_{n\times{p}}} = { \begin{pmatrix}
.. & .. & ..\\
.. & aij & ..\\
.. & .. & ..
\end{pmatrix} }
$$
$$
L_i\in{\mathbb{R}^p},\quad C_i\in{\mathbb{R}^n}
$$
<span class="orange">
$$
trace(X) = \sum_{i=1}^n x_{ii}
$$
</span>
calcul matriciel :
$$
A_{(n.q)} . B_{(n.q)} =
$$

<strong class="pink">Transposée de A $^t(A)$ :</strong> On inverse les lignes et colonnes
<span class="orange">
$^t(A + B)\quad=\quad^t(A) + ^t(B)$
$^t(A \times B)\quad=\quad^t(B) \times ^t(A)$
$^t(\lambda\times A)\quad=\quad\lambda\times^t(A)$
</span>
<span class="pink">**Déterminant de A $det(A)$ :** </span>À savoir
[Explication déterminant](http://www.bibmath.net/dico/index.php?action=affiche&quoi=./d/determinant.html)





Cas particulier :

--------------
<strong class="red">Vecteurs propres ($\vec{vp} | X_\alpha$) et valeurs propres ($vp | \lambda_\alpha$) d'une matrice A</strong>
Formule pour trouver les valeurs propres ($\lambda_\alpha$) : ($\alpha$ étant une variable à remplacer par les différentes valeurs propres possibles)
$$
det(A - {\lambda\times{Id}}) = 0
$$

<strong class="pink">Vecteur propre :</strong> L'ensemble des vecteurs propres forment une base de l'espace vectoriel
$$
AX = \lambda . X
$$
<strong class="pink">$X_\alpha$= vecteur propre de A</strong>


-----------------------
**Forme quadratique d'une matrice $A_{n, n}$ (carrée)**
On définit X un vecteur appartennant à $\mathbb{R}^n$
$$
FQ = ^t{X}\times{A}\times{X}
$$
<img src="https://i.imgur.com/RlhjTL9.png" alt="FQ formula" width="25%" style="margin-left: calc(50% - 25% / 2);" />

A est defini positive si FQ $\geq$ 0 $\forall$ X $\in{\mathbb{R}^n}$
-----------
### Espace Vectoriel et géometrie

produit scalaire :
Soit V1 $\in{\mathbb{R}^n}$ , W2 $\in $\in{\mathbb{R}^n}$
$$
{\vec{V_1} = {\begin{pmatrix}
v_1
\\v_2
\\..
\\v_n
\end{pmatrix}}}
\quad\quad
{\vec{W_2} = {\begin{pmatrix}
w_1
\\w_2
\\..
\\ w_n
\end{pmatrix} }}
$$
$$
< V1 . W2 > = ^t{(V_1)} . W_2 \\
=v_1.W_1 +v_2.W_2 + v_1.W_1 +...+ v_n.W_n
$$
#### Projection sur un axe :

$||v_1||$ = norme de $v_1$ = "distance/longueur" du vecteur $v_1$
$$
<v1,v2> = ||v_1||\times ||v_2|| \times cos(\theta)
$$
- *$v_2$ vecteur directeur de norme 1 sur Ox*
-> $<v_1,v_2> = d_1 \times cos(\theta)$
-> projection sur l'axe Ox
si v2 vecteur directeur de l'axe Ox, on fait alors nue projection de v1 sur Ox.
<v1,v2> -> l'absisse de v1 sur l'axe Ox;
#### Dérivation Vectorielle :
- combinaison lineraire de 2 vecteurs
a ( a1 , a2 a3 an )
$$
{\vec{a_1} = {\begin{pmatrix}
a_1
\\a_2
\\..
\\a_n
\end{pmatrix} }} \in\mathbb{R}^p
\quad\quad
{\vec{x_2} = {\begin{pmatrix}
a_1
\\ a_2
\\..
\\ a_n
\end{pmatrix} }} \in{\mathbb{R}^p}
$$
combin lineraire = ta.x = a1x1+a2+x2....
FQ d'une matrice A = tx.A.x
A $\in{\mathbb{R}^{p.p}}$
X $\in{\mathbb{R}^p}$
calculer les derivées vectorielles de ces 2 formulations
d(ta.x) / dx = a
d(tx.A.x)/dx = Ax+ tAx
Si A est symetrique = 2Ax
## Cours du 1/02/2021
## Métrique
1 tableau avec 2 individu et 2 variales

-> Nindividus: 2pts dans $\in{\mathbb{R}^2}$
->Nvariables : 2pts $\in{\mathbb{R}^2}$

$d^2(A,B)$ = $(x_b - x_a)^2 + (y_b - y_a)^2$
*en ${\mathbb{R}^p}$ il y aura "p" termes dans la somme*
**Centrer une variable** = déplacer le graphe pour qu'il soit centré sur 0 = changer l'origine du repère à G (voir après) = (on enlève l'espérance / soustrait *E(X)* à *X*)
**Réduire une variable** = condenser le graphe pour qu'il tienne entre les bornes -1 et 1 = déformer le nuage / mettre le nuage dans une sphère de rayon 1 pour que toutes les variables ai la même influence (diviser par l'ecart type)
$\sigma$(taille) = 5
$\sigma$(poids) = 0,08
**Normer une variable** = faire en sorte qu'une variables suive la loi normale centrée-réduite. (centrer puis réduire)
G -> centre de gravité du nuage

*centrer = changer l'origine du repère*.

*reduire = deformer le nuage pour que toute les variables est la même influence, dans une sphere de rayon 1 *

$d^2$(A',B') =$( \frac{80 - 70}{poids} ) ^2$ + $(\frac{ 1.86 - 1.70}{taille})^2$
= $( \frac{1}{poids^2} ) \times (80 - 70)^2$ + $(\frac{ 1}{taille^2})\times(1.86 - 1.70)^2$
Chaque variable est pondérée par un coefficient $\alpha_1$, ..., $\alpha_p$ (l'inverse de l'écart type de la variable)
Chaque individu est pondéré par un coefficient (souvent $\frac{1}{n}$ (n = nb d'individus))
En Ad, il arrive qu'on ^pondere a la fois les individus (1/n) et les variables ' avec une metrique M'
$$
{m ( p.p) = {\begin{pmatrix}
\alpha_1 ,0,..,0
\\0,\alpha_2,..,0
\\.....
\\0,0,..,\alpha_p
\end{pmatrix}}}
$$
$$
d^2_M (A, B) = ^t(B - A) \times M \times (B - A)
$$
$$
d^{2}_M (A, B) = \alpha_1(x_a - x_b) + \alpha_2(y_a - y_b) + ...+ \alpha_p(z_a - z_b)
$$
il faut que $FQ(^tx.M.x)>=0\quad\forall x$
Calculer distance euclidienne classique : M = Id (les coefficients = 1)
$$
{ M = {\begin{pmatrix}
1,0,..,0
\\0,1,..,0
\\.....
\\0,0,..,1
\end{pmatrix}}}
$$
dans l'exemple on a pris les coeficents = $1/\sigma^2$
## Inertie d'un nuage :
n pts $\in\mathbb{R}^p$

$$
{{{\underline{D}}_n \times n} = {\begin{pmatrix}
m_1,0,..,0
\\0,m_2,..,0
\\.....
\\0,0,..,m_n
\end{pmatrix}}}
$$
$$Inertie_A(N_I= \sum_{i=1}^{n} m_i||\underline{L_i} - \underline{A}||^2$$
Souvent on prends $\underline{A}$ = Origine du repère ou $\underline{A} = \underline{G}$ centre de gravité de $N_I$

Si mon tableau de depart est une matrice $X_{n.p}$ = $trace(\underline{V})$
alors :
$\underline{V} = ^t\underline{X} \times \underline{D} \times \underline{X}$
on appelle V la matrice d'inertie de $N_I$
L'inertie de N<sub>I</sub> donne une info sur la dispersion des pts dans N<sub>I</sub>
si I<sub>ng</sub>(N<sub>I</sub>) grande alors Ni dispersés
si I<sub>ng</sub>(N<sub>I</sub>) faible alors Ni compact

## TD1
### Calcul de déterminant
$$
M = \begin{pmatrix}
1 & 2 & 3\\
4 & 2 & 0\\
1 & 2 & 2
\end{pmatrix}
$$
$$
det(M) = \begin{bmatrix}
1 & 2 & 3\\
4 & 2 & 0\\
1 & 2 & 2
\end{bmatrix} = 6
$$
### Nuage de points, centrage, réduction et inertie
a) Le tableau est un tableau individu/variable avec 6 individus et 3 variables.
$$
individu \in {R^3}
$$
$$
variables \in {R^6}
$$
| X | V1 | V2 | V3 |
|---|----|----|----|
|$${x_1}$$|1|0|-1|
|$${x_2}$$|0|1|-1|
|$${x_3}$$|-1|1|0|
|$${x_4}$$|0|-1|1|
|$${x_5}$$|-1|0|1|
|$${x_6}$$|1|-1|0|
Les valeurs sont quantitatives.
b) Pour calculer les valeurs d'espérance, de variance, d'écart-type et de covariance, on utilise les formules suivantes :
$$
covariance(X,Y) = E((X-E(X))(Y-E(Y)))
$$
| X | V1 | V2 | V3 |
|---|----|----|----|
|$${x_1}$$|1|0|-1|
|$${x_2}$$|0|1|-1|
|$${x_3}$$|-1|1|0|
|$${x_4}$$|0|-1|1|
|$${x_5}$$|-1|0|1|
|$${x_6}$$|1|-1|0|
|E|0|0|0|
|V|$$2\over3$$|$$2\over3$$|$$2\over3$$|
σ|$$\sqrt{2\over3}$$|$$\sqrt{2\over3}$$|$$\sqrt{2\over3}$$|
On obtient la matrice de covariance :
$$
cov = \begin{pmatrix}
2\over3 & -1\over3 & -1\over3\\
-1\over3 & 2\over3 & -1\over3\\
-1\over3 & -1\over3 & 2\over3
\end{pmatrix}
$$
c) On utilise la formule des corrélations :
$$
coefficient de correlation (X,Y) = {covariance(X,Y)}\over{σ(X).σ(Y)}
$$
d) Le nuage est centré sur l'origine car toutes les valeurs de l'espérance sont nulles.
e)
<br/><br/><br/>
*08/02/21*
## chapitre 3 : ACP , Analyse en Composantes Principales.
### I) Problématiques et notations.
#### a/ Objectifs de l'ACP.
- Vieille methode : 1933 Hotteling
- Methode d'analyse <ins>**descriptive**</ins> dédiée a des gros tableaux <ins>**individu/variables qantitatives**</ins>.
lignes = individus
2 visions par l'ACP :
- vision analytique :
- etude des resemblances entre les individus. 2 individus se ressemblent s'ils ont des valeurs similaires pour les variables. En ACP on utilise la distance euclidienne classique pour mesurer cette ressemblance entre individus.
- etude de liaisons ( correlations) entre les variables.
ACP : faire un bilan des <ins>**ressemblances et corelations**</ins>.
**->** <ins>**regrouper les individus et les variables**</ins> qui se ressemblent ou sont corrélées.
**->** générer des variables synthétiques construites par combinaisons linéaires des variables initiales qu'on appelera les <ins>**compantes principales**</ins>.
<strong class="center">Questions du prochain QCM</strong>
- Qu'est-ce qu'une combinaison linéaire ?
- Qu'est-ce qu'une composante principale ?
combinaison linéaire :
Une combinaison linéaire est une expression construite à partir d'un ensemble de termes en multipliant chaque terme par une constante et en ajoutant le résultat
Composante principale = combinaison linéaire des variables corrélées (permet de transformer plusieures variables en une seule les synthétisant toutes)
C.P. = Variables synthetique = $\sum _{j=1}^{p}(\alpha_jV_j)$

- Vision Géometrique de l'ACP
- l'ACP va chercher une <ins>*représentation*</ins> des n individu dans un <ins>*sous espace de* $R^p$</ins> de dimension k.
Pour cela l'ACP va definir des nouvelles variablees syntétiques ( appelées Composantes peincipales) par combinaisons linéaires des variables initiales de façon a perdre le moins d'informartion possible.
- les axes qui determinent ces nouvelles variables sont appelés axes principaux ou axes factoriels.
- Pour cela l'ACP reviens a ajuster ( projeter) le nuage des points individus dans un sous espace de $R^p$ de dimension k defini par des axes orthogonaux de façon a perdrefaçon a perdre le moins d'informartion possible
c.-à-d. en deformant le moins possible le nuage de point.


## *CM4*


nuage obtenu a partir des $CP_i$
-> projection ( orthogonales ) des points sur nos nouveaux plans creer par les $CP_i$
de $R^p$ a $R^2$








Comment trouver le SeV qui deforme le moins le nuage ?
-> critère à optimiser : inertie
$$\tau = \frac{I_{avant}}{I_{apres}} \simeq 1 $$
minimiser la deformation ->
$$min(\sum_{i=1}^{n} (\underline{L_i} \times l_i^\alpha)^2 )$$


ce qui reviens à calculer :
$$max ( \sum_{i=1}^{n} (Gl_i^\alpha)^2 \times m_i )$$
***Faire une ACP c'est chercher des $\underline{u_\alpha}$ qui maximise l'inertie du nuage apres projection dans le sous espace defini par les $u_\alpha$***
-> axes factoriels
on cherche les $u_\alpha$ tel que : $$max ( \sum_{i=1}^{n} (Gl_i^\alpha)^2) $$
on montre que :
$$max ( \sum_{i=1}^{n} (Gl_i^\alpha)^2) => ^tu.X\times X_u$$
avec : $X.u_\alpha= \begin{pmatrix}
^tL_1 \times u_\alpha\\
^tL_2 \times u_\alpha\\
^tL_3 \times u_\alpha\\
.... \\
^tL_n \times u_\alpha\\
\end{pmatrix}$
chercher $u_\alpha$ -> Max($^tu_\alpha.^tX.X.u_\alpha$) et on veux que norme de ||$u_\alpha$||=1




faire une ACP :
- chercher les valeurs propres et vecteurs propres de $^tX.X$
- $vp =\lambda_\alpha$ et $\overrightarrow{vp}=\underline{u_\alpha}$



me meilleur sous esapce de dimension k est celui defini par les $\underline{u_\alpha}$ correspondant aux k plus grandes valeurs propres $\lambda_\alpha$
propriétés :
- l'inertie du nuage projeté sur $u_\alpha$ = $\lambda_\alpha$
- l'inertiz du nuage projeter sur le sous espace de dim k = $\sum_{\alpha=1}^{k} (\lambda_\alpha)$

le premier plan factoriel
-> le sous espace 2D defini par u1 et u2

$I_n$ = $\sum_{\alpha=1}^{p}(\lambda_\alpha)$
_________________________


on trouve pas les meme vecteurs propres
on trouve des $\overrightarrow{vp}$ :

$\underline{X}$ -> fait une ACP
- 2 nuages :
- $N_L \in R^p$
- $N_C \in R^n




## Version Lise
### Cours du Lundi 25 janvier :




## 22/02/2021
Indice global de qualité
$$
{\tau_q} = {{\sum_{\alpha = 1}^{q}{\lambda_\alpha}}\over{\sum_{\alpha = 1}^{p}{\lambda_\alpha}}}
$$
Indice ponctuel de qualité
$$
{cos^2 \theta^\alpha_i} = {{||G.l^\alpha_i||^2}\over{||G.L_i||^2}}
$$
















