--- title: TD 1 et 2 SEM tags: Ensai - public description: Décembre 2020 --- # TD 1 SEM http://clust-n1.ensai.fr/ ## Exercice 1 (Manipulations d'inerties) On considère une population de six individus caractérisés par trois variables continues : $$ X = \begin{bmatrix} 8 &1 &0\\ 4 &6 &6\\ 6 &8 &7\\ 10& 4 &7\\ 8 &2 &5\\ 0 &3 &6\\ \end{bmatrix} $$ On muni l'ensemble de ces individus de la partition suivante: $$ P = \{\{1; 2\}; \{3; 4\}; \{5; 6\}\} $$ Chaque individu a le poids 1/6 et on se donne la metrique identité (i.e. $M = I_3$). ### Calculer la matrice de covariance ainsi que l'inertie du nuage de points. $$ Var(x)= \sum_ip_i(x_i-\bar{x})^2\\ Cov(x,y)= \sum_ip_i(x_i-\bar{x})(y_i-\bar{y}) $$ $$ Cov(X) = X^TPX = \frac{1}{6}X^TX $$ $$ I=\sum_ip_id^2(i,g)=\sum_ip_i\|x_i-g\|_M^2 $$ ```r n=6 x=matrix(ncol = 3,byrow = T, data=c(8,1,0,4,6,6,6,8,7,10,4,7,8,2,5,0,3,6)) matrice.covariance=(1/n)*t(scale(x,scale=F))%*%(scale(x,scale=F)) cov(x)*((n-1)/n) inertie=sum(diag(matrice.covariance)) ``` ### Donner le centre de gravité dans chacune des 3 classes. $G=\pmatrix{6&4&5.2}$ $G_1=\pmatrix{6&3.5&3}$ $G_2=\pmatrix{8&6&7}$ $G_3=\pmatrix{4&2.5&4.5}$ ### Pour $a \subset \{1,...,6\}$ on définit l'inertie du sous nuage composé des individus dans $a$ par $$ I(a) = \frac{1}{6}\sum_{i\in a} \| x_i - g(a) \|^2 $$ où $g(a)$ est le centre de gravité de la classe $a$. Quelle est la part de l'inertie totale qui est due au sous-ensemble $a$ ? L'exprimer en fonction de $I(a)$. $$ I = \frac{1}{6}\sum_{i} \| x_i - g \|^2 $$ Part d'inertie due à $a$ ? $$ \Delta_a= \frac{1}{6}\sum_{i\in a} \| x_i - g \|^2 = \frac{1}{6}\sum_{i\in a} \| x_i - g(a) + g(a) - g \|^2 \\ = \frac{1}{6}\sum_{i\in a} \| x_i - g(a) \|^2 + \sum_{i\in a}\frac{1}{6}\|g(a) - g \|^2 + \frac{2}{6} \sum_{i\in a} <x_i - g(a);g(a) - g> \\ = I(a) + \frac{card(a)}{6}\|g(a) - g \|^2 $$ ### Soit $s\in R^3$. Appliquer le théorème de Huygens pour calculer $$ \sum_{i\in a} \frac{1}{6}\| x_i - s \|^2\\ = \frac{1}{6}\sum_{i\in a} \| x_i - g(a) \|^2 + \sum_{i\in a}\frac{1}{6}\|g(a) - s \|^2 \\ = \frac{card(a)}{6} (\frac{1}{card(a)}\sum_{i\in a} \| x_i - g(a) \|^2 + \|g(a) - s \|^2 ) $$ ### Montrer que si on pose $m_a = card(a)/6$, $$ 2I(a)=\frac{1}{36m_a} \sum_{i,i'\in a}\|x_i-x_{i'}\|^2 $$ $$ \sum_{i,i'\in a}\|x_i-x_{i'}\|^2 = \sum_{i\in a} \sum_{i'\in a}\|x_i -g(a)+g(a)-x_{i'}\|^2\\ = \sum_{i\in a}\sum_{i'\in a} ( \|x_i -g(a)\|^2 + \|g(a)-x_{i'}\|^2 +<x_i -g(a);g(a)-x_{i'}>) \\ = card(a)\times 6 I(a) + card(a)\times 6 I(a) + \sum_{i\in a} <x_i -g(a);\sum_{i'\in a}(g(a)-x_{i'})> \\ = 2 \times 36 m_a I(a) $$ 6. Soient $a,b \subset \{1,..., 6\}$ tels que $a \cap b = \emptyset$ ;. Montrer que $$ \frac{1}{36}\sum_{i\in a} \sum_{i'\in b} \|x_i-x_{i'}\|^2 = m_aI(b) + m_bI(a) + m_am_b\|g(a) - g(b)\|^2 $$ $$ \sum_{i\in a} \sum_{i'\in b} \|x_i-x_{i'}\|^2 = \sum_{i\in a} \sum_{i'\in b} \|x_i-g(b) +g(b) -x_{i'}\|^2\\ = \sum_{i\in a} (\sum_{i'\in b} \|x_i-g(b)\|^2 + \sum_{i'\in b} \|g(b) -x_{i'}\|^2) \\ =\sum_{i\in a} ( card(b)\|x_i-g(b)\|^2+6I(b))\\ = card(b) \sum_{i\in a} \|x_i-g(a)+g(a)-g(b)\|^2 + 6card(a)I(b)\\ = card(b) (\sum_{i\in a} \|x_i-g(a)\|^2 +\sum_{i\in a} \|g(a)-g(b)\|^2 ) + 6card(a)I(b) \\ = 6card(a)I(b) + 6card(b)I(a) + card(a)card(b)\|g(a)-g(b)\|^2 $$ 7. On défnit l'inertie inter entre $a$ et $b$ (avec $a \cap b = \emptyset$) comme $$ I(a,b) = I(a \cup b) - I(a) - I(b): $$ Montrer que $$ I(a,b) = m_a\|g(a) - g(a \cup b)\|^2 + m_b\|g(b) - g(a \cup b)\|^2 $$ $$ I(a \cup b)= \frac{1}{6}\sum_{i \in a\cup b} \|x_i - g(a \cup b)\|^2 \\ = \frac{1}{6}\sum_{i \in a} \|x_i - g(a \cup b)\|^2 + \frac{1}{6}\sum_{i \in b} \|x_i - g(a \cup b)\|^2 \\ = \frac{1}{6}\sum_{i \in a} \|x_i -g(a) + g(a) - g(a \cup b)\|^2 + \frac{1}{6}\sum_{i \in b} \|x_i -g(b) + g(b) - g(a \cup b)\|^2 \\ = \frac{1}{6}6I(a) + \frac{1}{6} card(a)\|g(a) - g(a \cup b)\|^2 + \frac{1}{6}6I(b) + \frac{1}{6} card(b) \| g(b) - g(a \cup b)\|^2 $$ ## Exercice 2 (Premiers pas en ACP) On dispose du classement de 11 individus sur 3 matières : math, musique et français. Le classement en math revient à numéroter les individus. Le tableau des classements selon les trois matières est le suivant : ||||||||||||| |-|-|-|-|-|-|-|-|-|-|-|-| |math| 1 |2 |3 |4 |5 |6 |7 |8 |9 |10 |11| |musique| 6| 1| 4| 5| 3| 2| 9| 7| 8| 10| 11| |français| 2| 6| 1| 3| 4| 5| 8| 9| 7| 10| 11| ```r data = data.frame(math=c(1,2,3,4,5,6,7,8,9,10,11),musique=c(6,1,4,5,3,2,9,7,8,10,11),francais=c(2,6,1,3,4,5,8,9,7,10,11)) ``` 1. Définir le nuage pesant. 2. Calculer le centre de gravité du nuage des individus. ```r colMeans(data) ``` 3. Calculer le tableau centré Y. ```r data.centre=scale(data,center = TRUE,scale = FALSE) ``` 4. Quelle est la métrique à utiliser de préférence? 5. Matrice de covariances est ```r round((10/11)*cov(data),2) matrice.covariance=(1/11)*t(data.centre)%*%data.centre ``` $$ \begin{pmatrix} 10& 7,55& 8,64\\ 7,55& 10& 6,82\\ 8,64& 6,82& 10\\ \end{pmatrix} $$ Quelle est l'inertie du nuage ? ```r sum(diag(round((10/11)*cov(data),2))) ``` 6. Démontrer que les trois valeurs propres peuvent-être : 25,358, 3,373 et 1,269. Pour la suite, on admet que les vecteurs propres sont $$ u1 = \pmatrix{ -0,600\\ -0,552\\ -0,581} , u2 =\pmatrix{ 0,236\\ -0,814\\ 0,530} , u3 =\pmatrix{ 0,766\\ -0,180\\ -0,617} $$ ```r data.matrix=as.matrix(data) matrice.inertie=1/11*(t(data.matrix))%*%data.matrix diagonalisation=eigen(matrice.inertie) ``` 7. On note $c^k_i$ la coordonnée de l'individu $i$ sur l'axe factoriel $k$. Quelles sont les moyennes et variances des vecteurs $c_k = \pmatrix{ck1\\...\\ckn\\}$ $$ c_1 = Yu_1 = -0,6Y_1 - 0,552Y_2 - 0,581Y_3 $$ $$ c_k = Yu_k\\ V(c_k) = c_k^TPc_k = u_k^TY^TPYu_k\\ = u_k^TVu_k = \lambda_k u_k^Tu_k = \lambda_k (=I_k) $$ 8. a) Quel est le pourcentage d'inertie extrait par le premier axe factoriel? $$ \frac{\lambda_1}{I}=\frac{25,358}{30}=84,52\% $$ b) Quelle est la meilleure représentation à une dimension du nuage ? c) Quelle est la meilleure représentation plane ? 9. Compléter dans le tableau ci-dessous les composantes principales (coordonnées des individus). $c_k = Xu_k$ ||Coordonnées|CO2| |-|-|-| ||Axe1 Axe2 Axe3|Axe1 Axe2 Axe3| |ind1| ? ? ? |0,689 0,266 ? |ind2| ? ? ? |0,647 ? 0,114 ```r coordonnes=data.matrix%*%diagonalisation$vectors ``` 10. Quelle est la contribution de l'individu 1 à la construction du premier axe factoriel? $$ I_k=\sum_{i=1}^{11}p_i(c_i^k)^2\\ CTR = \frac{p_i(c_i^k)^2}{I_k} $$ $$ C(1,1)=\frac{(1/11)(5,31)^2}{25,358}=0,10\\ CTR_{moyenne}=1/11 $$ 11. Calculer les coordonnées de la variable math sur les différents axes et compléter le tableau. $$ d_j^k=\sqrt{\lambda_k}\{u_k\}_j $$ ||Coordonnées|CTR| |-|-|-| | |Axe1 Axe2 Axe3| Axe1 Axe2 Axe3| |math| ? ? ? |? 5.539 58.861 |musi| -2.779 -1.495 -0.203| 30.545 ? 3.246 |fran| -2.927 0.974 -0.695| 33.787 28.141 ? ```r # Axe 1 diagonalisation$vectors[,1]*sqrt(diagonalisation$values[1]) #math diagonalisation$vectors[1,]*sqrt(diagonalisation$values) ``` 12. Effectuer la représentation graphique des variables sur le premier plan factoriel. Que constatez-vous? 13. Un auditeur libre a eu des notes qui l'auraient classé 8ieme en math, 2ieme en musique et 1er en français. Situer cet individu par rapport à l'ensemble des 11 autres dans le premier plan factoriel. Cet individu est-il bien representé sur le premier axe factoriel? $$ i_+=\pmatrix{8\\2\\1} $$ Placé sur le nuage : "centre" en conservant le barycentre initial $$ i_+=\pmatrix{2\\-4\\-5} $$ projection $$ c_{i+}^k=i_+^Tu_k\\ c_{i+}=\pmatrix{3,913\\1,078\\5,337} $$ qualité $$ CO2(i_+,1) = \frac{(c_{i+}^1)}{\|i_+\|^2}\\ =0,33 $$ Exercice 3 (Etude des consommations de denrées alimentaires) Les données. L'étude concerne les consommations annuelles en 1972, exprimées en francs, de huit denrées alimentaires (fichier: denrees.txt): pao pain ordinaire, paa autre pain, vio vin ordinaire, pot pommes de terres, lec légumes sec, rai raisin de table et plp plats préparés. Les individus sont huit catégories socio-professionnelles et les données sont les moyennes par CSP: agri exploitants agricoles, saag salariés agricoles, prin professions indépendantes, csup cadre supérieurs, cmoy cadres moyens, empl employés, ouvr ouvriers et inac inactifs Problématique. Présenter les differents types de consommations annuelles des français pour les denrées alimentaires à partir des sorties suivantes. ### Description des données nb observation nb variables types de variables pondération ### Statistiques descriptives uni voire bivariées (### Choix d'une méthode factorielle) ### Choix des éléments actifs ### Choix de la métrique -> Exécution de la méthode ### Choix du nombre d'axe ### Interprétation des axes - Choix et sens au niveau des variables (CTR des variables et COR/COORD) - (En ACP normée, sur variables grande coord = grande CTR = grande CO2) - Exemples d'individus (CTR), éventuellement individus atypiques (CTR +++), contrôle CO2 - Exemples d'individus (CO2) - Variables illustratives (COR) - Individus illustratifs (CO2) - Var quali supplémentaires (V Test) ```r rm(list=ls()) getwd() require(FactoMineR) denrees <- read.table("./SEM/ACP/data/denrees.csv", header = TRUE) summary(denrees) rownames(denrees) res <- PCA(denrees, graph = FALSE) barplot(res$eig[,1]) plot(res, choix = "ind") summary(res) plot(res, choix = "var") plot(res, choix = "ind", axes = c(1,2)) plot(res, choix = "var", axes = c(3,4)) require(Factoshiny) PCAshiny(denrees) require(explor) explor(res) ``` # TD2 SEM ## Exercice 1 : Introduction au MDS: analyse d’un tableau de distances (MDS = multidimensional scaling) On considère une population de $n$ individus caractérisés par $p$ variables. Les données sont rangées dans un tableau $X= [x_{ij};i= 1,...,n;j= 1,...,p]$, où $x_{ij}$ est la valeur de la variable $j$ pour l’individu $i$. On note $p_i,i\in{1,...,n}$, les poids des individus avec $\sum^n_{i=1}p_i=1$. On suppose que $R^p$ est muni de la métrique $M$ et que chacune des variables est centrée (i.e.,$\sum^n_{i=1}p_ix_{ij}= 0$). On considère la matrice $D= [d_{ii′};i= 1,...,n;i′= 1,...,n]$ des distances carrées entre les individus où $d^2_{ii′}= (x_i−x_{i′})M(x_i−x_{i′})$. On pose également $d^2_i=\sum_{i′=1}^np_{i′}d^2_{ii′}$ et $d^2=\sum_{i=1}^np_id^2_i$. Le but de l’exercice est de montrer que l’analyse du nuage peut être menée à partir de la matrice des distances carrées D. 1. Quel est le centre de gravité du nuage $N={(xi,pi),i∈ {1,...,n}}$? Comment s'écrit dans ce cadre la matrice de variances-covariances $V$? $$ G=\pmatrix{\bar{x_1}&...&\bar{x_j}&...&\bar{x_n}} = \pmatrix{0&0&...&0} \\ V= X^TPX = \pmatrix{V(x_1)&Cov(x_1,x_2)&...&Cov(x_1,x_n)\\ Cov(x_1,x_2)&V(x_2)&...&Cov(x_2,x_n)\\ ...&...&...&...\\ Cov(x_n,x_1)&...&...&V(x_n) } $$ 2. Montre que pour out $i∈{1,...,n}$, $d^2_i=\|x_i\|^2_M+I(N)$ où $I(N)$ est l’inertie du nuage $N$ $$ d^2_i=\sum_{i′=1}^np_{i′}d^2_{ii′}\\ = \sum_{i′=1}^np_{i′}\|x_{i'}-g+g-x_i\|^2_M\\ = \sum_{i′=1}^np_{i′}\|x_{i'}-g\|^2_M + \sum_{i′=1}^np_{i′}\|g-x_i\|^2_M\\ = I(N) + \|g-x_i\|^2_M\sum_{i′=1}^np_{i′}\\ = I(N) + \|x_i\|^2_M\\ $$ 3. En déduire que $d^2= 2I(N)$ $$ d^2=\sum_{i=1}^np_id^2_i =\sum_{i=1}^np_i(I(N) + \|x_i\|^2_M)\\ =I(N)\sum_{i=1}^np_i + \sum_{i=1}^np_i\|x_i - g\|^2_M\\ = 2I(N) $$ 4. En développant $<x_i−x_{i′},x_i−x_{i′}>_M=\|x_i−x_{i′}\|^2_M$, exprimer le produit scalaire $<x_i,x_{i′}>_M$ en fonction de $d^2_i$, $d^2_{i′}$, $d^2$ et $d^2_{ii′}$ $$ \|x_i−x_{i′}\|^2_M = \|x_i\|^2_M + \|x_{i'}\|^2_M - 2 <x_i,x_{i'}>_M\\ \iff <x_i,x_{i'}>_M = \frac{1}{2} (-\|x_i−x_{i′}\|^2_M + d^2_i - I(N) + d^2_{i'} - I(N) )\\ \iff <x_i,x_{i'}>_M = \frac{1}{2} (d^2_i + d^2_{i'} - d^2 - d^2_{ii'}) $$ 5. Supposons que l’analyse factorielle du nuage génère $r$ axes principaux dirigés par $(u_k),k\in{1,...,r}$ qu’on pourra supposer normés. On note $(C_k),k\in{1,...,r}$ les facteurs principaux associés. ́Écrire $C_k$ en fonction de $X$,$M$ et $u_k$ $$ C_k=XMu_k $$ 6. Montrer que $XMVMu_k=λ_kC_k$ où $λ_k$ est la valeur propre de $VM$ associée à $u_k$ $$ XMVMu_k=\lambda_kXMu_k=\lambda_kC_k $$ 7. En déduire que $C_k$ est également vecteur propre d'une matrice dont le terme général s'écrit en fonction des distances carrées $d^2_i$, $d^2_{i'}$, $d^2$ et $d^2_{ii'}$ $$ V=X^TPX\\ XMX^TPXMu_k=\lambda_kC_k\\ $$ Soit $Q=XMX^T$ $$ QPC_k=\lambda_kC_k\\ $$ Terme général de $Q$ : $$ Q[i,i']=x_iMx_{i'}^T=<x_i;x_{i'}>=\frac{1}{2} (d^2_i + d^2_{i'} - d^2 - d^2_{ii'}) $$ Terme général de $QP$ : $$ QP[i,i']=\frac{1}{2}p_{i'} (d^2_i + d^2_{i'} - d^2 - d^2_{ii'}) $$ 8. En définissant le vecteur $F_k\in \mathbb R^n$ dont la composante $i\in{1,...,n}$ est $F_{ik}=\sqrt{p_i}C_{ik}$, déterminer la matrice $S$ dont $F_k$ est le vecteur propre de $S$ associé à la valeur propre $λ_k$. Montrer que le vecteur $(\sqrt{p_i}),i\in{1,...,n}$ est vecteur propre associé à la valeur propre 0 Soit $P^{\frac{1}{2}}=diag(\sqrt{p_i})$, $P=P^{\frac{1}{2}}P^{\frac{1}{2}}$ $F_k = P^{\frac{1}{2}}C_k$ avec $F_{ik}=\sqrt{p_i}C_{ik}$ $$ P^{\frac{1}{2}}QP^{\frac{1}{2}}P^{\frac{1}{2}}C_k=\lambda_kP^{\frac{1}{2}}C_k\\ P^{\frac{1}{2}}QP^F_k=\lambda_kF_k $$ $$ S=P^{\frac{1}{2}}QP^{\frac{1}{2}} $$ Soit $\omega^{\frac{1}{2}}=(\sqrt{p_i}),i\in{1,...,n}$, $P^{\frac{1}{2}}\omega^{\frac{1}{2}}=\omega=(p_i),i\in{1,...,n}$ $$ P^{\frac{1}{2}}QP^{\frac{1}{2}}\omega^{\frac{1}{2}}\\ =P^{\frac{1}{2}}Q\omega =P^{\frac{1}{2}}XMX^T\omega $$ $X^T\omega=0$ car données centrées 9. Montrer que $\sum^n_{i=1}F^2_{ik}=λ_k$ et que pour $k\neq l, \sum^n_{i=1}F_{ik}F_{il}= 0$. $$ \sum^n_{i=1}F^2_{ik} =(F_k)^TF_k\\ =\sum^n_{i=1}(\sqrt{p_i}C_{ik})^T\sqrt{p_i}C_{ik}\\ =\sum^n_{i=1}p_iC_{ik}^2=V(C_k)=\lambda_k $$ $$ \sum^n_{i=1}F_{ik}F_{il}=\sum^n_{i=1}p_iC_{ik}C_{il}\\ =Cov(C_k,C_l)=0 $$ --- ## Exercice 2 (Application en biologie) Le micronecton est un ensemble d'organismes marins dont la capacité de nage est telle qu'il peut se déplacer contre les courants. On effectue un prélèvement de micronecton dans 11 stations réparties le long d'une radiale Nice - Calvi. Des mesures hydrologiques associées ont montré que les stations 1 à 7 étaient situées dans la zone périphérique, les stations 8 à 10 dans la zone frontale et la station 12 dans la zone côtière. La station 11 n'a pas été échantillonnée. Les résultats sont présentés dans le tableau de comptage suivant : À partir des sorties présentées dans en annexe, établir la relation entre les associations entre les 12 espéces déterminées et la localisation des stations ? ```r rm(list=ls()) # On cree les donnees mydata <- rbind( c( 204 , 80 , 4 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 1 , 0 ), c( 272 , 88 , 12 , 0 , 0 , 0 , 0 , 0 , 0 , 3 , 0 , 1 ), c( 528 , 18 , 7 , 0 , 0 , 0 , 0 , 0 , 0 , 4 , 0 , 0 ), c( 208 , 186 , 12 , 2 , 0 , 0 , 1 , 0 , 0 , 5 , 0 , 0 ), c( 74 , 30 , 3 , 3 , 0 , 0 , 0 , 0 , 0 , 2 , 2 , 0 ), c( 49 , 77 , 0 , 5 , 0 , 0 , 0 , 1 , 1 , 1 , 1 , 0 ), c( 39 , 35 , 4 , 2 , 2 , 0 , 0 , 0 , 0 , 4 , 0 , 2 ), c( 25 , 155 , 33 , 17 , 2 , 0 , 0 , 0 , 0 , 0 , 0 , 2 ), c( 5 , 127 , 30 , 21 , 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 ), c( 3 , 107 , 31 , 38 , 0 , 2 , 0 , 0 , 0 , 1 , 1 , 0 ), c( 2 , 10 , 1 , 118 , 0 , 0 , 1 , 0 , 0 , 0 , 0 , 0 ) ) rownames(mydata) <- paste0("S", c(1:10,12)) colnames(mydata) <- c("Meno", "Neme", "Stlo", "Eukr", "Thae", "Euhe", "Sear", "Sero", "Sesa", "Pasi", # On verifie les marges margin.table(mydata, 1) margin.table(mydata, 2) # test du chi2 (attention resultats peu fiables car bcp de 0) res.test <- chisq.test(mydata) # On charge le package require(FactoMineR) Loading required package: FactoMineR res.ca <- CA(mydata) # Resume de l analyse summary(res.ca) #Resume des inerties par axes barplot(res.ca$eig[,1], main = "Inertie des axes", names.arg = paste0("Axe", 1:nrow(res.ca$eig))) # Representation superposee dans le premier plan factoriel plot(res.ca, axes = 1:2) plot(res.ca, axes = 1:2, invisible = "col") # Recherche des stations ayant le plus contribue a l axe 1 res.ca$row$contrib[order(res.ca$row$contrib[,1], decreasing = TRUE), 1] # Recherche des micronectons ayant le plus contribue a l axe 1 res.ca$col$contrib[order(res.ca$col$contrib[,1], decreasing = TRUE), 1] ``` ## Exercice 3 (Crédits à la consommation sous R) **Les données.** Le jeu de données contient 66 clients ayant souscrit un crédit à la consommation dans un organisme de crédit (fichier credit.csv). Les 11 variables qualitatives et les modalités associées à cet exemple sont les suivantes: - Marché: rénovation d'un bien, voiture, scooter, moto, mobilier-ameublement, side-car. Cette variable indique le bien pour lequel les clients ont réalisé un emprunt. - Apport: oui, non. Cette variable indique si les clients possèdent un apport personnel avant de réaliser l'emprunt. Un apport personnel représente une garantie pour l'organisme de crédit. - Impayé: 0, 1 ou 2, 3 et plus. Cette variable indique le nombre d'échéances impayées par le client. - Taux d'endettement: 1 (faible), 2, 3, 4 (fort). Cette variable indique le niveau d'endettement du client. Le taux d'endettement est calculé comme le rapport entre les charges (ensemble des dépenses) et le revenu. Ce taux a été discrétisé en 4 classes. - Assurance: sans assurance, AID (assurance invalidité et décés), AID + chômage, Senior (pour les plus de 60 ans). Cette variable indique le type d'assurance à laquelle le client a souscrit. - Famille: union libre, marié, veuf, célibataire, divorcé. - Enfants à charge: 0, 1, 2, 3, 4 et plus. - Logement: propriétaire, accédant à la propriété (personne qui n'a pas encore fini de rembourser son emprunt immobilier), locataire, logé par la famille, logé par l'employeur. - Profession: ouvrier non qualifie, ouvrier qualifie, retraite, cadre moyen, cadre superieur. - Intitulé: M, Mme, Melle. - Age: 20 (18 à 29 ans), 30 (30 à 39), 40 (40 à 49), 50 (50 à 59), 60 et plus. **Problématique.** À partir des sorties présentées en annexe, le but de cette étude est de caractériser la clientèle de l'organisme de crédit. Nous voulons dans un premier temps mettre en évidence différents profils de comportement bancaires, c'est-à-dire effectuer une typologie des individus. Nous voulons ensuite étudier la liaison entre la signalétique (CSP, âge, etc.) et les principaux facteurs de variabilité des profils de comportement bancaires (i.e. caractériser les clients aux comportements particuliers). ```r rm(list=ls()) setwd("~/Documents/enseignements/ENSAI/1A/SEM/TP/") require(FactoMineR) # Importation des donnees credit <- read.csv("data/credit.csv", sep="\t") # Attention Age est une variable qualitative credit$Age <- factor(credit$Age) # Stat descriptives (on verifie l'importation des donnees) summary(credit) par(ask=FALSE) # On converti le side car en moto levels(credit$Marche) levels(credit$Marche)[5] <- levels(credit$Marche)[2] # Pour caracteriser les comportements bancaires, il faut mettre les autres variables en supplementaires res.mca <- MCA(credit, quali.sup = 6:11, graph = FALSE) # Choix du nombre d'axes barplot(res.mca$eig[,2], names.arg = paste("Axe", 1:nrow(res.mca$eig))) # Pour avoir les valeurs approchees round(res.mca$eig[1:5,], 2) # Graphique des individus pour voir si on a des "groupes" plot(res.mca, invisible = c("var", "quali.sup")) # Graphique des individus pour voir si on a des "groupes" avec la variable marche en habillage plot(res.mca, invisible = c("var", "quali.sup"), habillage = "Marche") # Graphique des modalites plot(res.mca, invisible = "ind") # Pour avoir les variables les plus liees a l axe plot(res.mca, choix = "var") # Graphique des individus et des variables sur le plan 3/4 plot(res.mca, invisible = "ind", axes = 3:4) plot(res.mca, invisible = c("var", "quali.sup"), axes = 3:4, new.plot = TRUE) plot(res.mca, invisible = "var", axes = 3:4, new.plot = TRUE) plot(res.mca, invisible = "var", axes = 3:4, new.plot = TRUE) ```