# Jaggi Charles-Lewis, Mottier Fabien
## Labo 4 Data Management
### C. Analyse de données
#### 1. Classification
Nous avons utilisé un Decision Stump comme arbre de décision. Cet arbre sélectionne la séparation la plus importante, celle qui impacte le plus le résultat.

Nous l'avons choisis, car il donnait le meilleur résultat.

Lorsqu'il cherche à prédire un républicain, il a 100% de réussite, mais lorsqu'il recherche un démocrate, il fait quelques erreurs. Il le fait avec un arbre minimaliste.

Dans le premier cas, nous avons utilisé comme paramètre pour la validation un stratified sampling pour la séparation des données d'entrées. Cela sépare les données en groupe en conservant la distribution de classes. Nous avons décider d'essayer de changer pour un random sampling. Dans ce cas, les données sont réparties aléatoirement.

Nous pouvons voir, qu'avec le même arbre et le même algorithme, il y a une grosse perte de précision et de recall. Cela montre l'importance de la préparation des données.
#### 2. Market basket analysis


##### Règle 43
Nous pouvons observer que peu de transactions contiennent les 3 articles, malgré qu'elle possède le plus gros support, il reste petit. Cependant, il y a une grande confiance donc si on possède dans son panier les **Prémisses** il y a une forte probabilité (94.8%) que l'on achète la **Conclusion**, le lift est plus > 1 et la Confiance est bonne donc la règle est bonne.
#### Règle 44
Nous pouvons observer la corrélation avec la règle 43. Elle a les même items, avec une confiance encore plus grande.
#### Règle 22
Elle possède les mêmes caractéristiques que la règle 43. Le support et la confiance sont moins bonnes mais son lift est meilleur ce qui donne plus de crédit à la règle.