---
jupyter:
jupytext:
formats: ipynb,md
split_at_heading: true
text_representation:
extension: .md
format_name: markdown
format_version: '1.3'
jupytext_version: 1.15.2
kernelspec:
display_name: Python 3 (ipykernel)
language: python
name: python3
---
<!-- LTeX: language=fr -->
<!-- #region slideshow={"slide_type": "slide"} -->
# idl_tp-final `scikit-learn` - classification de documents
Idée : attribuer la bonne catégorie à un document (*classification*)
Les catégorisations sont variées : Quels sont les exemples que nous avons déjà vus ? les applications que vous connaissez ?
## Classification supervisée / non supervisée
Exemple : quel est le thème principal de cette phrase ?
``
I brought some muffins to church, I baked them myself.
``
- cooking ?
- religion ?
- architecture ?
### Méthode non-supervisée
La méthode :
1. on regarde les vecteurs des mots qui composent le document, et on calcule le ==centroïde== de ce vecteur.
2. on calcule la distance entre ce centroïde et les vecteurs des classes elles-mêmes pour trouver ==le plus proche voisin==
3. on choisit la classe qui a la plus faible distance

### Méthode supervisée : demande beaucoup de données labélisées (TP ci-dessous)
On cherche ici à trouver une fonction qui à partir de données d'entraînements **et de leur étiquette**, peut deviner l'étiquette (la classe) d'un nouveau document.
<!-- #endregion -->
---
************************** Début du TP *************************
---
## Scikit-learn ?
[Documentation scikit-learn](https://scikit-learn.org/stable/index.html).
Scikit-learn est une bibliothèque Python dédiée à l'apprentissage artificiel qui repose sur [NumPy](https://numpy.org/) et [SciPy](https://scipy.org/). Il est écrit en Python et [Cython](https://cython.org/). Il s'interface très bien avec [matplotlib](https://matplotlib.org), [seaborn](https://seaborn.pydata.org/) ou [pandas](https://pandas.pydata.org/) (qui lui-même marche très bien avec [plotnine](https://plotnine.readthedocs.io/)). C'est devenu un incontournable du *machine learning* et des *data sciences* en Python.
Dans ce notebook on se limitera à la classification, une partie seulement de ce qu'offre `scikit-learn`.
La classification est souvent utilisée en TAL, par exemple dans les tâches d'analyse de sentiment, de détection d'émotion ou l'identification de la langue.
On va faire de l'apprentissage *supervisé* de classifieurs : l'idée est d'apprendre un modèle à partir de données réparties en classes (une classe et une seule pour chaque exemple), puis de se servir de ce modèle pour répartir parmi les mêmes classes des données nouvelles.
Dit autrement, on a un échantillon d'entraînement $\mathcal{D}$, composé de $n$ couples $(X_{i},Y_{i}), i=1, …, n$ où les $X_{i}$ sont les entrées (en général des **vecteurs** de traits ou *features*) et les $y_{i}$ seront les sorties, les classes à prédire. On cherche alors dans une famille $\mathbb{M}$ de modèles un modèle de classification $M$ qui soit le plus performant possible sur $\mathcal{D}$.
`scikit-learn` offre beaucoup d'algorithmes d'apprentissage. Vous en trouverez un aperçu sur [cette carte](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html) et sur ces listes : [supervisé](https://scikit-learn.org/stable/supervised_learning.html) / [nonsupervisé](https://scikit-learn.org/stable/unsupervised_learning.html).
Mais `scikit-learn` offre également les outils pour mener à bien les étapes d'une tâche de d'apprentissage :
- Manipuler les données, constituer un jeu de données d'entraînement et de test
- Entraînement du modèle
- Évaluation
- Optimisation des hyperparamètres
```bash
pip install -U scikit-learn
```
## Un premier exemple
### Les données
Comme vous le savez, c'est la clé de voute du *machine learning*. Nous allons travailler avec un des jeux de données fourni par scikit-learn : [le jeu de données de reconnaissance des vins](https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-recognition-dataset)
C'est plus facile pour commencer parce que les données sont déjà nettoyées et organisées, mais vous pourrez bien sûr par la suite [charger des données venant d'autres sources](https://scikit-learn.org/stable/datasets/loading_other_datasets.html).
```python
from sklearn import datasets
wine = datasets.load_wine()
type(wine)
```
(La recommandation des développeurs et développeuses de `scikit-learn` est d'importer uniquement les parties qui nous intéresse plutôt que tout le package. Notez aussi le nom `sklearn` pour l'import.)
Ces jeux de données sont des objets `sklearn.utils._bunch.Bunch`. Organisés un peu comme des dictionnaires Python, ces objets contiennent :
- `data` : array NumPy à deux dimensions d'échantillons de données de dimensions `(n_samples, n_features)` = les inputs = les X
- `target` : les variables à prédire = les catégories des échantillons = les outputs = les Y
- `feature_names`
- `target_names`
Et d'autres trucs comme
```python3
print(wine.DESCR)
```
```python3
print(wine.feature_names)
```
```python3
print(wine.target_names)
```
Après avoir installé `pandas` ou `polars` :
```bash
pip install -U pandas polars
```
On peut convertir ces données en `DataFrame` pandas si on veut.
```python3
import pandas as pd
df = pd.DataFrame(data=wine.data,columns=wine.feature_names)
df["target"] = wine.target
df.head()
```
```python3
import polars as pl
df = pl.DataFrame(
data=wine.data, schema=wine.feature_names).with_columns(
target=pl.Series(wine.target)
)
df.head()
```
Mais l'essentiel est de retrouver nos inputs $X$ et outputs $y$ nécessaires à l'apprentissage.
```python
X_wine, y_wine = wine.data, wine.target
```
```python
X_wine.shape
```
```python
y_wine
```
Vous pouvez séparer les données en train et test facilement à l'aide de `sklearn.model_selection.train_test_split` (voir la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split))
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_wine, y_wine, test_size=0.3)
y_train
```
```python
import matplotlib.pyplot as plt
plt.hist(y_train, align="right", label="train")
plt.hist(y_test, align="left", label="test")
plt.legend()
plt.xlabel("Classe")
plt.ylabel("Nombre d'exemples")
plt.title("Répartition des classes")
plt.show()
```
Il ne faut pas hésiter à recourir à des représentations graphiques quand vous manipulez les données.
Ici on voit que la répartition des classes à prédire n'est pas homogène pour les données de test. On peut y remédier en utilisant le paramètre `stratify`, qui fait appel à [`StratifiedShuffleSplit`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html) pour préserver la même répartition des classes dans le train et dans le test.
```python
X_train, X_test, y_train, y_test = train_test_split(X_wine, y_wine, test_size=0.25, stratify=y_wine)
plt.hist(y_train, align="right", label="train")
plt.hist(y_test, align="left", label="test")
plt.legend()
plt.xlabel("Classe")
plt.ylabel("Nombre d'exemples")
plt.title("Répartition des classes avec échantillonnage stratifié")
plt.show()
```
## Entraînement
L'étape suivante est de choisir un algorithme (un *estimator* dans la terminologie de scikit-learn), de l'entraîner sur nos données (avec la fonction `fit()`) puis de faire la prédiction (avec la fonction `predict`).
Quelque soit l'algo choisi vous allez retrouver les fonctions `fit` et `predict`. Ce qui changera ce seront les paramètres à passer au constructeur de la classe de l'algo. Votre travail portera sur le choix de ces paramètres.
Exemple un peu bateau avec une méthode de type SVM.
```python
from sklearn.svm import LinearSVC
clf = LinearSVC(dual=True)
clf.fit(X_train, y_train)
```
```python
clf.predict(X_test)
```
## Évaluation
On fait l'évaluation en confrontant les prédictions sur les `X_test` et les `y_test`. La fonction `score` nous donne l'exactitude (*accuracy*) moyenne du modèle.
```python
clf.score(X_test, y_test)
```
Pour la classification il existe une classe bien pratique `sklearn.metrics.classification_report`
```python
from sklearn.metrics import classification_report
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))
```
## Exercice
Refaites une partition train/test différente et comparez les résultats.
## Validation croisée
Pour améliorer la robustesse de l'évaluation on peut utiliser la validation croisée (*cross-validation*).
En pratique, on divise notre dataset en 5 (`part0`, `part1`, `part2`, `part3`, `part4`) puis on entraîne notre modèle sur les parties ``[part0->part3]`` et on évalue sur les 20% restants, c'est-à-dire `part4`, puis on fait "glisser la fenêtre de sélection", en entraînant le modèle sur les parties `[part1->part4]` et on teste le résultat sur `part0`, et ainsi de suite. Dans cette configuration, on obtient donc 5 mesures. Quel est l'intérêt de cette méthode selon vous ?
`scikit-learn` a des classes pour ça.
```python3!
from sklearn.model_selection import cross_validate, cross_val_score
print(cross_validate(LinearSVC(), X_wine, y_wine)) # infos d'accuracy mais aussi de temps
print(cross_val_score(LinearSVC(), X_wine, y_wine)) # uniquement accuracy
```
## Optimisation des hyperparamètres
L'optimisation des hyperparamètres est la dernière étape. Ici encore `scikit-learn` nous permet de le faire de manière simple et efficace. Nous utiliserons `sklearn.model_selection.GridSearchCV` qui fait une recherche exhaustive sur tous les paramètres donnés au constructeur. Cette classe utilise aussi la validation croisée.
https://fr.wikipedia.org/wiki/Machine_%C3%A0_vecteurs_de_support
```python
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.1, 0.5, 1, 10, 100, 1000], 'kernel':['linear']}
grid = GridSearchCV(LinearSVC(), param_grid, cv = 5, scoring = 'accuracy')
estimator = grid.fit(X_wine, y_wine)
print(estimator.cv_results_)
```
```python
df = pd.DataFrame(estimator.cv_results_)
df.sort_values('rank_test_score')
```
## Classification de textes
Le [dataset 20 newsgroups](https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html) est un exemple de classification de textes proposé par `scikit-learn`. Il y a aussi [de la doc](https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction) sur les traits (*features*) des documents textuels.
La classification avec des techniques non neuronales repose en grande partie sur les traits utilisés pour représenter les textes.
```python
from sklearn.datasets import fetch_20newsgroups
categories = [
"sci.crypt",
"sci.electronics",
"sci.med",
"sci.space",
]
data_train = fetch_20newsgroups(
subset="train",
categories=categories,
shuffle=True,
)
data_test = fetch_20newsgroups(
subset="test",
categories=categories,
shuffle=True,
)
```
```python
print(len(data_train.data))
print(len(data_test.data))
```
Ici on a un jeu de 2373 textes catégorisés pour l'entrainement. À nous d'en extraire les features désirées. Le modèle des [sacs de mots](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) est le plus basique.
Attention aux valeurs par défaut des paramètres. Ici par exemple on passe tout en minuscule et la tokenisation est rudimentaire. Ça fonctionnera mal pour d'autres langues que l'anglais. Cependant, presque tout est modifiable et vous pouvez passer des fonctions de prétraitement personnalisées.
```python!
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(stop_words="english")
X_train = vectorizer.fit_transform(data_train.data) # données de train vectorisées
y_train = data_train.target
X_train.shape
```
Voilà la tête que ça a:
```python3
print(X_train[0, :])
```
```python3
X_test = vectorizer.transform(data_test.data)
y_test = data_test.target
```
Pour l'entraînement et l'évaluation on reprend le code vu auparavant
```python
clf = LinearSVC(C=0.5)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))
```
[TF⋅IDF](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) est un raffinement de ce modèle, qui donne en général de meilleurs résultats. Il existe une librairie qui fait tous les calculs pour vous :
```python
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(
sublinear_tf=True,
max_df=0.5,
stop_words='english'
)
X_train = vectorizer.fit_transform(data_train.data) # données de train vectorisées
y_train = data_train.target
X_train.shape
X_test = vectorizer.transform(data_test.data)
y_test = data_test.target
clf = LinearSVC(C=0.5)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))
```
## Projet à présenter la semaine du 28/04
### 1. Un projet complet
L'archive [`imdb_smol.tar.gz`](https://github.com/LoicGrobol/apprentissage-artificiel/blob/main/data/imdb_smol.tar.gz) contient 602 critiques de films sous formes de fichiers textes, réparties en deux classes : positives et négatives (matérialisées par des sous-dossiers). Votre mission est de réaliser un script qui :
- Charge et vectorise ces données
- Entraîne et compare des classifieurs sur ce jeu de données
L'objectif est de déterminer quel type de vectorisation et de modèle semble le plus adapté et quels hyperparamètres choisir. Vous pouvez par exemple tester
- (i) des SVM comme ci-dessus,
- (ii) [un modèle de régression logistique](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) (recherche des paramètres pour la combinaison linéaire des traits puis passage par une fonction sigmoïde qui donne la probabilité d'appartenance à une classe donnée),

[source](https://medium.com/tell-ia/la-r%C3%A9gression-logistique-expliqu%C3%A9e-%C3%A0-ma-grand-m%C3%A8re-52a2ab30788)
(iii) [un arbre de décision](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html) (séparation des échantillons en groupes similaires, permet une hiérarchisation des traits),

[source](https://blent.ai/blog/a/arbres-de-decision-en-machine-learning)
(iv) [un modèle bayésien naïf](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html) (fait l'hypothèse qu'une caractéristique qui est indépendante des autres est propre à une classe, eg si un fruit est rouge, alors c'est une pomme),
(v) [une forêt d'arbres de décision](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) (découpage du datasets en sous-ensembles sur lesquels est calculé un arbre de décision. L'ensemble forme une forêt, et pour un échantillon donné, chaque arbre apporte un vote pour une classe A ou B donnée. C'est la classe qui a le plus de votes qui gagne.)
### 2. D'autres traits
Essayez avec d'autres *features* qui vous paraîtraient pertinente : La longueur moyenne des mots, le nombre ou le type d'adjectifs, la présence d'entités nommées, …
Pour récupérer ce genre de *features*, vous pouvez regarder du côté de [spaCy](http://spacy.io/) comme prétraitement de vos données.