# idl_17 : Classification de documents Idée : attribuer la bonne catégorie à un document (*classification*) Les catégorisations sont variées : Quels sont les exemples que nous avons déjà vus ? les applications que vous connaissez ? ## Exemple Quel est le thème principal de cette phrase ? `` I brought some muffins to church, I baked them myself. `` - cooking ? - religion ? - architecture ? ### Méthode non-supervisée La méthode : 1. on regarde les vecteurs des mots qui composent le document, et on calcule le ==centroïde== de ce vecteur. 2. on calcule la distance entre ce centroïde et les vecteurs des classes elles-mêmes pour trouver ==le plus proche voisin== 3. on choisit la classe qui a la plus faible distance ![image](https://hackmd.io/_uploads/Hkn8c8Sx0.png) ### méthode supervisée : demande beaucoup de données labélisées (TP de demain) On cherche ici à trouver une fonction qui à partir de données d'entraînements **et de leur étiquette**, peut deviner l'étiquette (la classe) d'un nouveau document.