# Sujets Codif via FastText
## Echecs de codif
Objectif : voir si on peut réentraîner le modèle pour qu'il parvienne à coder ou à renvoyer de meilleurs échos
- Pour un liasseType=M [*"VPC"*](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=vpc&liasseType=M&evenementType=01P&indicateurDeConfiance=0.5) n'est pas codé mais [*"vente par correspondance"*](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=vente%20par%20correspondance&liasseType=M&evenementType=01P&indicateurDeConfiance=0.5) est bien codé en *4791B* "Vente à distance sur catalogue spécialisé". ([*"VPC"* ](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=vente%20par%20correspondance&liasseType=C&evenementType=01P&indicateurDeConfiance=0.5)pour un liasseType=C est bien codé en *4791A "Vente à distance sur catalogue général"*)
- *"activité de conseil, accompagnement des éleveurs dans l'alimentation de leurs ruminants"* devrait être codé : *0162Z "Activités de soutien à la production animale"*, mais c'est le [20e echo FastText](https://api.codification.sirene.recette2.insee.fr/sir4cod/recherche?libelleActivite=activit%C3%A9%20de%20conseil%2C%20accompagnement%20des%20%C3%A9leveurs%20dans%20l%27alimentation%20de%20leurs%20ruminants&liasseType=A&evenementType=01P&indicateurDeConfiance=0&probaMinEchosViaIHM=0.0&nombreMaxEchosViaIHM=50) (p<0.01) donc pas présenté à l'ihm.
- *"activités de coupes sans transformation du bois"* renvoie des [codes très éloignés](https://api.codification.sirene.recette2.insee.fr/sir4cod/recherche?libelleActivite=activit%C3%A9s%20de%20coupes%20sans%20transformation%20du%20bois&liasseType=M&evenementType=01M&indicateurDeConfiance=0.0&probaMinEchosViaIHM=0.0&nombreMaxEchosViaIHM=50) comme coiffure, restauration rapide. Le code adapté semble être le 4e 0220Z : Exploitation forestière
--> notamment quand les proba de tous les échos sont faibles : organiser les résultats par section de la naf & proposer plus d'échos pour faciliter le travail des gestionnnaires et moins décrédibiliser le modèle ?
## Résultats étranges
Objectif : comprendre pourquoi le modèle code ça
- *"ENSEIGNEMENT BMX FREESTYLE"* est [codé automatiquement en *8552Z*](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=ENSEIGNEMENT%20BMX%20FREESTYLE&liasseType=S&evenementType=01M&natureActivites=99&indicateurDeConfiance=0.5) : *"Enseignement culturel"* alors qu’on attendrait *8551Z "Enseignement de disciplines sportives et d'activités de loisirs"* (3e écho de FasText)
- Variables annexes : *"VENTE DE PRET A PORTER ET ACCESSOIRES"* avec natureActivites=10 & sedentarite=A est [codé automatiquement en *4771Z*](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=VENTE%20DE%20PRET%20A%20PORTER%20ET%20ACCESSOIRES&liasseType=C&evenementType=01M&natureActivites=10&sedentarite=A&indicateurDeConfiance=0.5) *"Commerce de détail d'habillement en magasin spécialisé"* alors qu'on attend *4782Z : "Commerce de détail de textiles, d'habillement et de chaussures sur éventaires et marchés"* ([2e écho FastText](https://api.codification.sirene.recette2.insee.fr/sir4cod/recherche?libelleActivite=VENTE%20DE%20PRET%20A%20PORTER%20ET%20ACCESSOIRES&liasseType=C&evenementType=01M&natureActivites=10&sedentarite=A&indicateurDeConfiance=0&probaMinEchosViaIHM=0.00&nombreMaxEchosViaIHM=5) mais <0,01). Même code [sans la nature d'activité ](https://api.codification.sirene.recette2.insee.fr/sir4cod/codification?libelleActivite=VENTE%20DE%20PRET%20A%20PORTER%20ET%20ACCESSOIRES&liasseType=C&evenementType=01M&sedentarite=A&indicateurDeConfiance=0.5)(10=Commerce de détail en magasin) ou [en mettant 16](https://api.codification.sirene.recette2.insee.fr/sir4cod/codification?libelleActivite=VENTE%20DE%20PRET%20A%20PORTER%20ET%20ACCESSOIRES&liasseType=C&evenementType=01M&natureActivites=16&sedentarite=A&indicateurDeConfiance=0.5) (=Commerce de détail sur marché, nouvelle modalité norme V2016.02 donc peut-être pas très fréquente dans le fichier d'apprentissage)
- Avec un espace insécable (%C2%A0) FastText code moins bien qu'avec un espace "normal" (%20), comme s'il lisait le libellé d'un coup (cf. tableau ci-dessous). Le risque est faible de saisir un espace insécable en ihm ou même en copiant-collant depuis la naf mais peut exister depuis libreoffice. à garder en tête pour la recette
| *"Administration publique générale"*|
| -------- |
| blanc insécable | espace normal|
| -------- | -------- |
| [ 6832A ](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=ADMINISTRATION%C2%A0PUBLIQUE%C2%A0GENERALE&liasseType=P&evenementType=01A&indicateurDeConfiance=0.5) | [8411Z](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=ADMINISTRATION%20PUBLIQUE%20GENERALE&liasseType=P&evenementType=01A&indicateurDeConfiance=0.5) |
|*"Administration d'immeubles et autres biens immobiliers"* | *"Administration Publique générale"* |
- [tata](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=tata&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5) et [tutu](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=tutu&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5) sont codés automatiquement mais pas [toto](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=toto&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5), [zaza](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=zaza&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5) ou [titi](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=titi&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5)
## (done) Mettre à niveau toutes les ptf
Exemples de différence :
--> en qf2 [fabrication de yoyo ](https://api.codification.sirene.recette2.insee.fr/sir4cod/codification?libelleActivite=fabrication%20de%20yoyo&liasseType=M&evenementType=01M&indicateur%20de%20confiance=0.5)est codée mais pas [fabrication de yoyoS](https://api.codification.sirene.recette2.insee.fr/sir4cod/codification?libelleActivite=fabrication%20de%20yoyos&liasseType=M&evenementType=01M&indicateur%20de%20confiance=0.5), en qf3 les 2 sont bien en échec de codif
--> ENSEIGNEMENT BMX FREESTYLE est codé auto en [QF3](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=ENSEIGNEMENT%20BMX%20FREESTYLE&liasseType=S&evenementType=01M&natureActivites=99&indicateurDeConfiance=0.5) mais pas en [QF2](https://api.codification.sirene.recette2.insee.fr/sir4cod/codification?libelleActivite=ENSEIGNEMENT%20BMX%20FREESTYLE&liasseType=S&evenementType=01M&natureActivites=99&indicateurDeConfiance=0.5)
--> Toto est codé automatiquement en 9609Z *"Autres services personnels n.c.a."* en [QF2](https://api.codification.sirene.recette2.insee.fr/sir4cod/codification?libelleActivite=toto&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5) mais pas en [QF3](https://api.codification.sirene.recette3.insee.fr/sir4cod/codification?libelleActivite=toto&liasseType=M&evenementType=01M&indicateurDeConfiance=0.5)