# Extraction du tableau filiales et participations des comptes sociaux
---
## Dépôt Github
Le code :arrow_right: https://github.com/InseeFrLab/extraction-comptes-sociaux
---
## Pipeline d'extraction
1) Récupération du document PDF
2) Identification de la page sur laquelle figure le tableau des filiales et participations
3) Extraction du tableau
4) Nettoyage du tableau
---
## Récupération du document PDF
- Utilisation de l'API de l'INPI
- Code non encore implémenté en Python
- Changements dans l'offre de l'INPI
---
## Identification de la page
- Pour chaque page du document, récupération du texte :
- Pour les PDF *numériques*, on récupère le texte directement
- Pour les *scans*, utilisation de Tesseract pour la reconnaissance de caractères
- Modèle RandomForest : prend une page en entrée et renvoie une probabilité que la page contienne un tableau
- Pour un document, probabilité de sortie la plus élevée si elle dépasse un certain seuil
---
## Extraction du tableau
### Pour les *scans*
1) Pre-processing de l'image
2) Segmentation de l'image (`TableNet`) :arrow_right: masques qui repèrent l'emplacement des tableaux et colonnes
3) Post-processing des masques
4) Reconnaissance de caractères (`Tesseract`)
5) Alignement des contenus de chaque colonne
---
## Extraction du tableau
### Pour les PDF *numériques*
- Utilisation de librairies open-source pour l'extraction de tableaux
- Si l'extraction ne fonctionne pas possibilité de repérer le tableau à l'aide de `TableNet`
---
## Environnement de travail
- SSP Cloud : plateforme Cloud de data science
- Données sur un espace de stockage facilement accessible
- Entraînement des modèles : MLflow
- API déployée sur le SSP Cloud
{"metaMigratedAt":"2023-06-17T20:01:42.659Z","metaMigratedFrom":"YAML","title":"Extraction des tableaux filiales et participations","breaks":true,"description":"View the slide with \"Slide Mode\".","slideOptions":"{\"theme\":\"white\"}","contributors":"[{\"id\":\"0f18315e-7fb2-4ab0-a2e3-78c397673052\",\"add\":4501,\"del\":2615}]"}