Extraction des tableaux filiales et participations

# Extraction du tableau filiales et participations des comptes sociaux --- ## Dépôt Github Le code :arrow_right: https://github.com/InseeFrLab/extraction-comptes-sociaux --- ## Pipeline d'extraction 1) Récupération du document PDF 2) Identification de la page sur laquelle figure le tableau des filiales et participations 3) Extraction du tableau 4) Nettoyage du tableau --- ## Récupération du document PDF - Utilisation de l'API de l'INPI - Code non encore implémenté en Python - Changements dans l'offre de l'INPI --- ## Identification de la page - Pour chaque page du document, récupération du texte : - Pour les PDF *numériques*, on récupère le texte directement - Pour les *scans*, utilisation de Tesseract pour la reconnaissance de caractères - Modèle RandomForest : prend une page en entrée et renvoie une probabilité que la page contienne un tableau - Pour un document, probabilité de sortie la plus élevée si elle dépasse un certain seuil --- ## Extraction du tableau ### Pour les *scans* 1) Pre-processing de l'image 2) Segmentation de l'image (`TableNet`) :arrow_right: masques qui repèrent l'emplacement des tableaux et colonnes 3) Post-processing des masques 4) Reconnaissance de caractères (`Tesseract`) 5) Alignement des contenus de chaque colonne --- ## Extraction du tableau ### Pour les PDF *numériques* - Utilisation de librairies open-source pour l'extraction de tableaux - Si l'extraction ne fonctionne pas possibilité de repérer le tableau à l'aide de `TableNet` --- ## Environnement de travail - SSP Cloud : plateforme Cloud de data science - Données sur un espace de stockage facilement accessible - Entraînement des modèles : MLflow - API déployée sur le SSP Cloud

{"metaMigratedAt":"2023-06-17T20:01:42.659Z","metaMigratedFrom":"YAML","title":"Extraction des tableaux filiales et participations","breaks":true,"description":"View the slide with \"Slide Mode\".","slideOptions":"{\"theme\":\"white\"}","contributors":"[{\"id\":\"0f18315e-7fb2-4ab0-a2e3-78c397673052\",\"add\":4501,\"del\":2615}]"}

264 views