Extraction des informations contennues dans les annuaires ; stratégies et indicateurs de mesure de la qualité des données.

--- title: Extraction des informations contennues dans les annuaires ; stratégies et indicateurs de mesure de la qualité des données. tags: SoDUCo, Annuaires --- Rédacteurs : Julie Gravier & Pascal Cristofoli # Travail en cours : ## Réunion EPITA 08/07/2022 Présents: Julie, Nathalie, Solen, Edwin, Joseph, Bertrand, Pascal ### Objectif 10 novembre : un jeu de données utilisable au format Json avec un outil simple de visualisation et de recherche et les exports qui vont bien Cela fait office de livrable pour l'ANR. L'idée est de pouvoir "montrer" simplment le résultat du travail et de créditer le travail réalisé. Publication du jeu de donnée en JSON Périmètre : listes alphabétiques Base JSON actuels (20/06/2022): Mises à jour successives issus de plusieurs traitements (sur le ftp ign): - géocodage (Bertrand). - intégration des métadonnées des listes (Julie) - intégration de métadonnées calculées permettant de juger de la qualité des entrées (Julie) - intégration de métadonnées liées au traitement des images (Edwin & Joseph). Une interface simple de visualisation: - Par page -- Affichage image originale -- Affichage données extraites et traitées (NLP, Geocodage) -- Visualisation cartographique -- export CSV/TEI - Par de recherche simple -- par nom -- par profession -- par rue ### Meta-données à intégrer dans les Json : Meta-données d'une liste, d'une page, d'une entrée *Question : Pertinence d'un numéro d'entrée ?* #### Informations utiles à intégrer (?) - type de liste (Listnom ; listprofs ; listrues ) - Nom de la liste (lien avec description Wiki) - périmètre (liste globale - liste particulière, avec description) - hiérarchie : nom fichier / nom ouvrage / série / collection - ark ouvrage - Année ouvrage ? - ark : lien vers la page (gallica) : suppose le calcul du numéro de la vue dans gallica (avec un attribut de l'ouvrage : décallage vues pdf - vues gallica) - entrée multi-ligne (o/n) - entrée avec plusieurs triplets (?) ou traitement post - matadonnées calculées (?) : nombre de colonnes, nombre d'entrées par page, nombre d'entrées géocodées - Date du traitement d'extraction, Nom de l'OCR, version modèle NER... - version des données - Date du géocodage et identifiant de chaque élément pour une entrée selon l'ordre d'apparition - Crédit - citation Soduco ### Affichage web simple (cf stratégie 6): L'image originale + métadonnées associées à l'image + visualisation des données extraites + export multi format. - Objet représenté : une page -- Lien vers la page gallica associée (cf. metadonnées) -- Affichage dans TEI Publisher (?) - supose un dépot données (V0) - Script transfo Json => Export XLM-TEI => Export CSV ### Listes professionnelles / Listes alphabétiques Intérêt de disposer des catagories d'activités : Titre 1 et Titre 2 des listes ### Gestion des liens entre les données: #### Liens avec l'entrepôt SoDUCo ? Entreposage des versions pdf des ouvrages et des metadonnées associées Entreposage des données de contrôle Entreposage des données de saisie manuelle #### Liens avec le Wiki - Description détaillée des séries et des collections d'ouvrages - Description des types de listes et des listes différentes ## Documents liés au groupe Soduco-annuaires : [2022/06/20-Réunion Soduco-Bnf](https://hackmd.io/lYJydh7yQ5umzEvvo0VYaw) ; Inventaire annuaire, Bilan au 20 juin: [Inventaire](https://fr.overleaf.com/project/613b56dfa0a5df70c42d28ee) et [Tableau synthéique](https://fr.overleaf.com/project/615d87b65fba99f4badc6cc4) [2022/05/09 - Reunion prépa Journée 2 Soduco-BnF sur les annuaires](https://hackmd.io/BBjXFQfIQoO2MwHvXqj1dw) ; [2020/10/01-Atelier Annuaire](https://hackmd.io/SOfDrnGPRR61E9bob9afKQ) ; [2019/02/08-Réunion Annuaires](https://hackmd.io/DmgqqQVrQuiRipSBbaO95w) Recensement des [présences-vacances](https://hackmd.io/spVTPV2RQ4-90P4_F5pVJA) des membres du groupe soduco jusqu'au 10 novembre. ## Todo - Finir saisie population des quartiers parisiens + ajout autres informations (pascal & Julie) - mise à jour du fichier de recensement des listes (pascal) - Notamment lien gallica - Sortie "agens de change" - Mise à jour du site Web (mail Nathalie du 4 juillet) - Exports "ensemble professionnel" -- script ? -- extraire les numéros (card) ; intérêt de juger de la qualité de lecture des chiffres - Pages erronnées dans les listes alphabétiques -- Fort % d'entrées multiples ou d'entrées multilignes. -- Question des retours à la ligne # Les stratégies de controle de la "qualité" des extractions d'annuaires ## Quelles informations ? Quels indicateurs ? Idée: juger de la qualité des versions numériques des ouvrages pdf, de l’OCR, du NLP, de la reconnaissance des colonnes, boites/entrées Une source pour discuter de la typographie. Repérer des pages similaires entre 2 volumes successifs d’une collection donnée ? (cf travail sur la typographie) ## Stratégie 1 : Analyse de la structure des pages et des entrées ### Métadonnées issues du traitement des images - Tableau de la "qualité des ouvrages numériques" (Jospeh et Edwin) - Comparaison du nombre de colonnes détectées / au nombre de colonnes attendues dans la liste d'annuaire considéré. Autres idées ? - Comparaison du nombre de pages, nombre de caractères, nombre d'adresses avec le tableau fait par Bottin & Didot. ### Le nombre d'entrées par page La variabilité dans un même annuaire en tenant compte des types de liste (alphabétique, par rue, par profession). Dit autrement, idem que **point extraction d'Edwin du 20 juin 2022** (voir : https://cloud.lrde.epita.fr/s/ekRt5MbE5KHbHDd) mais différentiation selon les types de liste ![](https://i.imgur.com/JrXUftG.png) > possibilité pour les listes de profession d'étudier la variabilité en tenant compte du nombre de "title level 2" assez fortement dans le nombre de noms/rue/numéro que l'on pouvait mettre dans une page. Joseph: et regarder aussi la longueur des descriptions. ### Les entrées des listes alphabétiques et de professions | Type liste | Type validation | Entrées valides | Entrées | % | | -------- | -------- |-------- | -------- |-------- | | Noms | Nom/activité/rue/numéro | 5082615 | 7498288 |67.8| | Noms | Nom/activité/rue | 5881421 | 7498288 |78.4| | Professions | Nom/rue/numéro | 1551692 | 2326730 |66.7| | Professions | Nom/rue | 1693256 | 2326730 |72.7| ### Les entrées des listes alphabétiques #### Statistique de l'occurence de triplets dans les listes alphabétiques | Type | Signification | | -------- | -------- | | triplet adresse | existe 1 et 1 seul tag de \<PER>,\<ACT>,\<LOC> et \<CARDINAL> | |triplet adresse décomposable|existe le même nombre de tags de \<PER>,\<ACT>,\<LOC> et \<CARDINAL> et le nombre est différent de 1| |triplet rue |existe 1 et 1 seul tag de \<PER>,\<ACT> et \<LOC>| |triplet rue décomposable|existe le même nombre de tags de \<PER>,\<ACT> et \<LOC> et le nombre est différent de 1| |pas triplet|tous les autres cas| ![](https://i.imgur.com/xyHSVzw.png) ##### Remarque : penser à regarder dans le détail le début du siècle Vérifier les résultats sur ouvrage de bonne qualité du début du siècle : *Favre_et_Duchesne_1798* (?) et les almanachs du commerce Duverneuil et la Tynna, La Tyna et Bottin de bonne résolution (*Duverneuil_et_La_Tynna_1801 (?), Duverneuil_et_La_Tynna_1805 (?), La_Tynna_1813 (?) Bottin1_1827, Bottin1_1837*) #### Indicateur "Pages avec extraction image non valide" Un indicateur de la qualité de l'extraction image des entrées dans une page (cas des listes alphabéthiques) Idée : Repérer et compter les pages avec une faible quantité d'entrées valides pour juger de la qualité du traitement des images (avant décomposition des entrées multiples distinguées par le NLP). - "Entrées images valides" = Triplet adresses + triplet rues - "Entrées images invalides" : triplets décomposables + Pas de triplet (entrées vides ou autres cas) Repérer les pages où il existe un écart important du nombre d'entrées valides à la moyenne du nombre d'entrées par pages sur la liste considérée (ou sur la moyenne des entrées par pages sur l'ensemble des listes de même nature). - Statistique par liste - Liste des pages incriminées ##### Question: Pour le calcul de la moyenne, faut-il enlever la première et la dernière page de la liste (potentiellement tronquées)? ##### Question: Faut-il distinguer les entrées en début ou fin de page/colonne ? - Entrées potentiellement tronquées (mais dans ce cas, c'est normal). Peut être pas fréquent dans les listes alphabétiques. - Intérêt pour un post-traitement possible ensuite ? ##### Question: Faut-il gérer des exceptions dans les types de listes pour signaler et conserver en mémoire les pages "problématiques": Il peut exister des pages relevant d'un type de liste, mais qui ne respectent pas la structure classsique des informations attendues (exemple: pages concernant les omnibus dans les listes de professions) : Pages à extraire en amont du traitement (exceptions) ? Dans les listes : travailler cette question en faisant la liste des pages à soustraire à l'analyse, au moins dans les années choisies par Julie. ## Stratégie 2 : Etudier la redondance des informations. Calculable uniquement si traitement global ### Dimensions de l'étude de la redondance - Notions : -- **entrées stables** : entrées présentes l'année précédente et l'année suivante -- **entrées fréquentes** : entrées apparaissant de nombreuses fois, même si il n'y a pas de continuité temporelle - Etude de 2 types d'entrées : -- Entrée originale (Raw) -- Entrée après NLP - Compraisons: -- comparaisons strictes Raw -- comparaisons sur la base de fortes proximités -- comparaison même triplets ### Type d'indicateurs - Indicateurs locaux (au niveau du tag) / cf. dictionnaires - Indicateurs locaux (au niveau de l'entrée): Qualité de l'entrée (avec prédécesseur et successeurs) - Indicateurs régional pour juger de la qualité de l'extraction d'une page d'annuaire : % d'entrées stables - Indicateurs globaux pour juger de la qualité de l'extracation d'un annuaire : % d'entrées strictement similaires (Raw et/ou avec NLP) ### Redondance entre les listes d'un même ouvrage: #### Un rue témoin (à partir de 1845) Comparaison : - Entrées de cette rue issues de la liste alphabétique - Entrées de cette rue issues de la liste des professions - Entrées de cette rue issues de la liste des rues ## Stratégie 3 : Avoir un corpus référent sur l'ensemble du siècle : Où sont les agents de changes ? But: comparer un traitement en masse des listes de noms à un corpus restreint et connu existant sur tout le siècle et qui est susceptible d'apparaître aux quatre coins des listes alphabétiques : - corpus des agents de change, un office soumis à un numérus clausus (contenant moins d'une centaine de noms par an, le plus souvent 60) avec un faible taux de turn-over. *La profession est rétablie, après sa suppression à la révolution, par la loi du19 mars 1801 (28 ventôse an IX), sous le Consulat de Napoléon Bonaparte. Le Code du commerce de 1807 donne à la profession le statut définitif qu'elle conservera jusqu'en 1987, établissant que les agents de change, « ayant seuls le droit de faire les négociations des effets publics et autres susceptibles d'être cotés », bénéficient donc de nouveau d'une situation de monopole sur l'intermédiation boursière.* Pour une histoire de cette activité : Thiveaud Jean-Marie. "Égalité et privilège : le monopole des Agents de change (1305-1987)". In: *Revue d'économie financière*, n°3, 1987. La crise financière , sous la direction de Christian de Boissieu et Yves Ullmo. pp. 105-109. DOI : https://www.persee.fr/doc/ecofi_0987-3368_1987_num_3_3_1531 Cf. aussi : https://fr.wikipedia.org/wiki/Agents_de_change_en_France - Le tableau de référence annuel des agents de change reste à constituer à partir de 3 sources : -- en partant des données issues de l'exploitation en masse -- des pages "agents de change" des listes professionnelles des annuaires -- d'un ouvrage spécifique publié en 1902 qui propose des listes annuelles: *Listes des agents de change, banque, finance et commerce de Paris, suivant l'ordre d'ancienneté, 1684-1902.* https://gallica.bnf.fr/ark:/12148/bpt6k94742n ![](https://i.imgur.com/NSj7rEX.png) (*il faut sans doute aussi distinguer les deux types de liste*) - Possibilité: prendre en compte d'autres activités, par exemple les courtiers dont le nombre est limité à certains moments (c'est explicité dans le Didot 1855 par exemple à la liste des professions et absents dans le Didot-Bottin de 1885). ## Stratégie 4 : Comparaison des entrées avec des saisies manuelles Soduco: Ensemble des pages traitées manuellement à partir de l'Annotator comparées au résultat d'un traitement en masse. Suppose la maintenance et l'adaptation du formats des JSON saisis manuellement. ## Stratégie 5 : Comparaison des entrées avec des listes pré-existantes: Ici, il s'agit : - de pouvoir mesurer la qualité des extractions en comparant à des saisies existantes. - mais aussi de se poser la question du contenu et des limites des annuaires sur des espaces particuliers en comparant avec d'autre sources plus spécialisées que celle des annuaires (listes généralistes) ### Listes professionnelles LaDéHiS 1818, 1835, 1851 ### Listes des médecins: [Document de travail médecins](https://hackmd.io/lYpC-ImRQvOvGIY_sZMQtA) ### Liste des libraires ### Marchands de tableaux ?? ## Stratégie 6 : Juger de la qualité du traitement SoDUCo en regardant une page dans le détail. Idée: avoir un outil permettant de contextualiser et de voir la page originale et le résultats des procédures Soduco à partir du Json ? (Edwin & Jospeh : Attention ! les phases de modification de l'image originale ne sont pas conservées dans la pipeline Annotator, donc impossible de voir les blocs dans l'image) ### Prévoir un module de sélection d'une page d'annuaire donné. Recherche d'une page selon différents critères: - année - d'une collection, d'une série ou d'un ouvrage particulier - page - la présence d'un nom - la présence d'une activité - la présence d'une rue (+ card ?) ### Resultat/affichage: - Tableau CSV - Données Json - Visualisation cartographique avec fond cartographique de l'époque ? ## Stratégie 7 : Approche par dictionnaire. Idée: compararer les dictionnaires de rues, de noms, d'activité et noter les différences notables dans la variablité et les fréquences des occurences entre deux années successives.