# Peuplement de l'ontologie Pegazus - Cadastre Pegazus : Perpetual Gazetteer of approach-address UtteranceS Dossier cloud : https://cloud.univ-eiffel.fr/f/13297863 Données : https://docs.google.com/spreadsheets/d/1I5Iy_sSkPHP_hcMSNP5uNXh6lLaVKuJtE3nlpzjQRqs/edit Git-Hub : *à créer ?* ## Zone d'étude La zone d'étude se situe dans le Nord-Est de Gentilly (jusqu'à 1860). Cette partie de la commune est annexée à Paris en 1860. Sur le cadastre de 1810, elle compte 15 parcelles (probablement 16, il y a un 224bis mentionné dans les registres mais le numéro n'apparaît pas sur le plan). ![zone-1810](https://hackmd.io/_uploads/BkM02CpQA.png) Sur le cadastre établi vers 1847, il y a 120 parcelles. ![zone-1848](https://hackmd.io/_uploads/ByMRh0p70.png) A noter que le cadastre de 1810 a été utilisé pour matérialisé les zones limitrophes de Paris dans le plan de Jacoubet. ![jacoubet](https://hackmd.io/_uploads/BkljTRTQA.png) ## Sources * Plans parcelllaires de Gentilly (1810 et v.1847) * Matrices cadastrales de Gentilly entre 1810 et 1860 ? A voir aux archives nationales pour les **états de sections** ### Détail des matrices #### MAT 1813 - Type : Matrice des propriétés bâties et non bâties antérieure créée avant 1822 - Suit immédiatement l'état de section - Numérotation du plan de 1810 - Matrice la plus complexe du point de vue des recherches à la main: - Consulter toutes les pages pour voir si un des numéros de la liste est présent - Pages / Folios / Compte fonciers - Une page contient plusieurs "Articles" (=folios) - Un article correspond à un compte foncier à un instant/période T - Un propriétaire peut donc avoir plusieurs articles sucessifs dans cette matrice - Il y a des folios pour les propriétés non bâties et pour les propriétés bâties (deux impôts différents) - Les propriétés bâties apparaissent quand même dans la partie de la matrice dédiée aux propriétés non bâties (pour imposer la surface foncière correspondant à un élément bâti) #### MAT 1836 - Type : Matrice des propriétés foncières créée après 1822 et avant 1882 - Suit immédiatement la matrice de 1813 - Numérotation du plan de 1810 - Pages / Folios / Compte fonciers: - Spécificité : les folios contenant des - même numérotation que dans la matrice précédente - les folios contiennent les propriétés bâties (1 à 540) et non bâties (à partir de 541) - il y a une liste alphabétique pour les propriétés bâties et une pour les propriétés non bâties - les parcelles bâties sont classées par rues (index en début de matrice) puis par propriétaires (plus simple à chercher à priori). Un propriétaire peut donc avoir plusieurs folios en même temps ??? - les folios des parcelles non bâties sont classés dans l'ordre alphabétique - Table de correspondance entre les propriétaires de la matrice précédente encore valides à la clôture à réaliser, puis les chercher dans la table alphabétique. - Possible de retourner chercher des propriétaires trouvés dans cette matrice pour les parcelles d'inté^ret dans la matrice précédente (pour combler les manquants) - les colonnes dates sont beaucoup plus propres - MAT 1848 : - nouveau cadastre = nouveaux numéros choisir les numéros sur le plan et les chercher dans la matrice - commence par un index alphabétique des rues de la matrice (correspondance rue et numéro de folio). En pratique, ne semple pas très utilisable pour chercher les folios (renumérotation ultérieure des CF ???). - contient une table alphabétique des propriétaires - un numéro de folio correspond globalement à une rue (avec des mélanges) dans la première cote 3P259 - plusieurs structures de pré-imprimés (1 dans 3P259, X dans 3P260) - ~~3P260 / 3P261 incomplètes pour la partie passée à Paris en 1860 (contiennent uniquement les sections restées à Gentilly).~~ Erreur dans les métadonnées des cotes d'archives : Matrice 1848 à 1860 : 3P260, 3P263-3P266 - Aller voir la série E aux archives ? => rien dans la série E ??? Correspondance fin 1836 = début 1848 ??? ## Méthode 1. Extraire les états de parcelles sous la forme de tableau. Une ligne = 1 état. 2. Créer les instances et les structurer en RDF * sources * folios * comptes fonciers * propriétaires * NB : les natures sont déjà créées et représentées sous la forme de skos concepts 4. Annoter sémantiquement le tableau pour créer des triplets d'un modèle simplifié "à plat" (1 resource = 1 état de parcelle) 5. Enoncer des règles qui permettent de raisonner sur le modèle à plat pour : * Remettre les parcelles dans l'ordre * Identifier les évènements et les changements Output : graphe final ### Tableaux et annotation sémantique Deux cadastres : * 1813-1847 (15/16 parcelles en 1810) * 1848-1860 (120 parcelles) Trois matrices : * MAT_1813 (CAD1) * MAT_1836 (CAD1) * MAT_1848 (CAD2) Structure des tables : | Colonne | Description | 1813 | 1836 | 1848 | Column Type | Column Property | | -------- | ----------- | ---- | ---- | ---- | ----------- | --------------- | | ID | Ordre de saisie des lignes dans la matrice|X|X|X||| |Type_CF|Type de compte foncier d'un est issu l'état de parcelle (ne pas utiliser ceux de 1813 ?)|X|X|X| |Num_Folio|Numéro de folio associé au compte foncier|X|X|X||| |Groupe CF|Numéro attribué à un groupe "Propriétaire.s+Etat.s de parcelles"||X|X|| |Ordre de lecture|Ordre de la ligne dans le compte foncier (pour remplacer les coordonnées qui seraient obtenues en sortie du modèle)|X|X|X||| |Image|Cote de la page numérisée d'où est extraite l'information|X|X|X||| |Section_clean|Lettre de la section (idem déjà interprétés)|X|X|X||| |Parcelle_clean|Identifiant de la parcelle (idem déjà interprétés)|X|X|X||| |Lieu-dit_transcript|Valeur transcripte de la colonne relative au lieu-dit/localisation de la parcelle (transcript = DAN OUTPUT)|X|X|X||| |Lieu-dit_clean|Lieu-dit/localisation (idem interprétés)|X|X|X||| |Propriétaire(s)|Propriétaires associés au compte foncier |Nature_transcript|Nature de la parcelle. Valeur lue et transcrite dans la page)|X|X|X||| |Nature_clean|Nature de la parcelle (idem interprétés) |X|X|X||| |Date entrée|Date de début de validité de la ligne (idem interprétés)|officieux|X|X||| |Date sortie|Date de fin de validité de la ligne (idem interprétés)|officieux|X|X|||||| |Tiré de |Compte.s foncier.s où se trouve la précédente mention de la parcelle (idem interprétés)|X|X|X||| |Porté à |Compte.s foncier.s où se trouve la mention suivante de la parcelle (idem interprétés)|X|X|X||| |Ligne barrée ? |La ligne de tableau est-elle rayée ?|X|X|X||| |CF rayé ? |Le compte foncier est-il entière barré ?|X|X|X|| |Spécification |Commentaires divers|X|X|X|| |Commentaire |Commentaires divers|X|X|X|| |Cote liée|Cote liée|X|X|X|| ## URIs ### Adresses ``` http://rdf.geohistoricaldata.org/def/address# ``` ### Cadastre ``` http://data.ign.fr/def/cadastre# ``` ### URI Landmarks #### Parcelles **Modèle final** L'identité d'une parcelle change : - s'il y a subdivision d'une parcelle AVEC une mutation de propriétaire ; - s'il y a une fusion de parcelles ; - s'il y a un changement d'identifiant (numéro/section/commune). L'URI d'une parcelle est : ``` http://data.ign.fr/id/plot/{NUMDEPT}_{NOM_COMM}_{DATE_PLAN}_{LETTRE_SECTION}_{ID_PARCELLE}_{ID_SUB_PARCELLE} ``` avec - NUMDEPT : numéro du département actuel - NOM_COMM : nom de la commune (de l'époque) - DATE_PLAN : date du plan ou de la version de cadastre dans laquelle la parcelle existe avec cette identité - LETTRE_SECTION : lettre identifiant la section - ID_PARCELLE : identifiant de la parcelle - ID_SUB_PARCELLE : identifiant d'une subdivision de la parcelle (créé automatiquement) Remarque : créer des URI pour les entités gégraphiques administratives et cadastrales ? **Modèle intermédiaire** ``` http://data.ign.fr/id/plot/{NUMDEPT}_{NOM_COMM}_{DATE_PLAN}_{LETTRE_SECTION}_{ID_PARCELLE}_{ID_SUB_PARCELLE}_{UUID} ``` - UUID : identifier chaque état indépendament Remarque : la suppression de l'UUID final permet d'accéder à l'URI de la parcelle #### Landmarks de type ``` http://data.ign.fr/id/landmark/{UUID} ``` ### URI Contribuable L'identité d'un propriétaire est définie par son nom de famille (personne physique) ou sa raison sociale (personne morale) ainsi que par ses différentes propriétés. En cas d'ambiguité entre deux mentions de propriétaires similaire, il est préférable de créer deux propriétaires et d'établir un lien de potentielle équivalence entre eux. ``` http://data.ign.fr/id/taxpayer/{UUID} ``` ### URI Source Pour les registres ``` http://data.ign.fr/id/source/{NUM_DEPT_ARCHIVES}_{COMM}_{ID/COTE/UUID} ``` ## DONE * Séparer la partie cadastre de la partie adresse (deux fichiers/uris différents) :+1: * Importer la partie adresse dans la partie cadastre :+1: ## TODO * Ajouter la gestion de la filiation des objets (parent/child) dans l'ontologie *(comment ???)* * Regarder la thèse de Bertrand * TSN, HHT, doctorante Strasbourg * Créer les skosConcept suivants : * Attributs spécifiques au cadastre :+1: * Evénements (typologie, changements associés) ➡ * Changements : *implicite* :+1: * Natures :+1: * Sources :+1: * Natures de classes/types de documents/zones associées à un mécanisme automatique :+1: * Créer les instances RDF des classes suivantes : * Initialiser les sources :+1: * Initialiser les folios ➡ * Initialiser les propriétaires ➡ * Initialiser les états de parcelles * Aller aux archives pour les états de sections : *a propri plutôt des plans* Implique : * Nettoyer les idems = à la main pour ce papier (reste les lieux-dits à finir) * Tester d'utiliser Chat GPT (ou autre modèle) pour structurer les propriétaires ➡ * Test plutôt concluant avec MISTRAL : https://chat.mistral.ai/chat/42a50e0f-0cb1-4770-b1a0-2f0d9eb81109 * Tester LibPostale pour structurer les adresses vs. LLM * Lister les règles qui permettent de structurer les objets selon le modèle final de l'ontologie ## Typologie des événements - Mutation de propriétaire/usufruitiers (*difficile à différencier*) suite à une vente/sucession - Modification de la nature de la parcelle - Changement de nature (non bâti) - Création d'une nouvelle construction - Evolution d'une construction - Augmentation - Diminution - Démolition - En ruines - Fusion de parcelles - Division d'une parcelle - Création d'une version de cadastre - Fin de validité d'une version de cadastre - Création d'un document cadastral *S'applique à : plan, états de sections, matrice* - Ouverture d'une matrice - Fermeture d'une matrice | Evénement | Type de changement | Element concerné | | ----------------------- | -------------------|---------------- | | Mutation de propriétaire | AttributeChange|ParcelOwnerAttribute| |Modification de la nature de la parcelle|AttributeChange|ParcelNatureAttribute| ## Comment ordonner les états de parcelles ? * Traiter les matrices dans l'ordre chronologique * Pour un identifiant de parcelle dans une matrice : 1. Chercher tous les états où la case "Tiré de" est vide ? (correspond à l'initilisation de la parcelle) * Pour la première matrice, en cas de doublons ? * Dates ? * Propriétaires ? * Pour les matrices suivantes : ambiguité avec les subdivisions ? 2. Regarder la valeur de la colonne "Porté à" (itérativement): * Vide : * la parcelle n'a pas évolué pendant le temps de validié de la matrice ? * Non vide : * Numéro (1..*) : comptes fonciers suivants * Même numéro : regarder l'ordre des états de cette parcelle dans la page * Numéro différents : regarder les états de la parcelle dans le folio correspondant 3. Etape de vérification : est-ce que tous les états associés à un identifiant de parcelles ont été réordonnés ? ## Etat de l'art ### Historique #### Travaux de Virginie Capizzi (2004-2010) http://crh.ehess.fr/index.php?546 - Virginie Capizzi, « Les recompositions foncières dans une commune coupée par les fortifications de Paris », Histoire & mesure [En ligne], XIX - 3/4 | 2004, mis en ligne le 03 décembre 2007, consulté le 17 avril 2024. URL : http://journals.openedition.org.bnf.idm.oclc.org/histoiremesure/765 ; DOI : https://doi-org.bnf.idm.oclc.org/10.4000/histoiremesure.765 - CAPIZZI, Virginie. Le mur en trop : Les fortifications ou la redéfinition d’une « petite banlieue » en discordance In : Agrandir Paris (1860-1970) [en ligne]. Paris : Éditions de la Sorbonne, 2012. Disponible sur Internet : <http://books.openedition.org/psorbonne/2383>. ISBN : 978-2-85944-864-6. DOI : https://doi.org/10.4000/books.psorbonne.2383. - CAPIZZI, Virginie. Le cadastre « à la traîne » ? Valeur fiscale et marchande des biens à Gentilly, commune de banlieue parisienne en croissance à l’ombre des fortifs (1836-1865) In : La mesure cadastrale : Estimer la valeur du foncier [en ligne]. Rennes : Presses universitaires de Rennes, 2012. Disponible sur Internet : <http://books.openedition.org/pur/113628>. ISBN : 978-2-7535-6864-8. DOI : https://doi.org/10.4000/books.pur.113628. ### Ontologie #### Construction * Peroni, SAMOD #### Ontologies existantes **Entités géographiques** * TSN * HHT => voir la gestion de la filiation des objets * INSEE * GEOFLA * Adresses (Charly) **Sources** * Rico #### Modularisation * Maxime Lefrançois, Raúl García-Castro, María Poveda-Villalón, Omar Qawasmeh. Apports des méthodologies et techniques de développement logiciel pour l'ingénierie des ontologies: Retour d'expérience des contributions au développement de l'ontologie ETSI SAREF. Journées Francophones d’Ingénierie des Connaissances, Jun 2022, Saint-Etienne, France. ⟨hal-03819820⟩ https://cnrs.hal.science/ISCOD-ENSMSE/hal-03819820v1 * Bezerra, Camila, Frederico Luiz Gonçalves de Freitas, Jérôme Euzenat and Antoine Zimmermann. “An approach for ontology modularization.” (2009). https://www.emse.fr/~zimmermann/Papers/colibri2009.pdf ### Annotation sémantique de tables * Thèse de Jixiong Liu https://theses.hal.science/tel-04444841 * Article Liu et al. ### Construction de graphes * Solenn Tual, Nathalie Abadie, Bertrand Duménieu, J Chazalon, Edwin Carlinet. Création d'un graphe de connaissances géohistorique à partir d'annuaires du commerce parisien du 19 ème siècle: application aux métiers de la photographie. 34es Journées francophones d'Ingénierie des Connaissances (IC 2023) @ Plate-Forme Intelligence Artificielle (PFIA 2023), Jul 2023, Strasbourg, France. ⟨hal-04121643v2⟩ * Thèse d'Helen ### Annotation pour DAN * SOCFACE // Fiches de prisonniers de la Croix Rouge (TEKLIA) ## Questions pour la prochaine réunion * Etat de l'art !!!!! * Adresses / Cadastre * Publication de gazetiers sur le web * Ontologies existantes : TSN, HHT, INSEE * Sources : Melvin * Méthodes de construction de graphes * KG génériques * KG métiers (cf gazetiers sur le web) *=> Expliquer l'originalié de la méthode par rapport à l'état de l'art : * KG généralement = un snapshot * si multi-dates : HHT = données faites à la main, TSN = snapshots liés dans le temps, * Dans notre cas : pas de snaphot et pas forcément les liens temporels entre les objets non plus * Accent sur la représentation des liens temporels dans l'ontologie et sur leur création dans le KG (états <=> évènements) * Créer un dépôt pour l'ontologie ? (Versions) * Comment on structure l'ontologie et ses extensions ? modélisation des sources dans une autre fichier ? * Créer trois fichiers ? * Adresses (et concept principaux) * Cadastre * Sources * hasChild et hasParent : explicite ou implcite ? => regarde HHT * Comment différencier les types d'adresses données dans la colonne "Lieu-dit ?" => tester lib postal * Modélisation des adresses des parcelles ? - parcelle : along une voie ? - partial within / within ? comment décrire la localisation des lieux-dit dans des sections ? * URIs des Landmarks ? + Initialisation ? * UUID * Ajouter une branche dans la taxonomie des landmarks pour les entités administratives françaises ? * GEOFLA * INSEE (canton, arrondissement) ## Mémo ### Annotation des matrices * Propriétaires : * Token spécial pour séparer plusieurs propriétaires sucessifs dans la même colonne * Comment gérer le "passé à en XXXX" ? (token spécial) * Post-traitement avec LLM ??? ### Extension de l'ontologie * Dans une extension d'une ontologie existante : * Il est autorisé de créer des sous-types de classes d'une ontologie existante * Il n'est pas autorisé de créer des super-classes d'une ontologie existante * Si création de sous-classes : elles sont attachées à l'URI de l'extension, pas à celle de l'ontologie principale ### Peuplement * Plusieurs adresses possibles: * COMMUNE SECTION NUM (option la plus synthétique) * COMMUNE RUE NUM / LIEU DIT NUM * COMMUNE SECTION LIEU-DIT NUM ## Outils intéressants * [Geovistory](https://www.geovistory.org/) * [OntoMe](https://ontome.net/) * [SDHSS Semantic Data for Humanities and Social Sciences](https://ontome.net/project/8) * [Sparnatural](https://sparnatural.eu/) * Laboratory Graph DB + Chat GPT * [RAG de MISTRAL AI](https://docs.mistral.ai/guides/rag/)