## Tour de table - Raphaëlle - Claire (temporaire), SCD service aux chercheurs, BU sciences & techniques - Gaëtan, doctorant, gros jeux de données, prix des logements (usage de données de transactions immobilières, 5 millions) - Alexandre, ingénieur support calcul scientifique au Coria, simulation HPC post-traitement de gros volume de données (au de 100 Go), expérimental - caméra haute résolution haute fréquence - Hélène, MCF ufr sciences et techniques, chimie, analyse spectrométrie de masse, beaucoup de données en "sciences omiques" (protéo etc.), organiques et minéraux etc., gros volumes de données et post-traitement ## Jeu de donnée "Quanti" - un titre (obligatoire) - croisement de transactions foncières et de données communales - un sigle (facultatif) - DVFcom - une description (obligatoire) - données des transactions foncières de type habitat en France aggrégées au niveau communal à partir des données de DVF 2017-2024 & données INSEE : prix médian, commune, variables INSEE - méthode d'aggrégation spatiale et temporelle - type de données : cartographique, table - format de données : objets géographiques (dont gpkg) - une licence (facultative) - Licence Ouverte / Open Licence version 2.0 - une fréquence de mise à jour (obligatoire) - bi-annuelle pendant la durée de la thèse - une date de dernière mise à jour (facultative) - date de publication du data-paper associé - des mots-clefs (facultatifs) - prix de logements - prix du foncier de type habitat - aires urbaines, espaces ruraux habités - transactions foncières appartement et maison - emplacement d'habitation - un intervalle de couverture temporelle - **données brutes utilisées (publiques)** disponibles sur les cinq dernières années "glissantes" - collecte et enregistrement des **données brutes publiques utilisées** la durée de la thèse - données brutes de 2017-2023 (2024 à venir) - granularité temporelle : aggrégation par année ou par semestre (possible) & question de la fiabilité / suffisamment de données pour qualifier le bruit et **corriger** les données brutes - une zone de couverture spatiale : - toute la France, ensemble des communes françaises dont outre-mer sauf exception - aires urbaines - un niveau de granularité spatiale : - choix d'un **niveau d'aggrégation** de la question de la transaction foncière - choix d'une **maille communale** : : question écologique / parcimonie ? & échelle administrative connue & modalités de visualisation avec d'autres variables (proximité de la mer etc.) - est-ce possible d'organiser "par voie hiérarchique (ordre de grandeur)/de résolution (haute ou basse)/ou scalaire (échelles)" de la donnée au sein du format de fichiers ? ## Cas particulier des jeux de données massives de plusieurs Go à 50 Mo environ ## questions - IA pour le traitement de données massives - stockage pendant le déroulé du traitement : local, sur le serveur du labo, partagé etc. - anonymisation lors de l'aggrégation - méthodologies & hypothèses de traitement, et interprétation