## Tour de table
- Raphaëlle
- Claire (temporaire), SCD service aux chercheurs, BU sciences & techniques
- Gaëtan, doctorant, gros jeux de données, prix des logements (usage de données de transactions immobilières, 5 millions)
- Alexandre, ingénieur support calcul scientifique au Coria, simulation HPC post-traitement de gros volume de données (au de 100 Go), expérimental - caméra haute résolution haute fréquence
- Hélène, MCF ufr sciences et techniques, chimie, analyse spectrométrie de masse, beaucoup de données en "sciences omiques" (protéo etc.), organiques et minéraux etc., gros volumes de données et post-traitement
## Jeu de donnée "Quanti"
- un titre (obligatoire)
- croisement de transactions foncières et de données communales
- un sigle (facultatif)
- DVFcom
- une description (obligatoire)
- données des transactions foncières de type habitat en France aggrégées au niveau communal à partir des données de DVF 2017-2024 & données INSEE : prix médian, commune, variables INSEE
- méthode d'aggrégation spatiale et temporelle
- type de données : cartographique, table
- format de données : objets géographiques (dont gpkg)
- une licence (facultative)
- Licence Ouverte / Open Licence version 2.0
- une fréquence de mise à jour (obligatoire)
- bi-annuelle pendant la durée de la thèse
- une date de dernière mise à jour (facultative)
- date de publication du data-paper associé
- des mots-clefs (facultatifs)
- prix de logements
- prix du foncier de type habitat
- aires urbaines, espaces ruraux habités
- transactions foncières appartement et maison
- emplacement d'habitation
- un intervalle de couverture temporelle
- **données brutes utilisées (publiques)** disponibles sur les cinq dernières années "glissantes"
- collecte et enregistrement des **données brutes publiques utilisées** la durée de la thèse
- données brutes de 2017-2023 (2024 à venir)
- granularité temporelle : aggrégation par année ou par semestre (possible) & question de la fiabilité / suffisamment de données pour qualifier le bruit et **corriger** les données brutes
- une zone de couverture spatiale :
- toute la France, ensemble des communes françaises dont outre-mer sauf exception
- aires urbaines
- un niveau de granularité spatiale :
- choix d'un **niveau d'aggrégation** de la question de la transaction foncière
- choix d'une **maille communale** : : question écologique / parcimonie ? & échelle administrative connue & modalités de visualisation avec d'autres variables (proximité de la mer etc.)
- est-ce possible d'organiser "par voie hiérarchique (ordre de grandeur)/de résolution (haute ou basse)/ou scalaire (échelles)" de la donnée au sein du format de fichiers ?
## Cas particulier des jeux de données massives
de plusieurs Go à 50 Mo environ
## questions
- IA pour le traitement de données massives
- stockage pendant le déroulé du traitement : local, sur le serveur du labo, partagé etc.
- anonymisation lors de l'aggrégation
- méthodologies & hypothèses de traitement, et interprétation