# AR HPC et Géomatique
## CR 29/09/2025
### ODJ
- Retour TP Sagéo 2025
- Construction
- Déroulement jour J
- Enquête
- Bilan Bureau : **mercredi 1er octobre de 15h à 17h**
- Journée Lyon GDR : **26/11 après-midi, 27/11 journée**
- Presentation projet Spark/HPC : *Mattia Bunnel*
- Webinaire ?
### TP Sagéo
#### Construction
Enormément de travail pour la construction/reconstruction, test de la chaine, mais répartition dans le temps avec séance collective ( 6 à 7 séances avec [CR et prises de notes collectives](https://hackmd.io/n-rNAMSXQXmX-YiBpNYl_w) ) a bien marché :
- en Python (passage à Rasterio/Xarray, réécriture en fonctionnel, correction de bugs)
- et en R (réécriture/traduction Python en R par Nicolas R, passage en R Targets/Geotargets)
- et pour OpenMOLE, écritute du wf
On partait quasi _from scratch_ en terme de compétence sur Python/Dask et R/GeoTargets.
Enormémement de travail pour créer et finaliser [support le jour J](https://website-hpc-sageo-2025-51a8a2.gitpages.huma-num.fr/index.html), et là on était plus à l'arrache ce qui nous as conduit à faire plusieurs nocturnes et çà jusqu'à la veille du TP.
Pas mal d'échanges également avec les 2 mésocentres pour que cela fonctionne bien le jour J car kernel **R + Jupyter** était nouveau côté CRIANN.
#### Déroulement le jour J
- Nous avions bien entre 15 et 18 personnes présentes en fonction de la journée.
- De notre côté le support html (https://website-hpc-sageo-2025-51a8a2.gitpages.huma-num.fr/), les scripts et le repo (https://gitlab.huma-num.fr/ar-magis-hpc/workshops/atelier-hpc-notebooks/) étaient prêts en R, en Python, en OpenMOLE.
- Nous avons pu dérouler sans encombre le fil du TP : explication de la chaîne de traitement, fil rouge du TP, sur du Raster, d'abord en Python, puis en R.
- Côté HPC/CRIANN, sans puis avec soumission de job SLURM, tout à globalement bien marché.
- Quelques comptes qui n'arrivait pas à soumettre des jobs SLURM car les Workers étaient tués, dans une plus ou moins grande proportions. Pourtant les paramètres étaient les mêmes. A explorer.
- Et il y a eu ce soucis avec les libs du Kernel R qui disparaissait, encore plus bizarre. Idem, rien de génant, mais à explorer plus tard.
- Notre chaîne Python/Dask marchait bien, par contre côté R, même sans soumettre sur SLURM, c'était un poil plus erratique. Toutefois c'est du probablement à la lib Targets/GeoTargets utilisés pour la distribution des calculs, moins robustes et plus jeune que Dask. Bref, on peut mieux faire je pense.
- Pour la partie OpenMOLE, c'était plus compliqué, nous avons essayé de décaler dans la journée pour résoudre les problèmes, mais nous avons quand même dû nous contenter d'une présentation d'OpenMOLE et d'une description du Workflow avec ce dernier. Juste et Romain nous en diront plus mais de façon résumé :
- Il y a eu un raté du côté des VM à l'In2p3 qui devaient supporter les 20 instances, il semblerait que les ressources n'était pas suffisante avec des erreurs, des crash. Nous n'avons pas pu dérouler le TP sur Zen.
- Un problème aussi avec l'environnement python/gdal dans les containers singularity si j'ai bien compris ... peut être pas assez de ressources aussi pour les générer côté VM Openmole.
Romain et Juste ont essayé de régler çà jusqu'à la dernière minute, certaines choses ont pu être réglé mais pas toute, ce qui fait que nous avons démarré à 15h45, et il ne restait qu'une heure de TP, ce qui était de toute façon trop court.
Sans compter que le vidéo projecteur de la salle avait décidé de n'afficher aucune image en provenance de l'ordinateur de Juste R, et cela peut importe les 3 adaptateurs que nous avons essayés ....
#### Enquete
**9 répondant.e.s** à l'enquête sur **21 inscrit.e.s** :
*Discipline*
Computer vision / remote sensing
géographie quantitative et écologie urbaine
Geographie
Géographie
Géomatique appliquée à la santé-environnement
Je travaille à l’intersection du machine learning et de la géomatique.
géographie / géomatique
Télédétection, écologie du paysage, agro-écologie
Géomorphologie
*Repartition*
5 python
1 python/R/SQL
3 R
*Accès HPC*
4 Oui : ISDM MESO (Montpellier), Cap gémini _ Acces CNES; Onyxia; Humanum
5 non
*Pourquoi cette formation?*
Sujet qui m'intéresse Peu ou pas d'expérience en utilisation des HPCs
Mise en place prochaine d'une ressource HPC dans le cadre du SIVDBI
Pour une initiation et la présentation du fonctionnement du HPC en géomatique pour l'appliquer dans le contexte de ma thèse
Pour avoir un cas pratique de HPC
Pour avoir un aperçu des possibilités
Pour étudier les techniques de calcul et de parallélisation applicables à l’entraînement et à l’hyperparamétrage de modèles de deep learning.
Pour apprendre à paralléliser mon code
Pour apprendre plus sur les concepts
*Difficulté (1 facile, 5 très difficile) ?*
2 => 1 occ
3 => 3 occ
4 => 5 occ
*Durée de la formation?*
"Pas assez long" => 2 occ
"Trop long" => 1 occ
"Ok" => 1 occ
"Pas assez court" => 1 occ
"Trop court" => 3 occ
"Autre" => "Trop Court" mais ok si R/Python séparé
*Selon vous, les objectifs de la formation ont-ils été clairement formulés en début de session ?*
Oui => 8 occ
Non => 1 occ
*Quel module de la formation auriez vous souhaité voir plus développé ?*
Introduction HPC => 3 occ
Autre => 1 occ : "SLURM et passage du local au cluster"
Paralléliser avec OpenMOLE => 2 occ
Paralléliser avec R / Targets => 1 occ
Paralléliser avec Python / Dask => 2 occ
*Quel module de la formation plus utile ?*
Introduction HPC => 3 occ
Paralléliser avec R / Targets => 2 occ
Introduction de la chaine de traitement => 2 occ
Paralléliser avec OpenMOLE => 1 occ
Paralléliser avec Python / Dask => 1 occ
*Quel module de formation vous a le moins intéressé*
Introduction de la chaine de traitement => 2 occ
Paralléliser avec OpenMOLE => 3 occ
Paralléliser avec R / Targets => 3 occ
Autre => 1 occ "Pratique en Python que je ne pouvais pas faire, mais contente d'avoir eu les infos tout de même"
*Pensez-vous que la formation suivie vous a aidé à combler des lacunes ?*
Oui => 8 occ
Non => 1 occ
*La formation que vous avez suivie correspond-t-elle à ce que vous vous attendiez ?*
Oui => 8 occ
Non => 1 occ
*Est-ce que vous pensez réutiliser ce support html / site web du TP plus tard ?*
Oui => 8 occ
Non => 1 occ
*Est-ce que vous pensez partager ce support à des collègues ?*
Oui => 7 occ
Non => 2 occ
*Recommanderiez-vous cette formation à vos collègues ?*
Oui => 8 occ
Non => 1 occ
*Si vous deviez conseiller cette formation à un.e collègue, quel note entre 5 (génial) et 1 (à fuir) lui donneriez vous pour la qualifier ?*
4 => 6 occ
3 => 2 occ
*Sur quelle méthode / quel outil souhaiteriez-vous être formé·e par la suite dans le cadre d'une nouvelle formation ?*
Utilisation SLURM Bonne pratiques informatiques Docker vs singularity ?
Approfondir l'écriture du code et la transformation en fonction, un peu plus de pratique
OpenMOLE car le temps était trop réduit pour pouvoir pratiquer sur ce point
Targets, du coup :-) HPC sur des géotraitements, notamment éventuelles possibilités sous ou en lien à PostgreSQL/PostGIS (e.g. croisement de données shape France entière)
Message Passing Interface (MPI) avec python.
MIeux comprendre la configuration/le paramètrage de l'API Dask, notamment en termes d'attribution du nombre de coeurs/threads etc.
*Avez vous d'autres attentes par rapport à cette Action de Recherche HPC & Géomatique (formations ? webinaires ? etc.)*
Partage d'expériences, workshop HPC ..
Une formation plus approfondie, accessible en ligne, sous forme de webinaire ou de MOOC.
*Est-ce que vous aimeriez suivre les actualités de l'Action de Recherche via notre mailling liste (2 à 3 mails / an) ?*
Oui => 8 : simon.madec@cirad.fr, ophelie.templier@univ-eiffel.fr, nathan.gauthier@univ-angers.fr, jessica.pic@univ-ubs.fr, annabelle.sueur@lyon.unicancer.fr, auriane.chelle@alumni.univ-avignon.fr, marc.lang@toulouse-inp.fr, leo.helling@ens-lyon.fr
Non => 1
*Recontact pour la partie OpenMOLE ? *
Oui => 2 : jessica.pic@univ-ubs.fr, annabelle.sueur@lyon.unicancer.fr
*Autres commentaires ?*
Merci beaucoup pour la formation, il était très intéressant pour moi de découvrir et comprendre l'écosystème autour des HPCs, les outils / solutions / framework existants ... Ce ne doit pas être une formation facile à réaliser en une journée :) merci beaucoup !
Pas dit que je puisse me libérer pour le TP OpenMole, mais sait-on jamais !
Super formation, merci à tous.
Le contenu du support est très dense, et détaillé avec une grosse partie dédié à la chaîne de traitement. C'est intéressant mais selon moi ce n'est pas le coeur de la formation qui est plutôt la parallélisation. À ce titre, je suggérerais de passer beaucoup moins de temps sur la chaîne de traitement (qui est juste un exemple finalement) pour laisser plus de temps de manipulation et de tests. Dans cette session, nous n'avons finelement fait que copier/coller des exemples de codes.
### Spark
Spark à l'IGN
Journée juin 2023, plutot transmission de l'état de l'art en HPC, pour la production de données à l'IGN
Passer de scheduler maison hérité d'il y a 10/20 ans et dans cette journée d'étude il y avait l'idée de faire nu point sur l'état de l'art => formation réseau, collegue physique, et essayer de pousser çà plus loin pour du calcul distribué géospatial
Relancer çà cette année, plutot à l'horizon hiver 2026
Intégrer çà dans l'AR HPC pour essayer aussi de cibler le public.
On a la chance avec cette JE d'avoir un contact à l'in2p3 , julien peloton, specialiste spark astrophysique, et lui il est intéressé pour intervenir sur cette journée. Il a acces au centre de calcul donc côté ressource çà peut être intéressant.
Binding scala, R, python,SQL, extension SEDONA (ogr / gdal)
Assez dur à prendre en main car il y a beaucoup de choses
Genre d'écosystème difficile pour s'y mettre tout seul, donc c'est bien de s'organiser en formation.
Cas d'usage envisagé c'était AIS, peut être un format 3 jours avec un gros tp traitement de données AIS. On est sur du vectoriel
### Webinaire
- Remy Cresson, infra données qui s'appuient sur l'ISDN Montpellier, qui permet de faciliter aux données géospatiales. Traitement et eventuellement diffusion en ligne de produit issues de chaine de traitement. Sur la base de standard Stack, dédié à l'analyse de données Raster. => Couche HPC potentielle, idée c'est d'être transparent pour les users / https://www.stac.teledetection.fr/en/
- Maelia / HPC / OpenMOLE, portée par L'INRAE COLMAR, modèle échelle 1 territoire français, SLAM-B => PEPR / https://www.slamb.fr/actualites/post-doc-analyse-de-sensibilite-et-incertitude-irit-slam-b
- EHESS ? Analyse de texte / spatial ? (à explorer)
- Classification nuage point par IA au LASTIG / Prix thèse MAGIS [Iris De Gélis](https://scholar.google.com/citations?user=LH2QjwgAAAAJ&hl=fr)
- Lastig / Jumeau Numérique / Bénédicte
- Nicolas Ledoux / 3D HPC
- Exploration HPC => Etienne Delay / modèle HPC avec participation à la fin, participation/ redefinition des questions,
- JBFerret : Rémi travaille notamment à la mise en place d'infrastructures permettant de traiter des informations geospatiales, principalement des données type séries temporelles d'imagerie satellite et imagerie très haute
résolution. Il est le maitre d’œuvre de l'infra de données MTD
(https://www.stac.teledetection.fr/en/), qui permet d’accéder aux
données, de mettre en place des chaines de production, et/ou de publier
les résultats des chaines de traitement. Le HPC n'est pas la composante
majeure de cette infra, mais je pense que Rémi s'est pas mal penché sur
le sujet pour s'assurer une bonne intégration des ressources HPC dans le
travail qu'il a réalisé pour monter cette infrastructure. J'ai proposé à Remi de nous proposer une date courant 2026 pour
présenter un webinaire.
# ---- ARCHIVE ----
Option de questionnaire :
- https://www.kobotoolbox.org/
compte à utiliser par tout le monde
- login : etiennedelay
- pwd : y27xhutXW7jLYWw
cobayes :
paul.chapron "atte" ign.fr
## Juin 2024
Réunion avec yousra.hamrouni à Dynafor pour organiser le webinaire.
Todo
- Contacter l'axe de Magis teledetection
## Mai 2024
TODO :
**Pour perfectionner l'enquête**
- [ ] Contacter / Questionner / Contacter les gens qui ont répondu à l'enquête pour avoir les points de friction
- [ ] Juste => Samuel et Julien
- [ ] JB => Gens du Tetis
- [ ] Seb => Faire tourner au laboratoire et peut être poser la question à Violaine Louvet (Gricad Grenoble)
- [ ] Seb => Jeter un oeil à la partie notebook dans l'enquete
- GPU Deep Learning Géo
- [ ] Juste relance car il y a du monde qui fait çà au lab
Demander aux testeur du questionnaire
1. est ce qu'ils ont compris toutes les questions
2. Comment amélioré ?Quelle questions leurs semblent manquer
:::info
Il ya quelque chose d'intéressant dans ce que J.B. dit : "rémi connait des gens au HPC" --> il faudrait s'interesser aux réseau sociaux des gens qui font du calcul => ah je vois bien là la perspectice socio technique qui nous est chère Etienne :)
:::
**Webinaire**
Proposition :
- Yousra : Jean-Baptiste la connait, elle est partante pour un webinaire en juillet.
- Rémi cresson c'est le plus à même côté Tétis de faire un retour par rapport au lien avec le mésocentre, congé pater jusqu'à septembre. En septembre ca sera plus clair aussi en terme d'infra/chaine de traitement de leur côté : Santé des forêt et bio-indicateur comme projet fédérateur a TETIS.
## Organisation d'un webinaire
15min de presentation
15 min de discussion avec un discutant
- comment est-ce qu'il font au labo
- qui a des besoin et quels sont ces besoins
- Quelle est sa place, comment elle gère les projets avec le mésocentre
Une discussion avec le public ?
Premier webinaire 1er semaine de juillet 2024
**Conférence/représentation**
JCAD 2024 : https://jcad2024.sciencesconf.org/ ?
**Atelier Sagéo 2025**
## Juin 2023
### ODJ
- Tour de table
- Sageo 2023
- Site web
- Enquete(s)
### Discussions / tour de table
- Sélinaire Big Data Matia Bunel / Laurent Caraffa 29 juin :
- Lidar & Big Data => HPC
- IGN / Labo
- Inventaire Moyen Calcul Labo fait par le LASTIG, document centralisé, état des lieux labo, visibilité sur les comptes => document Julien Perret => présentation labo
- Inventaire Infrastructures, structures, cycle de vie des données utilisées => stockage au calcul
- JCAD 2022 (Seb et Juste)
- 10 minutes d'intervention
- bons retours en général
- tentative (desespérée) du ministère de cataloguer les moyens de calcul, de façon descendente (pays->région-> departement ? ) . Adhésion limitée des gens des méso-centres
- si on veut contacter les gens : plutôt mésoNet
- machines spécifiques (e.g. vectorielle ) acquises et réparties dans les mésocentres , seront accessibles
- Contact : Arnaud Renard , pas géomaticien , mais personne pivot
=> Proposition Arnaud Renard? : Discuter avec eux pour obtenir un retour chiffré sur la géomatique
- JB Feret
- Gros volume données satellite, qté croissante, gros catalogue données public => Po données, difficile à télécharger
- Ecosystème format image optimisé calcul cloud => CLOG / ZAR => format raster ; idem pour les vecteurs : librairie STACK / Cube de données => articulation catalogue de données & chaine de traitement de façon fluide => migration vers ce type de plateforme (institutionnel ou pas?)
- les outils sont maintenant dispos pour gérer les énormes données
- earth engine (fermé), microsoft planetary computer (ouvert), usage de ces outils à MesoLR => personne ressource côté JB Feret
::: info
Idée générale : obtenir le ratio de calcul HPC pour la géomatique sur le calcul HPC global
Problème : comment detecter ce qui relève de la géomatique.
$\rightarrow$ éplucher les dossiers de demandes d'accès ?
car une fois l'accès aux noeuds/au cloud débloqués , on ne sait pas toujours les technos employées
:::
### Notebooks
Gros boulot déjà abattu par Seb dans l'autre AP du GDR MAgis
Si HumaNum nous mettait un place des notebooks comme à fait l'INSEE avec Onyxia ça serait top !
Grosse infra type https://www.data-terra.org/
- ca avance, mais pour le moment, grosse machine pour pas grand chose
- porté par une géographe mais pour le moment ca se voit pas trop au niveau des métadonnées
- orientation shs => humanum => un peu dépassé par le besoin
- Juste Raimbault
- Mission 1000€ validé Struddle à partager
### Intervenants futurs du webinaire HPC et géomatique
- JB !!! (ou un de ses collègues qu'il dénoncera)
- Didier Josselin (wildcard qui marche sur tous les sujets)
-
### TODO
- [JCAD 2023](https://jcad2023.sciencesconf.org/resource/page/id/2) À Reims, 2-4 octobre discussion avec les gens de mesocentre pour l'enquete ?
- Journée présentiel collé à Ex-modelight / 16 novembre
- Test de l'enquete HPC / Géomatique au coding camp, équipe STRUDEL !
- Parler de l'AR HPC à la journée Big Data / Lidar
- Enquete / Roadmap : 10-13 juillet alpha test pendant coding camp openmole ; envoie test strudel et collègues ; dépouillement test debut septembre ; envoie octobre.
- List intervenants 2024
## Juillet 2022
Présent :
- Aziz Diallo
- Paul Chapron
- Etienne Delay
- Juste Raimbault
- Julien Perret
- Sébastien Rey Coyrehourcq
Excusé :
- Jean Baptiste Feret
ODJ
tour de table
Journée Magis 2022 :
- Atelier journée Magis https://slides.com/sebastienreycoyrehourcq/exploration-ants-magis/edit
- Lancement de l'AR https://slides.com/sebastienreycoyrehourcq/magis-lancement/
Lien vers les supports des autres AR :
- https://cloud.univ-grenoble-alpes.fr/index.php/s/sEiKioiMxsKqgSz
Ordre du jour prévu (mail de seb du 19 mai)
- Info. Diverses
- Prochaine réunion ?
- Brainstorming enquête interne au GDR MAGIS : collecter initiatives existantes et besoins auprès des différentes AR.
- Brainstorming enquête externe: constituer un premier paysage des différents acteurs (géomaticiens, laboratoires & institutions, méso-centre) et disciplines déjà impliqués dans la géomatique et le HPC
- Discuter et programmer les interactions possibles avec le chantier transversal sur les enjeux environnementaux et géomatique décarbonée.
- Site web de l’Action de Recherche
- Brainstorming pour l’organisation du webinaire de Sageo 2023
[TOC]
# Gossip et Verbatim :
>- JB a acheté un supercalculateur qu'il a mis dans son bureau , il en avait marre de devoir nogocier / gérer les accès
>- dès que t'as besoin de GPUs, c'est complètement bouché
>-les gens du LITIS (Rouen) qui font du ML on demandé à ce qu'il y ait de la délégation de calculs de notebooks vers environnement HPC : pratique différente d'autres instituts qui eux font plutôt du script en CLI
>- quand on a pas les accès et qu'on doit faire un "petit", on fait du GoogleCollab
>-tant que tu atteins pas la limite , Google Collab te dit pas que t'es bloqué
>- la limite de google collab peut être mouvante en fonction de l'occupation : quad ils sont surchargés, ils mettent la priorité aux gens qui payent
>- les résultats sont stockés sur google drive
>- Avec google cloud engine, on paye ce qu'on consomme . On peut déployer un cluster SLURM utilisable avec OpenMOLE ensuite
>- Il ya plusieurs services offres / Google
>- Y a pas toujours les tutos pour te guider dans l'accès/déploiementdes environnement
>- K3S : genre de Kubernetes (outil de gestion de pool de machines) plus contraint pour que ça marche plus régulièrement : contraintes sur les technos (système de fichiers, frontend , proxy)
>- Il y a d'autres techno plus simples que kurbernetes e.g. elastic cluster, jtops, terraform, système de déploiement à base de fichiers de config
>- Dans notre labo on fait pas vraiment de hPC les simulations sont à l'échelle d'une machine de bureau, parfois les plans plus gros sont sur la station de travail
>- parfois on a des besoins à l'intérieur d'une seule simu qui sont très couteux (exemple de l'affectation des taxis partagés autonomes qui doivent chacun faire des gros calculs longs pour se placer dans l'espace et aller chercher les usagers du service de taxi )
>- Dans la communauté MATSIM on est plutôt : chacun sa station de travail
>- D'autres ont des petits clusters
>- Dès que tu dois gérer le multi utilisateurs il faut un slurm ou équivalent pour gérer la concurrence
>- Côté public, les interfaces sont plutôt SLURM, côté privé , c'est la jungle
>- Quand on demande de l'argent pour du temps de calcul : qu'est ce qu'on fait de l'argent ? Quand on va voir la DSI ils nous disent : c'est compliqué , car pas fléché dans la compta de la DSI.
>- Souvent l'argent d'un projet c'est one shot, on peut pas intégrer au parc mutualisé de la fac, car c'est pas suivi les années suivantes pour l'entretien, amortissement , flux (electrictié et climatisation)
>- Dès que le matériel des mesocentres n'est plus garanti, il n'est plus maintenable, et quand ça tombe en panne on ne répare pas
>-le problème de la workstation c'est le taquet de puissance et de stockage
>-hyperviseur : logiciel ou matériel qui supervise(hypervise) la répartition ressources/jobs/besoins souvent propriétaire et cher
>- les méso centre ça marche pas en Ile de France , c'est trop le bordel dans les universités
>- parfois on ne sait même pas ce qu'il y a dans nos propres locaux
>- Même quand il y a de l'argent, les instituts peuvent refuser de passer la commande avec l'argent des projets amenés par les porteurs.
>- même problème pour le stockage : il n'y a pas toujours de stockage , ou de possibilité de financer de stockage , pour de gros datasets . e.g. LASTIG 600Go : le coût est au nombre de téléchargements, si jamais le dataset a du succès c'est la ruine! . Parfois il faut trouver des solutions particulières
>- enjeu du stockage très variable selon métiers : léger en simu , énorme en télédec
>- L'archivage est souvent pas possible "on sait pas faire" , au delà d'une certaine taille. On revient toujours à la curation de données
>- "archiver pour archiver ça sert à rien" Garantir 10 ans de stockage pour de la masse , c'est trop cher et difficile
>- algo et humain pour limiter / curation de données => enjeu sur des gros volumes de données
>- les plans de gestion de données sont plus perturbés par des problématiques humaines que techniques, tout le monde s'excite là dessus , mais au final ça revient à du "c'est qui qui fait ? "
>- La gestion des données , c'est pour les jeunes , les vieux c'est fini ils ont pas le temps
>- le code et les logiciles ça prend pas de place , on a jamais le soucis de les stocker
>- Dataverse : solution "imposée" par certains instituts , qui spam les memebres d'un projet pour verser les données dans le dataverse à la fin des projets. En principe c'est pour la diffusion de données avec DOI, pas pour l'archivage au sens strict
>- VPS pour autre chose que du calcul en général ca passe dans les DSI
>- Usage de physiciens : plein de coeurs pendant longtemps, tous ensemble. Similaire à ceux de la simus, mais pas du tout les mêmes enjeux de perf: les physiciencs en sont à mesurer la distance CPU/RAM sur la carte mère
>- "Dans mon UMR, t'as le droit à 230 coeurs et c'est tout"
>- Millefeuille administratif pour le guichet ? => labo / tutelle /etc ? Quels sont les portes d'entrées calculs que vous connaissez dans votre environnement de recherche.
Formaliser l'usage
- formaliser l'usager
- formaliser la ressources
Prendre le contact des ressources/infra, visibilité projets / usages ? Différences entre les deux ? On peut avoir accès à de la ressource, et finalement le référent ne sait pas forcément ce qui passe dans le tuyeau. Projet ne sont pas forcément égaux au projet déposé
L'usage disparait quand on change de granularité côté fournisseur , ça devient une boite noire et on cherche pas à savoir ce qui se passe sur les noeuds de calcul
La même ressource peut être accéder par différents guichet : ex humanum qui accede à l'in2p3, avec un conseil scientifique; ex grille qui accede via une VO systeme complexe, etc.
Mode d'usage de calcul != mode financement != culture équipe technique
-----
# Enquête / Questions :
On fait plus un état des lieux qu'une enquete de besoin.
## Profil du répondant
- [ ] Nom Prénom Age sex Institut (optionel)
- [x] Position géographique
- [x] Statut/Profession (champ libre)
- [x] Mots clés reliés à l'activité (min 3 max 10)
- [ ] Institut du CNRS (trouver un autre intitulé) --> INE, INSU, INSI, ... (voir https://www.cnrs.fr/fr/les-instituts-du-cnrs)
- [x] Disciplines "effectives" (ressenties, positionnement, publications, ...)
- [x] Vous sentez-vous compétent·e en HPC ? : Oui/Non
- [x] Vous sentez-vous compétent·e en Géomatique ? : Oui/Non
- [x] Depuis combien d'années vous intéressez-vous au HPC ? (champ numérique)
- [x] Depuis combien d'années vous intéressez-vous à la géomatique ? (champ numérique)
- [x] Language de programmation principal pour vos calculs en géomatique (champ libre)
- [x] Système d'exploitation principal
- [x] Pensez-vous que les problématiques scientifiques en géomatique (notamment l'aspect spatial des données) induisent un besoin de HPC ?
- [x] Pensez-vous que le HPC est indispensable à votre pratique / changement qualitatif de vos résultats grace à l'HPC?
- [x] Acceptez-vous de nous communiquer votre adresse mail pour une consultation ultérieure ? (Dites oui, on est sympas ! )
- Si vous utiliser une infrastructure de calcul partagée,
- [x] Pouvez vous la nommer
- [x] Nous fournir une URL de description
- [x] Nous donner le contact de votre personne ressource sur l'infrastructure
- [ ] Fréquence d'usage du HPC
- [ ] Volume d'heures équivalent CPU estimée
- [ ] Communautées scientifiques liées au HPC connues (champ libre):
## Pratique du HPC
Déléguez vous vos calcul sur :
- [ ] une station de travail (machine locale)
- [ ] un cluster institutionnel
- [ ] une grille de calcul
- [ ] une infra de cloud computing (éventuellement préstataire : AWS, Google Cloud)
- [ ] Si vous utilisez un gestionnaire de queue, est-ce que vous pouvez nous donner le nom ?
Utilisez vous une infrastructure de calcul de niveau :
- [ ] européen (si oui laquelle): EGI, etc.
- [ ] régional (si oui laquelle) : mesocentre, etc.
- [ ] national (si oui laquelle) : jean zay, genci, cnes, etc.
- [ ] universitaire
- [ ] laboratoire
### Limitations 1
- [ ]Qu'est ce qui vous semble limitant **dans votre pratique quotidienne du HPC**
- CPU (nombres de coeurs mobilisables)
- GPU
- RAM
- Capacité de Stockage des données
- Données non déplacables / non accessible
- Accès aux infrastructures de HPC (par ex. création de comptes utilisateurs)
- Déploiement : instanciation de machine virtuelles, conteneurs, librairies, systèmes de fichier, et code métier
- Interface et monitoring : par exemple pour surveiller la charge , soumissions des jobs, état de la queue, quota disque etc.
- personnes ressources/référentes : pour valider les certificats, relancer les instances, augmenter les quotas disques, ou transmettre de telles demandes aux fournisseur
- tout celà à la fois
- [ ] Est-ce que vous êtes amené·e à être un point focale/ personne ressource sur le calcul distribué dans votre environnement de travail
- support methodologique (fournir un accompagnement et des conseils sur la méthode)
- support infrastructure (founir un accompagnement et des conseils sur les usages)
### Limitations 2
- [ ] Qu'est ce qui vous semble limitant **en général** lorsqu'on fait du HPC [dans votre environnement scientifique <- a clarifier]
cf modalités ci-dessus
## Questions transversales
### les modèles et les logiciels
- [ ] Quelle est la thématique générale des modèles que vous faites tourner ?
- [ ] champ libre, séparer par des virgules
De quel type de modèle s'agit-il ?
- [ ] modèle statistiques
- [ ] machine learning
- [ ] modèle équationnel
- [ ] modèle multi-agent
- [ ] micro-simulation
- [ ] modèle de simulation
- [ ] modèle d'optimisation
- [ ] autre (champ libre)
- [ ] Si vous avez le temps : détaillez ici les modèles et leurs enjeux
- [ ] Listez les logiciels que vous utilisez le plus souvent en lien avec du HPC ?
### L'argent
Savez-vous qui paye l'accès à des infras HPC dans votre institut ? (Oui/non)
Si oui, est-ce :
- [ ] votre institut
- [ ] vous même (projets, fonds propres)
- [ ] Autre (champ libre)
Si vous la connaissez, quelle somme est dépensée par votre institut en HPC, par année, par utilisateur ? (champ numérique)
### Durabilité et pérénité matérielle
**Question à demander à David Sheeren pour inclusion ou non dans questionnaire vague 2**
- [ ] Etes-vous informé·e de la durabilité (taux de renouvellement, durée de vie, etc.) du matériel qui constitue votre infra de HPC ? (Oui/non)
- Si oui dites-nous ce que vous savez , s'il vous plaît (champ libre)
- [ ] Etes-vous informé du coût environnemental de votre pratique du HPC ? (énregétique et carbone) (Oui/Non)
- Si oui dites-nous ce que vous savez, s'il vous plaît (champ libre)
- si vous le prenez en compte pour encadrer/modérer vos calculs, de quelle façon ? (champ libre)
- [ ] Etes-vous informé du coût environnemental de votre pratique du HPC ? (énregétique et carbone) (Oui/Non)
------
# blabla à vérifier
## 3 types de calculs
1 gros truc sequentiel
1 gros truc parallélisable
N (>>1) petits trucs
## Logique Encastrement découplage de l'accès à l'HPC
la plupart du temps c'est encastré : très peu d'autonomie des instituts de recherche pour initier (a minima) l'accès à l'HPC, se doter de moyens, trouver l'info etc.
Deuxième encastrement , plus technique mais moins "calcul", au sein de l'institut : admin/DSI qui gère/centralise les demandes locales (archivage)
Les rares exemples de découplage sont du côté des machines autoadministrées que les personnes peuvent utiliser quasiment seuls
## La mémoire plus structurante que le calcul ?
Les teraflops et cadences des coeurs ne sont jamais évoqués.
on chiffre juste le nombre de coeurs et la présence/absence de GPUs.
Au contraire l'"empreinte mémoire" (RAM + Stockage) semble structurer les usages et les environnements: certains nécessitent d'upload 500Go de données pour tourner, quand d'autres on juste besoin de 6Go de RAM .
La distinction taille mémoire et bande passante n'apparaît pas (pour le moment)