# Questions Appel d'Offre AD Sim
## Questions posées en séance avec les réponses associées
- La réponse à l'appel d'offre peut-elle être retardée de quelques jours (jeudi 15 Juin idéalement) ?
- En attente de la réponse de David.
- Les congés d'été chez Renault sont-ils compatibles avec un démarrage au 13 juillet ?
- oui, il n'y a pas de congés imposés. Il y aura toujours une personne de l'équipe de disponible
- Il y a-t-il un objectif quantitatif de performance ?
- oui, mais non partagé.
- Quelles sont les attentes en termes de monitoring ?
- Dynatrace pour le monitoring de l'infra
- Grafana pour le monitoring métier
- Databricks pour l'analyse de données par les data scientists
- La migration des données doit-elle se faire en one-shot, ou régulièrement pour avoir des données "réelles" pour les tests ?
- migration régulière. Des données pourront être transférer durant le projet pour nos tests
- Que signifie la période probatoire ? Est-ce une période de garantie ?
- La période probatoire constitue la période allouée après livraison pour s'assurer du bon fonctionnement de la plateforme, notamment en cas de passage à l'échelle. La validation de la bonne livraison se fera à la fin de cette période (30 Avril)
- Quels sont les prérequis pour l'acceptation de l'infrastructure au jalon fin Octobre ? L'infrastructure validée sera-t-elle figée ?
- L'acceptation de l'infrastructure nécessite un _Minimum Viable Product_ (MVP), c'est à dire une infrastructure complète contenant tous les services, même si ceux-ci ne passent pas à l'échelle. L'infrastructure validée n'est en soit pas figée, et pourra accueillir des petites évolutions pour s'adapter aux nouveaux besoins et pour gérer le passage à l'échelle.
- Quel est le lien entre la simulation et le post-processing ?
- Un job de simulation traite plusieurs scénarios. Cette simulation sera schédulée par HTCondor sur des VMs Windows avec GPUs. Les données de sorties sont mises dans un bucket, ce qui déclenche le traitement de chaque scénario par un pod sur Kubernetes contenant le code de post-processing.
- Comment est gérée la création/suppression de nouveaux noeuds de calculs ?
- HTCondor est responsable du cycle de vie des machines pour la partie simulation.
- GKE est responsable du scaling des pods/noeuds pour la partie post-processing, en utilisant le nombre de scenarios dans la queue comme métrique.
- La simulation a-t-elle besoin d'accéder à des serveurs de licences ?
- Oui, potentiellement sur GCP dans le même VPC
- HTCondor doit-il prendre en compte des quotas de licences pour le scheduling des jobs ?
- Idéalement oui. Il y a 2 types de licences différentes, avec des limites distinctes.
- L'infrastructure détaillée dans le cahier des charges est-elle figée ?
- Non, elle peut (doit?) être adaptée pour mieux répondre aux contraintes et besoins. La présence d'AMQP est notamment une erreur à ignorer. Renault est ouvert à proposition.
- Le déploiement de l'infrastructure doit-il se faire intégralement avec HPC toolkit ? Ou peut-il être mixé avec un déploiement terraform "pure" ?
- Ouvert à proposition.
- Quel est le niveau de résilience/haute-disponibilité attendu ?
- A définir durant le projet.
- Quelle est la cible pour la construction des images ?
- Ouvert à proposition. L'objectif est d'utiliser des outils adaptés et standards pour la construction des images. En lisse, Packer, Terraform, Ansible.
- Quelle est la volumétrie des jobs ?
- En pic, il a été observé 60 000 jobs de simulation en un jour, avec une moyenne de 4 jobs/VM, et 1500 pods pour le post-processing.
- Il y a principalement 3 tailles de jobs : ~1 minute, ~30 minutes, plusieurs heures (< 10h).
- 1 job de simulation correspond à 1-10 scénarios.
- Le post-processing prend ~3 minutes par scenario.
- A terme, des jobs multi-noeuds sont à prévoir
- Quelle est la fréquence de mise-à-jour des applications du cluster ?
- backends: très fréquent
- post-processing: ~ toutes les 2 semaines
- simulation: ???
## Autres Questions
- Dans le workpackage 2, pour la construction des VM, il est écrit : « Test and propose different sharing device with performance criteria ». Pouvez-vous expliciter votre intention ? Notamment « sharing device » ?
- Quel est le but d'Aida dans l'intranet ? Quels seront ces prérequis en ce qui concerne ses attributions (accès aux fonctionnalités, accès aux données) ?
- Quelles sont les interactions des utilisateurs/SPM avec l'ADGateway ? Sont-elles seulement faites via la Pub/Sub ?
- Quelles sont les contraintes d'implémentation de l'ADGateway ? Langage notamment ?
- Quelles sont les contraintes concernant le/les script(s) de migration de la base de données PostgreSQL ? Les exports sont complets ou partiels ? One-shot ou réguliers ? Les données peuvent elles transiter par la machine lanceuse du script ?
- Quelles sont les contraintes concernant le/les script(s) de migration des données (assets et output) ? Les données peuvent elles transiter par la machine lanceuse du script ?
- En ce qui concerne la migration des outils de post-traitement, d'analyse de données et de Databricks vers GCP, quels sont les objectifs et les fonctionnalités spécifiques attendus dans cette migration ? Y a-t-il des dépendances ou des interactions avec d'autres systèmes ou outils dans cet environnement ?
- En ce qui concerne la migration des composants sur site vers GCP, existe-t-il des contraintes ou des préférences spécifiques en termes d'architecture simplifiée ? Y a-t-il des exigences particulières concernant la sécurité, la disponibilité ou les performances lors de la migration de ces composants ?
- Pour la partie simulation, combien d'applications sont utilisées ? Quelles sont leurs tailles ? A quelle fréquences sont-elles mises à jour ?
- Dans quelle région le cluster doit-il se situer ? En Europe ou aux Etats-Unis ?
- Qui serait responable de la configuration Dynatrace ?
- Quel serait le plan d'action au cas où HPC toolkit serait trop limité pour ce que l'on veut faire ? Notamment si HPC toolkit n'était pas du tout compatible avec des VMs Windows ?
- Pouvez-vous fournir des informations sur l'architecture actuelle de la plateforme ATLAS sur laquelle MongoDB sera exécuté ? Quelles sont les spécifications techniques et les exigences de communication pour s'intégrer à cette plateforme ?
- Pouvez-vous préciser les besoins de communication entre Backend et les services HPC ? Quels types de données, de commandes ou de résultats doivent être échangés entre ces composants ?
- Pouvez-vous expliquer en détail les processus de gouvernance du projet, y compris les comités de suivi et les outils de suivi utilisés ? Quelles sont les attentes en termes de communication, de rapports d'avancement et de prise de décision tout au long du projet ?
- Existe-t-il des contraintes particulières en termes de délais ou de calendrier pour le projet ? Y a-t-il des contraintes liées aux échéances réglementaires, aux événements internes ou à d'autres projets connexes ?