Roadmap SRE 2024

# Roadmap SRE S1 2024 Evaluation: - Complexité / Temps passé - Performances - Dev experience - Automatisation / Support - Sécurité - Obvservabilité - Action autonome --- ### Migrations 1. Migration des applications: Azure vers OVH (via Kontinuous) 2. Migration des bases de données: Azure Managed DBs vers CloudNative PG (via Kontinuous ou Argo) 3. Migration des Metabases: Azure vers OVH (via ArgoCD) ### Documentation et aide aux développeurs 1. Mettre en place un template de doc (avec liens aux développeurs) 2. Partie théorique (les règles, les contraines, les choix techniques) 3. Partie pratique (description des opérations techniques, "How to") 4. Template README aux développeurs (composants déployés, tests en local, exécution de l'application complète, seed de données, guide du testeur e2e, compte de tests d'accès en preprod, prod) ### Refacto Kontinuous / ArgoCD 1. Mise en place d'une stratégie de déploiement de l'outillage via ArgoCD (typiquement Metabase) Exemples de features avancées sur kontinuous : - preview branches - pipelines avancées - factoriser facilement les settings entre startups (requests/limits, netpol, paramètres CNPG, etc.) - intégrer le mode privé dans kontinuous - option dans les workflow ou des workflows repo privé, qui n'utilisent pas trivy ### Buildkit Problème: - bloquage des mises en prod (et des déploiement lors des upgrade kube, ou autres incidents) Solution: - Fault tolerance fallback (ready to merge) Perfs: - Scale and autoscale buildkit Maintenabilité: - Converge ### Sécurité 1. Gestion des comptes de bot (séparation des droits des SE sur les clusters) : ex sur Github, Matomo, Sentry, NPM, etc. 2. Rancher: avoir de kubeconfig qui expirent (avec rotations) 3. Migration Metabase: anonymiser les données utilisées par metabase afin de ne pas les exposer au sein de ce service exposée sur internet. 4. Anonymiser aussi les données de preprod avec rechargement automatique. 5. Audit des actions sur les produits pour remontées à des utilisateurs 6. Cluster : - création de pod root pour n'importe qui ayant accès cluster - grafana : - accès aux dashboards : binaire oui/non et ça donne accès à tous les dashboards - idem pour les logs 11. Teleport ? à revoir avec les ops ou Jo 12. Rotation des secrets 13. Talisman pour les secrets (alertes Gitguardian et/ou Github secret detection) - réactivité sur Brevo / Tipimail / Elastic search (priorité sur les services externes accessibles en dehors du cluster) ### DRP 1. Inventaire des volumes, base de données, processus de backups 2. Liste de tous les événements potentiellement problématiques (perte de données, coupure de service, intrusion...) 3. Envisager les solutions pour chaque cas de figure ### Observabilité de la prod Bonnes pratiques d'observabilités en production : - logs (json) - remontée d'erreurs - performance - alertes mattermost quand intervention urgente ### Qualité de code - dashboard global des tests des startups - `yarn test --coverage ???` ### Synchro avec les ops - MAJ des composants de la plateforme - cluster de test