Intervention d'un expert CNPG

# Intervention d'un expert CNPG L'intervention de l'expert CNPG vise à résoudre les problématiques techniques rencontrées dans notre environnement de production, en mettant en place des solutions efficaces et en identifiant les meilleures pratiques pour optimiser les performances et la fiabilité du système. ## Problématiques CNPG: - Mettre en place les solutions aux problématiques encore non résolues - Confirmer notre compréhension des bonnes pratiques que nous serions amenés à implémenter - Valider notre approche dans la résolution des problématiques considérées comme maitrisées ### Problèmes sans solutions: Liste des principaux problèmes déjà rencontrés pour lesquels nous n'avons pas trouvé de solutions satisfaisantes: 1. **Switch over non concluant:** Il a été observé que le switch over ne se termine pas comme prévu, avec des indications pointant vers un problème réseau entre l'ancien nœud principal, le nouveau élu et le dernier réplica, entraînant une divergence dans les timelines de WALS. Il est crucial de déterminer une méthode de récupération du cluster sans nécessiter le rechargement d'une sauvegarde complète. 2. **Statut incorrect de kubectl cnpg:** Des résultats inattendus sont retournés par la commande `kubectl cnpg status`, indiquant par exemple un statut `primary (ok)` mais avec `replica (file based)` au lieu de `sync`. Une clarification sur la notion des statuts ainsi que sur les conditions qui entraînent un changement est nécessaire. 3. **Timeline:** La notion de timeline n'est pas claire pour nous. Qu'est-ce qu'une timeline réellement ? Dans quels cas change-t-on de timeline ? 4. **Gestion de la taille des WAL max:** En cas de configuration incorrecte de Barman, entraînant un échec du base backup, il est pertinent d'explorer la possibilité de limiter la taille maximale des WAL pour éviter un épuisement de l'espace disque. 5. **Possibilité de split brain:** Il est essentiel de déterminer les mesures à prendre pour prévenir et traiter les scénarios de split brain qui pourraient survenir. ### Best practices: Les recommandations que nous souhaiterions mettre en perspectives avec notre context et notre utilisation de CNPG: 1. **Utilisation d'un nodepool dédié:** Il est recommandé d'argumenter en faveur de l'utilisation d'un nodepool dédié pour améliorer l'isolation et les performances du système. 2. **Préférence pour le stockage local:** L'évaluation de l'utilisation du stockage local plutôt que du stockage en bloc est nécessaire pour déterminer les avantages potentiels en termes de performance et de fiabilité. ### Problèmes et solutions identifiées: Problématiques rencontrées et pour lesquelles nous estimons avoir établit un mode de résolution satisfaisant: 1. **Erreurs de WALS et espace disque saturé:** Les erreurs dans la gestion des WALS ont conduit à un remplissage de l'espace disque, entraînant finalement un plantage complet du pod à long terme. La résolution de ces problèmes nécessite une attention particulière à la configuration de Barman et à la gestion des sauvegardes. 2. **Procédures de récupération en cas de défaillance d'un réplica:** Il est nécessaire d'établir des procédures claires pour la récupération en cas de défaillance d'un réplica, en se concentrant notamment sur les configurations impliquant un seul nœud principal et un réplica. ## Conclusion: Cette intervention vise à résoudre les problèmes actuels, à mettre en place des meilleures pratiques et à identifier des solutions efficaces pour garantir la stabilité et la fiabilité du système CNPG. Les actions proposées seront mises en œuvre en collaboration avec l'équipe SRE pour assurer une transition fluide et réussie vers un environnement de production plus robuste et performant.