Extraits de briques technologiques facilitant le montoring et offrant un modèle adapté à l'EPFL.
Nicolas Borboën <nicolas.borboen@epfl.ch>
https://hackmd.io/@ponsfrilus/monitoring
Cette présentation donne suite à une présentation plus spécifique à prometheus, accessible ici : https://hackmd.io/@ponsfrilus/prometheus.
La présentation intègre des images de Stephen Wiltshire et Gilles Trehin.
En tant que manager j'aimerais une vue d'ensemble des différentes applications gérées par mes équipes pour savoir en un coup d'oeil si des problèmes sont en cours.
En tant que service manager j'aimerais une vue d'ensemble des différentes applications de mes services pour savoir en un coup d'oeil si des problèmes sont en cours.
En tant qu'équipe en charge d'une application nous aimerions savoir son état de santé et être alertée si l'un de ses composants est en PLS.
En tant que développeur j'aimerais avoir accès aux détails des mesures de mon application non seulement pour detecter des problèmes mais aussi pour travailler sur la performance (temps de réponses, etc.) et ainsi pouvoir prouver (en se basant sur des mesures) la véracité de mes améliorations.
En tant que développeur j'aimerais pouvoir visualiser les corrélations entre les différents systèmes (VM, NAS, DB, A10, réseau, etc.) et ainsi identifier les facteurs impactant les performances de mon application.
En tant que développeur je dois pouvoir accéder aux logs de mon application visualiser les corrélations entre les différents systèmes (VM, NAS, DB, A10, réseau, etc.) et ainsi identifier les facteurs impactant les performances de mon application.
En tant que développeur ou qu'équipe en charge d'une application, j'aimerais avoir un moyen fiable permettant d'enquêter soit pour résoudre un problème en cours, soit pour expliquer (écrire un post-mortem).
Une VM accédant à deux services de l'EPFL, DB + NAS et hébergeant un serveur web.
On veut pouvoir collecter des données sur les éléments "visibles"
Mais aussi sur les "invisibles", par exemple : la VM de MariaDB, le rack dans lequel se trouve le NAS, l'état du réseau, la connectivité, etc…
https://prometheus.io/docs/alerting/latest/alertmanager/
The Alertmanager handles alerts sent by client applications. It takes care of deduplicating, grouping, and routing them to the correct receiver integration such as email, PagerDuty, or OpsGenie. It also takes care of silencing and inhibition of alerts.
Un service, sous la houlette de notre architecte de l'information, permettant d'intégrer les concepts de monitoring, d'alerting, de logging et d'observabilité dans toute l'organisation de manière transversale.
Encore une question ? Un point à disctuer ?
Nicolas Borboën <nicolas.borboen@epfl.ch>