Monitoring@EPFL

<style> .reveal { /*background-color: #eaeaea;*/ background-image: url('https://epfl-si.github.io/elements/svg/epfl-logo.svg'); background-repeat: no-repeat; background-position: 5px 5px; } .reveal { color: #1c1c1c; } .reveal h1, .reveal h2, .reveal h3, .reveal h4, .reveal h5, .reveal h6 { color: #eee; text-shadow: 2px 2px #ff0000; } .reveal a { color: #f009; } .reveal a:hover { color: #f00; } .reveal code { padding-top: 0.2em; padding-bottom: 0.2em; margin: 0; font-size: 85%; background-color: rgba(255, 255, 255, 0.46); border-radius: 3px; } [data-contrast="on"] > div { background-color: #ffffff50; } [data-contrast="on+"] > div { background-color: #ffffff99; } </style>  ## Monitoring Extraits de briques technologiques facilitant le montoring et offrant un modèle adapté à l'EPFL. <small>Nicolas Borboën <<nicolas.borboen@epfl.ch>></small> ----  ## Introduction ----  ## Pourquoi est-on là - Mieux comprendre nos besoins - Grouper les efforts - Partage de connaissance - Homogénisation des outils ----  ## Lien vers la présentation https://hackmd.io/@ponsfrilus/monitoring Cette présentation donne suite à une présentation plus spécifique à prometheus, accessible ici : https://hackmd.io/@ponsfrilus/prometheus. La présentation intègre des images de [Stephen Wiltshire](https://fr.wikipedia.org/wiki/Stephen_Wiltshire) et [Gilles Trehin](https://fr.wikipedia.org/wiki/Gilles_Tr%C3%A9hin). --- ## User story (manager)  > En tant que manager j'aimerais une vue d'ensemble des différentes applications gérées par mes équipes pour savoir en un coup d'oeil si des problèmes sont en cours. ---- ## User story (service manager)  > En tant que service manager j'aimerais une vue d'ensemble des différentes applications de mes services pour savoir en un coup d'oeil si des problèmes sont en cours. ---- ## User story (team)  > En tant qu'équipe en charge d'une application nous aimerions savoir son état de santé et être alertée si l'un de ses composants est en PLS. ---- ## User story (dev)  > En tant que développeur j'aimerais avoir accès aux détails des mesures de mon application non seulement pour detecter des problèmes mais aussi pour travailler sur la performance (temps de réponses, etc.) et ainsi pouvoir prouver (en se basant sur des mesures) la véracité de mes améliorations. ---- ## User story (dev)  > En tant que développeur j'aimerais pouvoir visualiser les corrélations entre les différents systèmes (VM, NAS, DB, A10, réseau, etc.) et ainsi identifier les facteurs impactant les performances de mon application. ---- ## User story (dev)  > En tant que développeur je dois pouvoir accéder aux logs de mon application visualiser les corrélations entre les différents systèmes (VM, NAS, DB, A10, réseau, etc.) et ainsi identifier les facteurs impactant les performances de mon application. ---- ## User story (team/dev)  > En tant que développeur ou qu'équipe en charge d'une application, j'aimerais avoir un moyen fiable permettant d'enquêter soit pour résoudre un problème en cours, soit pour expliquer (écrire un post-mortem). --- ## Exemple ![](https://hackmd.io/_uploads/rkzFmoAvh.png) Une VM accédant à deux services de l'EPFL, DB + NAS et hébergeant un serveur web. ---- On veut pouvoir collecter des données sur les éléments "visibles" ![](https://hackmd.io/_uploads/B1RCmiRD2.png) ---- Mais aussi sur les "invisibles", par exemple : la VM de MariaDB, le rack dans lequel se trouve le NAS, l'état du réseau, la connectivité, etc... ![](https://hackmd.io/_uploads/BJWVNsAPn.png) --- ## What's the plan? ### Des prometheus d'apparement ![](https://hackmd.io/_uploads/r1o-Ls0v3.png) ---- ### Des prometheus d'immeuble ![](https://hackmd.io/_uploads/H1-FdsRvn.png) ---- ### Des prometheus de quartier ![](https://hackmd.io/_uploads/HJnXwi0vh.png) ---- ### Des prometheus de ville ![](https://hackmd.io/_uploads/S1ZAvoCvh.png) ---  # Prometheus * Exporters * Federation * Alerting * Grafana ---- ## Exporters https://prometheus.io/docs/instrumenting/exporters/ ---- ![](https://hackmd.io/_uploads/Sy8TInCD3.png) ---- ## Federation  ----  ## Alerting https://prometheus.io/docs/alerting/latest/alertmanager/ The Alertmanager handles alerts sent by client applications. It takes care of deduplicating, grouping, and routing them to the correct receiver integration such as email, PagerDuty, or OpsGenie. It also takes care of silencing and inhibition of alerts. ---- ## Grafana (visualization) ![](https://hackmd.io/_uploads/B1qJlhCwh.png) ---- ![](https://hackmd.io/_uploads/H112wnAvn.png) ---- ## Kibana (https://kibana-exopge-logs.epfl.ch) ![](https://hackmd.io/_uploads/rJ7zcnAw2.png) --- # Prom vs OT ![](https://hackmd.io/_uploads/By14enRw2.png) https://www.timescale.com/blog/prometheus-vs-opentelemetry-metrics-a-complete-guide/ ---- ![](https://media.giphy.com/media/t72Z3ihpmvpW8/giphy.gif) ----  ![](https://hackmd.io/_uploads/ByFeMh0P2.png) https://openmetrics.io/ ---  # Ce qui est important * collecter des données * pouvoir les partager entre équipe/service * parler la même langue * rendre notre travail plus efficient ----  # Mais surtout Un service, sous la houlette de notre architecte de l'information, permettant d'intégrer les concepts de monitoring, d'alerting, de logging et d'observabilité dans toute l'organisation de manière transversale. ----  ## Demo as a service ---  ## This is the end Encore une question ? Un point à disctuer ? Nicolas Borboën <<nicolas.borboen@epfl.ch>>