# 從 PaaS 平台上漫談 SRE 之路 ###### tags: `SRE2022` --- **Brian** >SRE: 為維持系統穩定,涵蓋事前預防、事後補教的工作 ## overview 1. 導入paas的原因與歷程 ## 導入paas的原因與歷程 轉型前後比較 bf|af :-:|:-: 單體式系統架構|上雲、微服務 維運人員僅專注單體資源|? 為運團隊= 開發+ infra|開發+ infra+sre ## sre不只是維運 監控(可觀測性)=> CICD(穩定中變更) => 壓測(系統承載)=>資源配置(使用效率)=>釋股處理(快速回穩) 監控工具 prometheus graylog grafana ----- Charlie 我覺得 SRE 是什麼:事前預防,事後補救 SRE 跟維運工程師差異 - 系統:有問題就處理 - SRE: 設計監控架構 SLOs/ SLI / SLAs 專注系統穩定性從更多面向達到這個目標 國泰 SRE 還做 - 技術研究與 POC (好幸福..) - CI/CD - if 老闆問系統有沒有狀況,需要有好的面板監控服務,要直覺,看不出來就意義不大 (很同意,可觀測性很重要) 監控工具 普羅米修斯 / Graylog --- Gimmy > 江俊誼 Brian 國泰世華 SRE 工程師 ### 國泰 SRE 監控 -> CI/CD -> 壓測 -> 資源配置 -> 事故處理 --- ## Chris What is SRE? 維持穩定 => 事前預防 + 事後補救 預防大於補救 ### 導入PaaS歷程 單體 -> 平台 單體維修 -> 維護平台 平台維運發展 雲平台導入 CI/CD持續整合 ### 不只是維運 - 監控 可觀測性=>要有面板查看 - CI/CD 穩定中找變更、調整 - 壓測 要能夠對應實際場景 - 資源配置 從數據找使用效率 - 事故處理 快速回復服務 #### 工具: - Prometheus => 系統資源使用率 - Graylog => Latency、Traffic - Grafana => Visualization (展示監測工具畫面) #### 自動化案例 - 對不同服務客制化面板 每個都手動建立 -> 給資料直接由服務自動產出 - 憑證日期檢查 手動變更 -> CI/CD時進行到期檢查 ### 未來規劃 ?沒看到