# 91APP Way: 91APP 在 AWS 上的 SRE 實踐之路 主筆:Brian (11:30) ###### tags: `SRE2022` --- **Brian** agenda 1. how 91 app implement devops in aws 2. architech of sre as service ## 公司方向:自己開發、自己維運 sre focus on" 1. 異常處理 3. slo 4. 軟體工程 sre實踐原則 1. 專注在溝通流程、api介面 2. focus on,smsged serviece ### how 1. 事件處理與管理流程標準話 2. 使用高可靠的監控系統 - cloud watch 全家桶:blabla, aws athena - 不監控監控系統 5. 提高運行平台的可靠度:k8s 平台化 - rancher, grafana 6. 降低系統複雜度 - 服務依賴與邊界 - 推動基礎架構標準化 - 網狀變星狀 7. 標準化 - 開發維運治理 - aws 資源作業規範 - 引入其他概念與技術 8. ## pt2 => 降低application team 使用的門檻與複雜度 1. 開發制度化 2. 維運制度化 ### how 1. 平台概念藍圖 2. manage service as api 3. 把規範變可實作規格 4. ? 5. ? #### 3 規範=>gap=>落地 gap超大 讓規範落地 1. 專注在分析需求、讓規範變規格的人 2. 類似rfc 3. 用技術實踐規格的人 4. ? core: 規範 -> 規格 -> solution/tools --- Charlie part 1 91 的大方向: - 以 well arti 為基礎 - 自己開發自己維運 (feature / dev team) 沒 SRE 異常處理:從 “發生” 到 “發現” 怎麼處理 1. 以象限分問題等級 2. 把問題發生處理流程導入到全公司 (Product -> CS -> PR) 用 athena 看 application Log (不要再去監控監控系統,善用 managed service) 降低系統複雜度 要有明確的架構資源規範 (遵守遊戲規則是另外一個問題) part 2 IPO 後 降低app team 使用 op service 的門檻跟複雜度 善用 managed service 規範 --> Gap -->規格 讓規範變成規格 所有語言都有統一的 build 流程 規範 -> 規格 -> solution --- **Gimmy** 91APP 黃冠元 Rick 架構設計部 Sr. Manager 91APP 用 AWS - SRE 關注 - 人管系統,系統管服務 - 溝通流程 - 盡可能用 Management Service - 事件標準化 - 分問題:RD 搞壞,SRE 搞壞都有可能 - 使用高可靠的監控系統 - **關注在「服務業務」而不是「維護監控服務」** - 用 Log Athena - 提高運行平台可靠度 - 導入 K8s - 平台化 - 自建網站給內部申請權限等 - 推動基礎架構標準化 - 乾跳太快 - 標準化/規範化 - 開發維運治理 - AWS 資源作業規範 - 多規範或標準如何讓大家遵守? - 開發制度化 - 製作符合規範的 SDK, API, 工具等給開發團隊使用 **規範 -> 規格 -> solution 或 tool** --- ## Chris ### Agenda 1. 早期到IPO 2. IPO之後 ### 問題 異常處理 監控機制 系統可靠程度 - 事件處理與管理標準化 - 選擇監控機制 服務業務 不要監控 監控系統 - 提高平台可靠度 平台化 - 降低系統架構複雜度 基礎架構標準化 網狀變星狀 - 標準化與規範化 #### 這麼多規範和標準如何落地? 使用軟體工程讓SRE任務規模化 降低APP Team使用OP Service的門檻 Managed Services as API 規範變規格 API化 => 讓RD可以更簡單使用 SDK/Lib/Framework Tools: ex. CLI log Shipper by Sidecar Pattern - 開發維運治理 全都標準化就對了 直接幹一個CLI出來 ### 核心 規範 -> 規格 -> tool / solution ### Ref 91App blog: https://www.91app.tech/blog/ Enterprise Roadmap to SRE - Google - Site Reliability Engineering: https://sre.google/resources/practices-and-processes/enterprise-roadmap-to-sre/?