# SRE. This is the way - Frank Chen ###### tags: `2023` {%hackmd @sre-conf/H1pCafrG3 %} Developer > DevOps > SRE 星際大戰系列影集《曼達洛人》This is the way. SRE 是心法 DevOps vs. SRE vs. Plaform Engineering https://blog.bytebytego.com/i/110521562/devops-vs-sre-vs-platform-engineering-what-is-the-difference  - SRE 會開始擁有整個平台,才能開始標準化 - 開始思考是否能將開發流程 Cover 到 - 思考如何維持開發的彈性 ### SRE Concepts SLI/SLO Error Budget Blameless postmortems 你如何跟別人合作 跟Ops 跟 Develope Eliminating toil: 如何做更少得到更多 ### SRE As Jobs Title 傳教士的角色 ### The way to go #### 如何開始 start from small, make influence 何時會需要 SRE ? > 你需要 SRE 的時候,通常是因為客戶在抱怨 (內部 / 外部) > => 「需要救火」 > 客戶不知道,Ops 不能阻止,App 沒意識到系統痛點 沒有足夠的可視化來看服務的健康度 不知道告警的means ##### Start from Small, make influence 減少不必要的Alert,留下必要的 Repeated alerts False alert Alert for information purpose AP: - Actionable alert 要有SOP - 各種incident 都需要一個alert - 沒有SOP就call AP SRE: - 分析alert 的pattern - Fine tune alert quality - Seperate alert channerl 把 Alert 流程化:了解/歸類/處理 OPS: - 沒 SOP 就找 AP - 把 Alert 整理化 1. Actionable => SOP 2. 3. 沒有 SOP 就寫, Call Developer 很多 Alert 降下來了, 真正會發生 Incidnet 的就會出現 #### 如何持續下去 Tips - No Best type - 降低溝通成本 - open for org change - Idenrify stakeholders - Customer - Business owner (常被忽略) - Collaborator - Shared Resposibility - Clear R&R - Blameless culture 各種公司的組織架構圖 [devops topologies](https://web.devopstopologies.com/) 通常要先想一下公司組織,有哪些人,找到折衷方案 - 用戶需要知道系統狀況 - 客戶需要知道業務機會,這系統可以創造什麼 - 維運人員需要有可視性 - Data Visibility - Permisssion Design - Communication Tools #### Module - 給對的 Staakeholderkeholder - Channels 通常沒有辦法在第一時間就選擇最好的方案 無法在第一時間把SLO/SLI訂出來 必須要Connect to Business 先找到MVP 去增加他的穩定度 Business Value SLO/SLI Uptime/Error rate/ Latency Metrics/Trace/Log * **Connect to Business**: 將 SRE 與 Business Value / SLA / Cost 掛勾,才會讓 stakeholder 有感 * Communication channel: 將溝通橋樑建立起來,串聯 Data source, Data Platform, Consumption。 - 把 Consumption 跟 Data Source 用 Platform 串起來 #### 協作 tips - Standard/Process - SRE 部分 - 要知道SLO SLI - 要知道發布的資訊 - 要知道rollback plan - Actionable Alert - OPS部分 - Helthy report - Feedback - 共通部分 - Tool/Platform - CICD 可以approval 跟 trace - 把 Creation 標準化 - Stakeholder 可以自Data platform 取得資料看到狀況 - 透過資料分析來看服務現在是變好還是變壞 - Make it easy - Recap - SRE 重點是協作工作 - 整合 Function - 量化讓人可以看到 - 可以持續的被 improve
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up