12/28 SRE 讀書會共筆
場地提供:PIXNET
===
問題回報->分類->資訊收集->診斷->測試->復原
預期行為 vs 真正的問題
判斷事件的嚴重性有多高。(好比急救的檢傷分類)
趨勢分類:
P0 4hr (on call 即時處理)
P1 8hr (可等到上班時段處裡)
P2 36hr
用問題多快需要被解決,來跟業務、PM溝通嚴重性
測試猜的原因是不是對的
問題總是無法避免發生,讓 recovery 回復速度快比較重要。
Ex. 薩利機長,在 3 分鐘內做出正確的判斷,跳過許多正常步驟。
Rick: Design 系統不是專家,但是 Trouble shooting 之後才是專家。雷踩的多就是大神了
從 Business 的角度來判斷重要程度,例如影響很多 user/$$ 的就是最嚴重的問題
東西早晚要壞的,這就是生活 Things break; that’s life.
不要以為放在雲端就不會壞!
SRE 故意破壞系統,模擬事故
針對失敗模式,進行預防。
案例:在大型分散式 mysql 中,限制一個測試資料庫的存取
事後總結
Rick 補充:SOP 導入的問題
google 系統的配置很複雜
每次都需要大量針對配置做測試
經驗分享:
變更佈署帶來的緊急事故-案例
Panic Room
禮拜五不要佈署!!!
GCP 的案例
連鎖反應
一旦發生連鎖反應,就很難處理,相依性彼此串連導致問題複雜化。
Service 不要連太緊 (Loose Coupling),避免連鎖反應
附錄:異常報告撰寫
再次重申,先止血(讓服務恢復),再來找根本問題
職權分離
控制中心,戰情室
事故狀態文件,事故總控負責維護,紀錄事件的歷程、狀況
明確公開的職責交接
經驗分享:確實要有一個明確地交班流程!
經驗分享:
學習
對事不對人 / 不咎責 Blameless
何種狀況需要撰寫
如何撰寫?
如何建立不咎責的文化?
可能是倒楣的人出事,但可能是硬體或其他問題
or
or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up
Syntax | Example | Reference | |
---|---|---|---|
# Header | Header | 基本排版 | |
- Unordered List |
|
||
1. Ordered List |
|
||
- [ ] Todo List |
|
||
> Blockquote | Blockquote |
||
**Bold font** | Bold font | ||
*Italics font* | Italics font | ||
~~Strikethrough~~ | |||
19^th^ | 19th | ||
H~2~O | H2O | ||
++Inserted text++ | Inserted text | ||
==Marked text== | Marked text | ||
[link text](https:// "title") | Link | ||
 | Image | ||
`Code` | Code |
在筆記中貼入程式碼 | |
```javascript var i = 0; ``` |
|
||
:smile: | ![]() |
Emoji list | |
{%youtube youtube_id %} | Externals | ||
$L^aT_eX$ | LaTeX | ||
:::info This is a alert area. ::: |
This is a alert area. |
On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?
Please give us some advice and help us improve HackMD.
Syncing