Week 0x09 - 第二次自由分享 (2025/06/21)

# Week 0x09 - 第二次自由分享 (2025/06/21) > [color=#8805bc][time=Sat Jun 21 2025 21:00:00] [TOC] ## 共筆 ### 抹茶：高可用性 & 災難備援 #### why 高可用性 - 如果服務中斷，公司的信譽與資產會損失 - 高可用性：確保服務持續可用 - 災難備援：針對關鍵資料 - 如果機房失火，資料就都不見了 | 高可用性 | 災難備援 | | -------- | ------------ | | 小規模 | 大規模 | | 單點故障 | 系統完全故障 | | 同步 | 異步、版本控制 | | 維持工作不間斷 | 確保最短停機時間、並保護關鍵資料 |   ![Screenshot 2025-06-21 21-25-19](https://hackmd.io/_uploads/BJTazNV4lg.png) #### 高可用性 (HA) - 盡可能長時間運作 - 多幾個伺服器，掛掉一兩個還是可以繼續提供服務 - $可用性 = \frac{可供使用時間}{時間總計} = \frac{成功的回應}{有效要求} = \frac{平均故障間隔時間 MTBF}{平均故障間隔時間 MTBF + 平均修復時間 MTTR}$ - ![image](https://hackmd.io/_uploads/SJXoJ44Egl.png) - 如何高可用 - 負載均衡 - 冗餘 (redundancy) - 永遠都有一台機器當備案 - 硬性相依 - 減少 A 壞了 B 跟著壞的情況 - 故障轉移 - 自動擴展 - 自己起一個新的 VM 來承受負荷 - 偵測 - observability 很重要 #### 災難備援 - 重啟系統回到正常運作的架構，特別針對**資料** - RPO 復原點 - RPO 越短，資料損失越少 - RTO 復原時間 - 越短等於系統復原時間越快 - 不同種類的備援 - ![Screenshot 2025-06-21 21-18-37](https://hackmd.io/_uploads/SyQUW4ENgx.png) - Backup & Restore - 需要親自到 B 地手動重啟服務，以小時為單位 - Pilot Light - 異地有即時同步的資料備援，如果系統龐大會需要重啟很多服務 - Warm Standby - 數分鐘內就可以完成 - 服務都待機準備好，開啟即可 - Multi-site active/active - 沒有延遲 - 爆了就直接把流量導去好的機器 - 成本很高 (兩倍備援可能 ≈ 兩倍價格) ## 個人心得 & 聊天室 :open_mouth: 高可用 pizza 店 :pizza: :exploding_head: