Try   HackMD

Proposal about SRE Responsibility

短期:CI/CD

  1. 權限控管:RD 只能拿到 test 環境的部署權, secret and credential
    • Github Permission Settings
    • GCP Cloud Build/Run permission Settings
  2. 導入 CI 到每個專案,也順便結合上次 Dida 你說的 TDD,確保我們交付的 API or Bifrost SDK 品質
  3. CD: 降低我們部署的時間成本

短期:SLI/SLO/SLA Report

SLIs 定義了和系統「回應時間」相關的指標,例如回應時間,每秒的吞吐量,請求量,等等,常常會將這個指標轉化為比率或平均值。

SLOs 則是和相關人員討論後,得出的一個時間區間,期望 SLIs 所能維持一定水準的數字,例如「每個月 SLIs 要有如何的水準」,比較偏內部的指標。

reference

中期:Cost Optimization

在 SLI 等指標不受影響或是團隊權衡後可以接受的情況下,去優化 GCP 配置來省錢

長期:Infra Architecting/Consulting

  1. IaC(Infrastructure as Code): Terraform
  2. Scaling: Kubernetes