持續運維的智慧化發展,騰訊 AIOps 技術演進路徑

tags: DevOpsDays Taipei 2018 9/11 14:20~15:00 Track A

歡迎來到 DevOps Days 2018 共筆 :mega:
共筆入口:https://hackmd.io/c/DevOpsDays2018
手機版請點選上方 按鈕展開議程列表。

在大會遇到任何問題都可以在下方的問題回報區中留言
大會問題與建議回報區

請從這裡開始

講師 <Devops三十六計> 主編
研發運營一體化成熟度模型 組委會成員

大規模(over 1000w)的規模

AI怎麼Ops?

應該是 ops 的相關操作來自於 AI 分析後的結果
之前有看過根據 container log 來優化 resource 的使用率就是類似的概念

騰訊=>遊戲公司 (50%up的收入來源)

  • AI要解決什麼問題?

AIOps 的實施路徑思考

  • AI只是維運的一種輔助手段

立體化監控

  1. 基礎建設監控 (IaaS)
  2. component monitoring
  3. log monitoring
  4. application monitoring
  5. data bank
  6. end to end
  7. 最上面是啥? (是 輿情)

高效運維的方法

抽象化、配置化、工具化、自動化
在標準化運維場景

構建運維Paas平台架構

為什麼要AIOps

  • 煙囪是的監控系統 > 傳承運維經驗的訴求 > 統計
  • 異構的監控數據 > 主動運維的訴求 > 預測
  • 監控指標多, 人工配置繁瑣 海量運維的訴求 > 根因
  • 告警風暴,難以收斂 > 挖掘運維價值的訴求 > 大數據
  • 傳統的運維思路無法延續 > 運維新技術的訴求 > 新手段

2013年, 他們人均告警量達到了1k/user

尋找實施AIOps的運維場景

  1. 足夠的數據量級
  2. 特徵(因素)較齊備
  3. 特徵質量高(提取、清洗容易)
  4. 正負樣本容易提取
  5. 累積了正負樣本庫
  6. 有持續的正負反饋

組織monitor : 單指標智能異常識別

monitor監控數據的特點:
(O) 量大 : 125W個監控點數據,形成125W個視圖
(X) 複雜
(X) 數據正負樣本極不平衡

算法與分析過程

跟因分析: 揭露隱藏在平均值下的真相

實施AIOps遇到的挑戰

太快了


場外聊天室,歡迎在下方喇賽

講師本身從2015年開始接觸(推廣?) DevOps

BAT 都是大怪獸 (現在叫做 BATJ, J for 京東)

百萬線上用戶是小服務,已羨慕。

用騰訊的 solution (資料)會不會被傳到北京?
樓上多慮了,是直接就放在北京(ㄟ )
機房可能在新疆

今天新聞才說對岸領導人要限制遊戲產業騰訊股價跌了

魔物獵人不是被下架了嗎

可重複的,不犯錯的去做.

哇靠要額外做這些東西要多少開發人員阿
剛說有13.5K 的開發人員..(真的不少啊)

中國人怎麼就是喜歡自建(from scratch)阿自建 PaaS 就是屌阿XD

政府補助

咦?不是複製別人的code, 再改成自己的code, 但騰訊真的猛猛地

就算是這樣,累積出來的技術能量還是很大的

同意樓上,能夠照著做& 把規模做大,很不容易

https://www.inside.com.tw/2018/08/08/tencent-cloud-data-loss-affair-2

悶 有沒有開冷氣啊

這算是把 GA 的工作給 AIOps 做嗎?

應該是把GA有show出來的資料(or GA還沒蒐集到的)
統整交給AIOps去分析 & 依照決策模型下決定.
ex: 4xx 很多> 檔案不見了 > 去確認是不是網頁內下的link 有問題 (這是我自己舉的範例)

QQ有125萬個監控點!!

應用場景: 在定位(找尋)outage point 時,可以快速找到(他們的例子是 30~60分鐘找到問題點 > 降低至10~30秒)

NLP場景, 需用戶量多Ai才可以學到
NLP 有自己的處理方法,但如果把這當成輔助,而不是取代,就可以接受NLP 的不夠完美。

Select a repo