E3 過往事故 === ## 2022/05/30 屬於 CPU 使用量過高的典型問題 + CPU utilization 過高 ![](https://i.imgur.com/uG8Vt7b.png) + 網路資源 ![](https://i.imgur.com/DxIpz9L.png) + 儲存 ![](https://i.imgur.com/sGO3diz.png) ## 2021/11/18 pcbug wang, 11月18日, 下午2:09 ![](https://i.imgur.com/YdX2eUx.png) 在GPU區的e3 DB 今日發生CPU usage 100% 頂天3分鐘的狀況 經確認, 當下已用盡該台實體機的CPU資源, 並無其他VM與之競爭的狀況 該台實體機CPU資源為96580MHz ![](https://i.imgur.com/kn7K8Wb.png) 謝旻錚, 11月18日, 下午2:10 what happened pcbug wang, 11月18日, 下午2:11 e3 DB尖峰期使用了105982MHz, 應為intel短暫超頻的機制運作提供的額外效能 ![](https://i.imgur.com/NFMtfLf.png) 謝旻錚, 11月18日, 下午2:11 我早上有做預警,然後碰到幾次 timeout pcbug wang, 11月18日, 下午2:12 先給老師這些資訊, 以免被主任問時無法抵抗 CPU數量為44核 謝旻錚, 11月18日, 下午2:12 這應該要去看他們的 log 吧,感覺是個爛 query pcbug wang, 11月18日, 下午2:13 嗯, 為何會發生用盡CPU, 我這邊就不清楚了 謝旻錚, 11月18日, 晚上8:44 V5030 來了以後是不是壞過幾顆硬碟更換過?換回來的是不是 Seagate 那幾顆效能看起來比較好的 ## 2021/10/12 謝旻錚, 10月12日, 下午3:51 e3 掛了 有概念嗎 pcbug wang, 10月12日, 下午3:53 呃,手上沒有什麼資訊..... 謝旻錚, 10月12日, 下午3:54 我們的服務有掛點嗎? pcbug wang, 10月12日, 下午3:54 看起來網頁都無法出現 謝旻錚, 10月12日, 下午3:55 嘛,沒數據無法分析,系統又不在我們手上 檢查一下 VC 跟 storage 有無異常吧,沒異常跟我講一下 聽說報名系統也慢 pcbug wang, 10月12日, 下午4:24 於GPU區的DB VM正常, 僅CPU於16:10有一點升高, 使用率10.94% ![](https://i.imgur.com/Bm5jRoZ.png) vc5 MIS區的DB VM 同樣於16:10 CPU有一點升高, 至5.78% ![](https://i.imgur.com/Z8gi7Mm.png) pcbug wang, 10月12日, 下午4:28 moodle data儲存區的freenas則有一段時間流量很低, 但freenas沒有異常, 右上的警示是儲存使用超過80%, 目前81%. ![](https://i.imgur.com/zmFAE2D.png) 謝旻錚, 10月12日, 下午4:28 很低應該就是異常的時段 pcbug wang, 10月12日, 下午4:30 看起來跟GPU DB VM時間吻合, 大約15:30開始. ![](https://i.imgur.com/IRgil6C.png) SVC無異常 ![](https://i.imgur.com/l5fgnff.png) pcbug wang, 10月12日, 下午4:33 48TB, 192TB, allflash-5TB, allflash-17TB freenas均正常無警示 pcbug wang, 10月12日, 下午4:36 前端nginx似乎掛掉過? ![](https://i.imgur.com/jCnudM2.png) ## 2021/09/13 pcbug wang, 9月13日, 上午9:58 e3目前很慢, 每個動作都要等30秒左右 謝旻錚, 9月13日, 上午9:58 有明顯的資源不足嗎? pcbug wang, 9月13日, 上午10:08 e3 DB VM CPU用盡 ![](https://i.imgur.com/4K72IF8.png) at GPU, 28 cores用盡 ![](https://i.imgur.com/NdW0zsH.png) 謝旻錚, 9月13日, 上午10:09 慘 pcbug wang, 9月13日, 上午10:10 host用盡 別無他法了 不然就要搬進比較危險的GPU運算區 Ming-hua Lin, 9月13日, 上午11:14 SVC to Volume(ESXi)的Response time也還好 ![](https://i.imgur.com/Db71QiH.png) 謝旻錚, 9月13日, 上午11:27 是否因無法自動 migration 有關? pcbug wang, 9月13日, 上午11:45 e3 DB 不是, GPU區獨立一台給他用了 portal應該是受到選課與e3 VM群共同擠壓....... 謝旻錚, 9月13日, 上午11:46 Portal 是跟誰共用資源? pcbug wang, 9月13日, 上午11:46 MIS組 ESXi 快要擠爆 MIS組 VM ![](https://i.imgur.com/CmLSDa7.png) 謝旻錚, 9月13日, 上午11:47 有 migration 可以負載平衡嗎? pcbug wang, 9月13日, 上午11:48 有開 不過可能因為有多個VM都吃巨量CPU, 因此沒辦法完全平衡 謝旻錚, 9月13日, 上午11:49 嗯 pcbug wang, 9月13日, 上午11:49 ![](https://i.imgur.com/EvoGPR9.png) 一個core大概2.1GHz 謝旻錚, 9月13日, 上午11:52 唉,這個感覺上是一些爛 DB query 在升版後更爛了? pcbug wang, 9月13日, 上午11:57 可以這麼說 主要問題應該是: 1. 選課用MS-SQL, replication效能很差 2. e3用mysql, 建了更吃資源等更久的cluster架構