E3 過往事故
===
## 2022/05/30
屬於 CPU 使用量過高的典型問題
+ CPU utilization 過高

+ 網路資源

+ 儲存

## 2021/11/18
pcbug wang, 11月18日, 下午2:09

在GPU區的e3 DB 今日發生CPU usage 100% 頂天3分鐘的狀況
經確認, 當下已用盡該台實體機的CPU資源, 並無其他VM與之競爭的狀況
該台實體機CPU資源為96580MHz

謝旻錚, 11月18日, 下午2:10
what happened
pcbug wang, 11月18日, 下午2:11
e3 DB尖峰期使用了105982MHz, 應為intel短暫超頻的機制運作提供的額外效能

謝旻錚, 11月18日, 下午2:11
我早上有做預警,然後碰到幾次 timeout
pcbug wang, 11月18日, 下午2:12
先給老師這些資訊, 以免被主任問時無法抵抗
CPU數量為44核
謝旻錚, 11月18日, 下午2:12
這應該要去看他們的 log 吧,感覺是個爛 query
pcbug wang, 11月18日, 下午2:13
嗯, 為何會發生用盡CPU, 我這邊就不清楚了
謝旻錚, 11月18日, 晚上8:44
V5030 來了以後是不是壞過幾顆硬碟更換過?換回來的是不是 Seagate 那幾顆效能看起來比較好的
## 2021/10/12
謝旻錚, 10月12日, 下午3:51
e3 掛了 有概念嗎
pcbug wang, 10月12日, 下午3:53
呃,手上沒有什麼資訊.....
謝旻錚, 10月12日, 下午3:54
我們的服務有掛點嗎?
pcbug wang, 10月12日, 下午3:54
看起來網頁都無法出現
謝旻錚, 10月12日, 下午3:55
嘛,沒數據無法分析,系統又不在我們手上
檢查一下 VC 跟 storage 有無異常吧,沒異常跟我講一下
聽說報名系統也慢
pcbug wang, 10月12日, 下午4:24
於GPU區的DB VM正常, 僅CPU於16:10有一點升高, 使用率10.94%

vc5 MIS區的DB VM 同樣於16:10 CPU有一點升高, 至5.78%

pcbug wang, 10月12日, 下午4:28
moodle data儲存區的freenas則有一段時間流量很低, 但freenas沒有異常, 右上的警示是儲存使用超過80%, 目前81%.

謝旻錚, 10月12日, 下午4:28
很低應該就是異常的時段
pcbug wang, 10月12日, 下午4:30
看起來跟GPU DB VM時間吻合, 大約15:30開始.

SVC無異常

pcbug wang, 10月12日, 下午4:33
48TB, 192TB, allflash-5TB, allflash-17TB freenas均正常無警示
pcbug wang, 10月12日, 下午4:36
前端nginx似乎掛掉過?

## 2021/09/13
pcbug wang, 9月13日, 上午9:58
e3目前很慢, 每個動作都要等30秒左右
謝旻錚, 9月13日, 上午9:58
有明顯的資源不足嗎?
pcbug wang, 9月13日, 上午10:08
e3 DB VM CPU用盡

at GPU, 28 cores用盡

謝旻錚, 9月13日, 上午10:09
慘
pcbug wang, 9月13日, 上午10:10
host用盡
別無他法了
不然就要搬進比較危險的GPU運算區
Ming-hua Lin, 9月13日, 上午11:14
SVC to Volume(ESXi)的Response time也還好

謝旻錚, 9月13日, 上午11:27
是否因無法自動 migration 有關?
pcbug wang, 9月13日, 上午11:45
e3 DB 不是, GPU區獨立一台給他用了
portal應該是受到選課與e3 VM群共同擠壓.......
謝旻錚, 9月13日, 上午11:46
Portal 是跟誰共用資源?
pcbug wang, 9月13日, 上午11:46
MIS組 ESXi 快要擠爆
MIS組 VM

謝旻錚, 9月13日, 上午11:47
有 migration 可以負載平衡嗎?
pcbug wang, 9月13日, 上午11:48
有開
不過可能因為有多個VM都吃巨量CPU, 因此沒辦法完全平衡
謝旻錚, 9月13日, 上午11:49
嗯
pcbug wang, 9月13日, 上午11:49

一個core大概2.1GHz
謝旻錚, 9月13日, 上午11:52
唉,這個感覺上是一些爛 DB query 在升版後更爛了?
pcbug wang, 9月13日, 上午11:57
可以這麼說
主要問題應該是:
1. 選課用MS-SQL, replication效能很差
2. e3用mysql, 建了更吃資源等更久的cluster架構