# influxdb 錯誤處理紀錄 (10/12) 一進到 influxdb 發現 cpu mem 狀態滿載,當下先把服務給停止了 ``` monit unmonitor telegraf monit unmonitor kapacitor ``` telegraf 是用來監控的程式,暫時不用讓他啟動 kapacitor 是用來建立用戶的程式,也可以不讓他啟動 但發現用量還是很高,ps -ef 發現有很多還再執行的 bash ``` pkill bash ``` 穩定的刪除正在執行的bash ,使用量有明顯下降了。 這時候使用 ``` ps -ef | grep influxdb ``` 發現 influxdb 啟動了很多個 influxdb_ctl 一樣先把 influxdb 停止 ``` monit unmonitor influxdb ``` 然後我們手動啟動來查問題看看 ``` /var/vcap/packages/influxdb/influxd -pidfile /var/vcap/store/influxdb/influxd.pid -config /var/vcap/jobs/influxdb/etc/influxdb.conf ``` 發現問題 ![](https://i.imgur.com/LulZrow.png) 這問題實在棘手,表示資料夾裡面有東西壞了,而能是受到很多因素影響,這裡推測可能跟 disk 有關係,因為前幾天 arfa harbor也有壞過。。。。當然是推測,不知道詳細情況。 這時候先把 telegraf 資料夾備份到 /tmp 底下,如果空間足夠的話。 本來會是一個個資料夾刪除的,但後來發現每個錯誤的資料夾都不同 所以最後就是直接把telegraf的資料夾砍了,重啟後恢復。 由於是手動啟動的,先用 Ctrl+c 退出,再用下面指令啟動 ``` monit monitor influxdb ``` 使用帳號密碼進去查看狀態 ![](https://i.imgur.com/a02Bpk8.png) 好險資料還在,收工。 後來有再把 telegraf 監控開起來,正常運作。 ``` monit monitor telegraf ``` 維持這樣的狀態就可以了 ![](https://i.imgur.com/gzKCmsi.png)