Description
某次斷電後,Nvidia Driver 的版本從 525 降回 460,多次重裝 Driver 與重新開機,都沒辦法升級回 525 版,以下筆記紀錄我解決此問題的過程。
OS: Ubuntu 20.04
Steps
- 查看是否有任何 Nvidia Package
- 將這些 Package 一個不留的刪光
- 反覆前兩步驟,若有殘留的套件則手動刪除
- e.g.
sudo apt-get remove --purge nvidia-driver-525-server
- 檢查是否有程序正在使用 Nvidia 裝置
- 發現有 Xorg 正在啟用圖形化介面,把他關掉
- 執行 Nvidia 官方的刪除程式
- 刪除多餘的殘留套件
- 檢查 DKMS 的 Nvidia 狀態
- 刪除 DKMS 底下所有與 Nvidia 相關的資料夾,例如:
- (非常重要)重新開機
- 重開前確認
nvidia-smi
指令並不存在,但即便不存在,重開之後也有可能冒出來
- 重開後輸入
nvidia-smi
確認此指令並不存在,代表大致上刪除成功
- 重新安裝 Nvidia Driver
- 查詢有哪些 Driver 版本可以安裝
- 安裝目標版本的驅動程式,例如 525 為 CUDA 12.0
- 如果是使用桌面版的 Ubuntu 則可以透過以下指令安裝:
- 安裝過程中發生類似以下的訊息:
Logging Message
- 解決方法:
- 透過 DKMS 強制載入
- 其中
525.105.17
與 5.4.0-152-generic
是根據 Logging Message 決定的
- 安裝的若不是 Server 版的 Nvidia Driver,則
-m
後面可能不是接 nvidia-srv
- 可能是根據
INFO:Enable ...
決定的
- 可能訊息長的不會完全一樣,但如果有類似
.ko
的訊息跑出來就可以試試看強制載入 DKMS 的指令。
- 保險起見可以再重開一次。
- 再次執行
nvidia-smi
確定驅動程式版本恢復成 525 了,萬歲
Image Not Showing
Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
Power Limit
- 查詢功率限制:
- 啟用持續模式使功率限制持續套用:
- 設定新的功率上限:
- 其中
-i
代表 GPU 的索引值。
Installation
- 移除 NVIDIA 相關套件:
- 檢視最新版本:
- 也可以到這個網頁查看版本資訊。
- 以 570.144 版本為例,下載安裝程式:
- 給予安裝程式執行權限:
- 透過安裝程式移除驅動程式:
- 執行安裝程式:
- 啟用驅動程式:
Reference