### 硬體資源管理 - 每台 Server 的 硬體規格需完整整理,包括: - CPU、GPU、RAM、SSD、HDD、內網ip 等資訊 - 每顆硬碟的用途應註明(例如:系統、資料儲存、是否專門作為 offloading 實驗等等) - 系統應安裝於 SSD,使用者資料 (/home) 儲存在 HDD,如該機器的 SSD 大一點 (e.g. >= 2TB),則考慮 /home 就不用轉了 ### 系統與軟體管理 - 系統版本以 穩定、支援備份的 Ubuntu 版本為優先 - Ubuntu 22.04 LTS 為首選(與 Synology 備份、UPS 等系統兼容性佳) - Ubuntu 24.04 LTS 作為次選(較新、支援期更長,需注意 kernel 版本如 6.8) - 根據實測結果與備份系統相容性做最終決定 (重灌系統時 22.04 能否支援 5090) ### 使用者相關 - 每位使用者在三台 GPU Server 上都有帳號 - 實驗前可透過 `htop` / `nvtop` / `iotop` 觀察系統負載,自行決定使用哪台資源空閒的 Server - 避免使用者互相干擾,提高資源使用效率,究竟會不會有數據上的誤差由使用者自行評估 - 不同使用者的資料同步自行管理,建議使用 git - 初期三台 GPU Server(13900K+5090、13900K+4090、7950X3D+4090): - 暫定全部用途一致,供所有人使用 - 若未來有使用者需更改系統(如 kernel 版本),再指定一台作為「可變動環境專用」 - 暫定 Server 名稱 - csslab-5090-0: 13900K+5090 - csslab-4090-0: 13900K+4090 - csslab-4090-1: 7950X3D+4090 ### 資料同步與備份 - 系統變動應不影響資料安全,主要資料儲存在 HDD,方便同步、備份與系統重灌後的還原 - 使用 Synology NAS 的 Active Backup 進行每日備份 - 避免升級 kernel 導致備份功能中斷