# Infra ## Issue ## Build Cluster - NFS 或其他共享的檔案系統(千千萬萬要掛home *pgm: 應該是 NIS 的問題吧 不是 home* - 平行檔案系統 - iscsi - env modules - 環境變數管理 - Slurm - 多節點的任務啟動 - 任務管理 - 排程 - I/O 效能可能較差 - GPU driver 和 IB driver - CUDA & MKL install # APP ### Dependency (e.g., 用到的 lib) - 編譯 lib - 啟用 cuda ### HPL/HPCG - 有不同版本 - NUMA binding、device binding 對效能差異很大 - HPL、HPCG 本身參數 ### HPC APP - 看考古題 ### AI - LLM - Nemo - GenAI 框架