INDS 全院共享 GPU 運算平台服務新 H100 服務

# INDS 全院共享 GPU 運算平台服務新 H100 服務 ![image](https://hackmd.io/_uploads/ByEaeUTrR.png) ![image](https://hackmd.io/_uploads/r1TaxITSC.png) ## 營運模式 - 以 MIG( Multi Instance GPU技術對實體 GPU 卡進行邏輯分割，申請者依需求申請運算單元。需求評估參考附件一 ![image](https://hackmd.io/_uploads/HyXm-UarA.png) - 一部 DGX H100: - 每片 H100 可以切分成 (7*10GB) - 共 8 片 H100 ，共可切分成 56 個運算單元 ## 申請流程 - 申請時須提供： - GPU 運算單元數 - 額外要開通的 port( 預設會開 SSH) - NGC image，可參考: - [NGC 官網](https://catalog.ngc.nvidia.com/) - [NGC Pytorch](https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch/tags) - 租用期間 - 申請與諮詢窗口 - Email：ITRIDGX@itri.org.tw - 顏孟慈 #12930 - 吳啓維 #14679 ## 管理流程 - 管理流程 - 依照申請規格準備環境 - 設定監控系統，過高、過低之使用發出提醒 - 系統自動化監控使用者環境資源，避免資源耗盡影響專案進度 - 備份使用者運作環境，避免重新建置 image - 管理介面 (K8S) 的套件測試與更新 :::warning - 每個 Job 運算期間，若 **GPU 使用率連續 24 小時低於 50%** 將與使用者協商，回收部分/全部 GPU 資源，給下一個排隊者使用 - 撰寫模型訓練程式，**必需設定 check point** ::: ## 計費方式 - 以天與申請使用的GPU運算單元為基準計算費用(如下表) ![image](https://hackmd.io/_uploads/rJcXfUaB0.png) - 例如：申請7個運算單位 - 1天=1470元 - 2天=2940元 - 1 week=10,290元 - 1 month=44,100元 ## 20240617 QA - 關於申請時須提供的「額外要開通的 port( 預設會開 SSH)」，這部分有範例參考嗎？ - 預設會開啟SSH port讓您可以SSH登入使用，如果還要開通其他port(例如 Jupyter Notebook)，再提供須開通的port number即可。 - NGC 的部分，以 torch 24.05-py3 為例，我提供 nvcr.io/nvidia/pytorch:24.05-py3 這樣可以嗎? - 可以 - 租用之「運算單元數量」及「租用期間」於試用期間是否有所限制？ - 依需求及當時平台的使用狀況決定 - 租用申請時，是否需要明列用途或需要訓練的模型？ - 不需要