使用 NVIDIA GeForce RTX 4090s/5090s 打造高效能 GPU 伺服器

使用 NVIDIA GeForce RTX 4090s/5090s 打造高效能 GPU 伺服器 //現在有直接支援八卡5090,跟rtx pro 6000 600w x8的主機了。不要土炮型改裝。 https://a20.ai/a20-a04-5090x8-gpu-server A20 A04 5090 gpu server Marco Mascorro 發佈日期：2025年4月3日在當今由人工智慧（AI）驅動的世界中，能夠在本地訓練 AI 模型並在 GPU 上以最佳成本快速執行推論（inference）的能力，比以往任何時候都更加重要。使用 RTX 4090 或 RTX 5090（如同本文所述）自行打造一台 GPU 伺服器，可以實現一個高效能的八 GPU 配置，運行於 PCIe 5.0，並具備完整的 x16 通道。這種配置確保了所有八個 GPU 之間的互連速度達到最大值。相比之下，大多數類似的配置受限於 PCIe 匯流排版本（例如 PCIe 4.0 或更低版本），這是由於運行較長的 PCIe 擴展所帶來的挑戰。在本地運行模型意味著無需向外部服務發出 API 呼叫，沒有資料外洩，也沒有使用限制。此外，你的資料完全屬於你自己，不會與雲端供應商共享日誌，也不會將敏感文件發送給外部模型提供者。這對於研究和注重隱私的開發者來說是完美的選擇。有鑑於此，我們決定使用現成且價格合理的硬體來打造我們自己的 GPU 伺服器。雖然它肯定不是生產就緒（production-ready）的，但作為一個平台，它的性能絕對綽綽有餘。（免責聲明：此項目僅為研究和教育目的而開發。）本指南將帶你逐步了解我們如何使用 NVIDIA 的 GeForce RTX 4090s 打造一台高效能 GPU 伺服器的過程。我們將建造兩台完全相同的伺服器，每台搭載八個 RTX 4090 GPU，並在相對簡單且成本效益高的套件中提供驚人的運算能力。所有 GPU 將以完整的 16 通道運行於 PCIe 4.0。（注意：我們已經使用 GeForce RTX 4090 建造並測試了我們的伺服器。雖然我們尚未使用 RTX 5090 進行測試，但它們應該是相容的，並預計能運行於 PCIe 5.0。） ![image](https://hackmd.io/_uploads/Skz4d46aye.png) 為什麼要打造這台伺服器？在人工智慧（AI）模型快速演進並日益依賴雲端基礎設施的時代，本地訓練和運行模型有著強烈的需求，特別是在研究、實驗以及獲得親手打造自訂 GPU 伺服器配置的經驗方面。 NVIDIA 的 RTX 系列 GPU 為這類項目提供了一個引人注目的選擇，以具有競爭力的成本提供了驚艷的性能。 RTX 4090 和 RTX 5090 可謂是真正的怪獸。RTX 4090 擁有 24GB 的顯示記憶體（VRAM）和 16,384 個 CUDA 核心，而 RTX 5090 預計將擁有 32GB 的顯示記憶體和 21,760 個 CUDA 核心，兩者皆提供卓越的 FP16/BF16 和張量（tensor）性能——能夠與資料中心級別的 GPU 媲美，卻只需其成本的一小部分。雖然企業級選項如 H100 或 H200 提供了頂尖性能，但它們的價格標籤卻相當昂貴。以單一 H100 的成本不到一半的價格，你就可以堆疊多個（4-8 個）RTX 4090 或 5090，並仍然實現驚人的推論（inference）吞吐量，甚至可以用來訓練較小的模型。打造一台小型 GPU 伺服器，特別是使用像 NVIDIA RTX 4090 或全新 RTX 5090 這樣的強大 GPU，能為運行大型語言模型（Large Language Models, LLMs）如 LLaMA、DeepSeek 和 Mistral，以及擴散模型（diffusion models），甚至是自訂微調的變體，提供卓越的靈活性、性能和隱私。現代開源模型在設計時考慮了高效推論，通常採用專家混合（Mixture of Experts, MoE）架構，而 4090 可以輕鬆處理這些工作負載。根據它們的參數規模，許多這樣的模型也可以在像我們這樣的小型伺服器上作為密集模型（dense models）運行，而無需進行量化（quantization）。想打造你自己的 Copilot？一個個人聊天機器人？一個本地 RAG（Retrieval-Augmented Generation）管道？沒問題。使用像 vLLM、GGUF/llama.cpp，甚至是搭配 DeepSpeed 的完整 PyTorch 推論庫，你可以充分利用以下功能： * 模型並行（Model parallelism） * 張量或管道並行（Tensor or pipeline parallelism） * 量化（Quantization）以減少顯示記憶體負載 * 使用分頁注意力（paged attention）或串流（streaming）實現記憶體高效的推論你完全掌控如何優化、修補和更新你的 GPU 伺服器。範例配置在我們深入探討建造過程之前，讓我們先討論為什麼這個特定的伺服器配置值得考慮： 1.簡單性：雖然打造一台高效能 GPU 伺服器可能看似令人畏懼，但我們使用的零件和適配方式對於具備中級技術技能的人來說是可輕鬆取得的。 2.PCIe 5.0 的未來保障：這台伺服器提供八個 PCIe 5.0 x16 插槽，帶來最大的頻寬並為高效能 GPU 提供未來的保障。雖然 RTX 4090 受限於 PCIe 4.0 的速度，但這個配置允許無縫升級至下一代的 PCIe 5.0 GPU，例如 GeForce RTX 5090。 3.支援八個三插槽 GPU（如 RTX 4090 或 RTX 5090）的 PCIe 板配置：在這個配置中，PCIe 板與主機板分離，這是一個獨特的設計，使兩個獨立的 PCIe 5.0 PCB 板能夠分別安裝。這種配置能容納所有八個 GPU（底部四個，頂部四個），無需額外複雜且昂貴的 PCIe 重新計時器（retimers）或重新驅動器（redrivers）。通常，這些元件在 PCIe 訊號通過較長的線路、纜線或連接器時需要用來維持訊號完整性。通過最小化訊號路徑長度和複雜性，這種設計確保了全速連接，同時具備更高的簡單性和可靠性。 4.優於傳統伺服器佈局：許多提供八個 PCIe 5.0 x16 通道的伺服器替代方案將其直接整合到主機板上。然而，這種佈局由於 RTX 4090 的三插槽寬度，物理上無法容納八個 RTX 4090。我們的配置通過將 PCIe 板與主機板分離解決了這個限制，實現對八個三插槽 GPU 的完整支援，無需妥協，並使用自訂的鋁製框架來固定四個外部 GPU。 5.直接 PCIe 連接：PCIe PCB 卡使用伺服器原有的通訊纜線連接到主機板，無需使用 PCIe 延長線、重新計時器或交換器。這是一個關鍵優勢，因為延長線可能會干擾 PCIe 匯流排阻抗，潛在導致系統降級到較低的 PCIe 版本（例如 3.0 甚至 1.0），從而造成顯著的性能損失。 6.自訂框架解決方案：我們將使用由 GoBilda 常見於機器人組件的元素打造的自訂框架，來牢固地固定頂部的四個外部 GPU。這使得八個三插槽 GPU 能夠適配這個伺服器配置，並使用原有的 PCIe 5.0 卡和纜線，無需 PCIe 重新驅動器或 PCIe 纜線延長。 7.簡單的電源分配：電源通過 ATX 24 針和 6 針主機板電源延長線、ATX 24 針 Y 型分線器以及 6 針 Y 型分線器分配到兩個 PCIe 板。 8.高效能基礎設施：我們的 GPU 配置運行於 220V 電源，並利用對稱的 10G 單模光纖網路連線。伺服器規格在我們開始建造過程之前，讓我們先回顧一下 GPU 伺服器的關鍵組件和規格：伺服器型號：ASUS ESC8000A-E12P GPU：8x NVIDIA RTX 4090 CPU：2x AMD EPYC 9254 處理器（24 核心，2.90GHz，128MB 快取）記憶體（RAM）：24x 16GB PC5-38400 4800MHz DDR5 ECC RDIMM（總計 384GB）儲存：1.92TB Micron 7450 PRO 系列 M.2 PCIe 4.0 x4 NVMe SSD（110mm）作業系統：Ubuntu Linux 22.04 LTS 伺服器版（64 位元）網路：2 x 10GbE LAN 端口（RJ45, X710-AT2），其中一個以 10Gb 使用額外的 PCIe 5.0 卡：ASUS 90SC0M60-M0XBN0 ![image](https://hackmd.io/_uploads/H1pJt4aa1l.png) 建造過程接下來，讓我們逐步介紹組裝高效能 GPU 伺服器的過程。步驟 1：準備伺服器機殼 1.從 ASUS ESC8000A-E12P 伺服器機殼開始。 2.移除頂蓋以及任何不必要的內部組件，為我們的客製化配置騰出空間。步驟 2：安裝記憶體（RAM） 1.將 24 個 16GB DDR5 ECC RDIMM 模組安裝到主機板上的適當插槽中。 2.確保它們正確就位並鎖定。 ![image](https://hackmd.io/_uploads/BydLY4T6yl.png) 步驟 3：安裝儲存裝置 1.找到主機板上的 M.2 插槽。 2.安裝 1.92TB Micron 7450 PRO 系列 M.2 PCIe 4.0 NVMe SSD。 ![image](https://hackmd.io/_uploads/Hk15t4661x.png) 步驟 4：準備 PCIe 板 1.安裝 ASUS 90SC0M60-M0XBN0 PCIe 5.0 附加卡。 2.將原本已安裝在伺服器中的原始 PCIe 卡（底部 PCIe 卡）的四對纜線（這些纜線上標有數字）重新導向。我們採用交替順序：第一組留在底部 PCIe 卡，第二組連接到頂部卡，第三組留在底部 PCIe 卡，以此類推。 ![image](https://hackmd.io/_uploads/H1c2tNTaJg.png) 步驟 5：製作 ATX 24 針和 6 針連接器的“Y”型分線器纜線 1.製作“Y”型分線器纜線延長線，以為將安裝在伺服器頂部的外部 90SC0M60-M0XBN0 PCIe 5.0 擴展卡提供電源。 2.確保“Y”型分線器纜線延長線的線規適當，能夠安全地處理外部 PCIe 卡和 GPU 的電源需求。 ![image](https://hackmd.io/_uploads/Hyvr5VTTJg.png) 24-pin and 6-pin power connectors 步驟 6：安裝下層 GPU 1.將四個 NVIDIA RTX 4090 GPU 安裝到靠近主機板的原始 PCIe 卡上的下層 PCIe 插槽中。 2.確保它們正確就位並牢固固定。 ![image](https://hackmd.io/_uploads/By6wqVT61l.png) 步驟 7：為上層 GPU 準備自訂框架並安裝 1.我們使用 GoBilda 組件打造了一個自訂框架。 2.確保框架堅固且尺寸適當，能夠容納四個 RTX 4090 GPU。 3.確保使用的電源線線規適當，能夠處理每顆 GPU 的需求。 ![image](https://hackmd.io/_uploads/r1mOqV6Tkl.png) 步驟 8：網路設置 1.找到伺服器上的兩個 10GbE LAN 端口（RJ45, X710-AT2）。 2.將其中一個端口連接到你的 10G 單模光纖網路介面。步驟 9：最終組裝與線纜管理 1.再次檢查所有連接和組件位置。 2.實施適當的線纜管理，以確保最佳的氣流和熱效能，例如確保伺服器之間有足夠的空間。步驟 10：作業系統安裝 1.製作一個帶有 Ubuntu Linux 22.04 LTS 伺服器版（64 位元）的可啟動 USB 隨身碟。 2.從 USB 隨身碟啟動伺服器，並按照安裝提示進行操作。 3.安裝完成後，更新系統並為 GPU 和其他組件安裝必要的驅動程式。最終組裝一旦你完成了所有步驟，你應該會得到一台像這樣的 GPU 伺服器，並準備好投入工作！ ![image](https://hackmd.io/_uploads/BkJWj4pakl.png) ![image](https://hackmd.io/_uploads/r1dbsVaTye.png) 原文來源: https://a16z.com/building-an-efficient-gpu-server-with-nvidia-geforce-rtx-4090s-5090s