【簡報導讀-002】 Intel 硬體在 AI 加速中的應用

# 【簡報導讀-002】 Intel 硬體在 AI 加速中的應用 ![Intel AI acceleration hardware](https://hackmd.io/_uploads/rJm8FbuQgl.jpg) **為了方便大家快速理解，以下內容使用 Google NotebookLM 產生相關文字及語音解說，如想深入了解的朋友可參考原始來源。** **原始Youtube影片： "[AI Acceleration With Efficient Intel Hardware](https://youtu.be/OG_zIYdeHwU)"** 影片上傳日期： 2025/6/4 主要講者： Vijay Bandari, David Weik 主題： Intel 硬體在 AI 加速中的應用 {%youtube OG_zIYdeHwU%} ## Podcast 雙人對話式 Podcast 重點摘要： {%youtube V-G7Vs2mLAo%} ## 簡介這份簡報深入探討了 Intel 如何透過其最新的硬體創新（特別是 Xeon 處理器和 Gaudi 加速器）來推動 AI 和分析領域的進步。簡報強調了 Intel 在 AI 工作負載優化方面的長期承諾，以及與 SAS 等合作夥伴的緊密協作，旨在為從邊緣到雲端的廣泛應用提供最佳效能和總體擁有成本 (TCO)。 ## 主要主題與重要事實 1. AI 無處不在：Intel 的統一平台願景 Intel 秉持著「AI 無處不在」的理念，旨在提供一個統一的平台，使其產品線能夠支援從邊緣到雲端的所有 AI 工作負載。 * AI 無處不在是我們正在遵循的口號。 * 產品線涵蓋邊緣的 Atom Core、資料中心的 Xeon Core，以及專為深度學習設計的 Gaudi 加速器。 * Intel 認為 AI 並非單一的工作負載，而是由預訓練、訓練、微調和推論等不同階段組成的生命週期，每個階段都有其獨特的需求，需要選擇合適的產品來實現最佳 TCO 和效能。 2. Xeon 6 處理器：AI 和 HPC 工作負載的優化 Xeon 6 是 Intel 最新一代的 CPU，透過架構改進（如核心密度增加、記憶體通道和記憶體選項）為 AI、HPC 和資料庫工作負載帶來顯著的效率提升。 * AMX (Advanced Matrix Extensions) 加速器：從 Xeon 第四代開始引入，Xeon 6 作為第六代也包含此功能。 * AMX 是一種內建於每個核心的矩陣乘法引擎，擁有專門的暫存器和指令集，用於高效處理陣列或矩陣資料，而非逐元素處理。 *這不只適用於相同的資料集，我們確保在不同的演算法集和不同大小及結構的資料集上進行測試，以確保它代表您在使用 SAS 軟體時在現場執行的工作負載類型。 * 對於深度學習 (DL) 工作負載，AMX 能夠帶來 5x 到 10x 的效能提升，與 AVX 512 結合使用，在 BF-16 或 FP16 量化下，甚至能達到 16x 的效能提升。 * AMX 支援 FP16、BF16 和 Int8 等資料類型。 * AMX 並非位於核心外部或插槽旁的加速器，它是核心本身的一部分。 * 低參數模型推論與微調：對於小於 200 億參數的模型，推論和微調在 CPU 上是可行的，Xeon 6 搭配 AMX 加速器可以支援高達 200-300 個使用者。 * 我們對市場的建議是，任何小於 200 億參數的模型進行推論和微調，在 CPU 上都是可行的。 * 總體擁有成本 (TCO) 優勢：相較於傳統部署，升級到 Xeon 6 可以顯著減少伺服器數量（5x 到 17x）和功耗，從而降低 TCO。 3. Gaudi 加速器：專為大規模深度學習設計當模型規模增加或使用者並發數更高時，Gaudi 被推薦作為專用的深度學習加速器。 * Gaudi 是一種 ASIC (特定應用積體電路)，專為深度學習而設計，擁有 Tensor Core、Matrix Core 和 HBM 記憶體，並增加了乙太網路頻寬。 * Gaudi 3 旨在替代市場上流行的 GPU，例如 H100 和 H200，提供更好的 TCO。 * 在 SAS Hackathon 訓練營中，參與者成功在 Intel Gaudi 平台上運行 LLM 驅動的代理，展現了其強大的迭代和並行處理能力。 4. 軟體生態系統與開發工具 Intel 提供了一整套工具和庫，以確保其硬體能夠被開發者有效利用。 * 流行框架的優化： Intel 與 PyTorch、TensorFlow、Onyx、XG Boost 和 Scikit-learn 等主流框架合作，將其優化程式碼上游化，使得在使用 Intel 架構時，這些框架能夠自動發現並利用硬體優化。 * OpenVINO： Intel 提供的免費工具，用於模型開發和部署，實現「一次開發，多處部署」。OpenVINO 支援模型從雲端或地端訓練的 FP16 量化模型，在邊緣進行 Int8 推論。 * Intel oneAPI：包含 oneDNN、oneCCL、oneMKL 等多個函式庫，這些函式庫對開發者是透明的，同時也提供開源版本供深度開發使用。 * Intel Tiber Developer Cloud：一個開發者可以測試 Intel 技術的「遊樂場」，提供作為服務或裸機的多種選項。 * 預優化模型： Intel 在 Hugging Face/Intel 上發布了大量預優化模型，參數範圍從 700 萬到 6700 億不等，供開發者直接使用。 5. 機密計算 (TDX)：保護 AI 資料和模型 TDX (Trusted Domain Extension) 是 Intel 在 Xeon 第四代處理器之後引入的信任技術，旨在提高 AI 的安全性和負責任使用。 * TDX 允許創建一個包含整個虛擬機的機密領域，保護記憶體中的資料和模型，使其免受潛在的攻擊和未經授權的存取。 * 您記憶體中的資料受到基於矽的加密保護。 * 與軟體實施相比，TDX 能夠將攻擊面減少約 10 倍。 * 在機密計算環境中，即使有人惡意存取記憶體，也只會看到亂碼，CPU 可以在不解密的情況下處理加密資料。 6. 延遲與使用者體驗在 LLM (大型語言模型) 部署中，延遲對使用者體驗至關重要。 * 人類可感知的延遲通常為 100 毫秒。如果響應時間超過 100 毫秒，使用者會感覺到速度較慢。 * 簡報展示了在 Xeon 6 上運行 LLM 的第一詞元延遲和後續詞元延遲數據，例如 200 毫秒、140 毫秒，這些數據在某些情況下優於初始響應需要 3-5 秒的方案。 * 對於低於 200 億參數的模型，Xeon 6 搭配 AMX 可以提供足夠的效能，支援 200-300 個使用者。對於需要支援 10,000 名使用者的情況，則建議使用 Gaudi 等專用加速器。 ## 結論 Intel 透過 Xeon 6 處理器（特別是其內建的 AMX 加速器）、Gaudi 專用 AI 加速器以及完善的軟體生態系統（如 OpenVINO 和 oneAPI），展現了其在 AI 領域的全面佈局。這些創新不僅大幅提升了 AI 工作負載的效能和效率，還透過 TDX 等技術確保了資料和模型的安全。Intel 的目標是提供涵蓋 AI 生命週期各階段的解決方案，讓客戶能夠根據其工作負載需求，在效能、TCO 和可擴展性之間做出最佳選擇。