# 【簡報導讀-002】 Intel 硬體在 AI 加速中的應用  **為了方便大家快速理解,以下內容使用 Google NotebookLM 產生相關文字及語音解說,如想深入了解的朋友可參考原始來源。** **原始Youtube影片: "[AI Acceleration With Efficient Intel Hardware](https://youtu.be/OG_zIYdeHwU)"** 影片上傳日期: 2025/6/4 主要講者: Vijay Bandari, David Weik 主題: Intel 硬體在 AI 加速中的應用 {%youtube OG_zIYdeHwU%} ## Podcast 雙人對話式 Podcast 重點摘要: {%youtube V-G7Vs2mLAo%} ## 簡介 這份簡報深入探討了 Intel 如何透過其最新的硬體創新(特別是 Xeon 處理器和 Gaudi 加速器)來推動 AI 和分析領域的進步。簡報強調了 Intel 在 AI 工作負載優化方面的長期承諾,以及與 SAS 等合作夥伴的緊密協作,旨在為從邊緣到雲端的廣泛應用提供最佳效能和總體擁有成本 (TCO)。 ## 主要主題與重要事實 1. AI 無處不在:Intel 的統一平台願景 Intel 秉持著「AI 無處不在」的理念,旨在提供一個統一的平台,使其產品線能夠支援從邊緣到雲端的所有 AI 工作負載。 * AI 無處不在是我們正在遵循的口號。 * 產品線涵蓋邊緣的 Atom Core、資料中心的 Xeon Core,以及專為深度學習設計的 Gaudi 加速器。 * Intel 認為 AI 並非單一的工作負載,而是由預訓練、訓練、微調和推論等不同階段組成的生命週期,每個階段都有其獨特的需求,需要選擇合適的產品來實現最佳 TCO 和效能。 2. Xeon 6 處理器:AI 和 HPC 工作負載的優化 Xeon 6 是 Intel 最新一代的 CPU,透過架構改進(如核心密度增加、記憶體通道和記憶體選項)為 AI、HPC 和資料庫工作負載帶來顯著的效率提升。 * AMX (Advanced Matrix Extensions) 加速器:從 Xeon 第四代開始引入,Xeon 6 作為第六代也包含此功能。 * AMX 是一種內建於每個核心的矩陣乘法引擎,擁有專門的暫存器和指令集,用於高效處理陣列或矩陣資料,而非逐元素處理。 *這不只適用於相同的資料集,我們確保在不同的演算法集和不同大小及結構的資料集上進行測試,以確保它代表您在使用 SAS 軟體時在現場執行的工作負載類型。 * 對於深度學習 (DL) 工作負載,AMX 能夠帶來 5x 到 10x 的效能提升,與 AVX 512 結合使用,在 BF-16 或 FP16 量化下,甚至能達到 16x 的效能提升。 * AMX 支援 FP16、BF16 和 Int8 等資料類型。 * AMX 並非位於核心外部或插槽旁的加速器,它是核心本身的一部分。 * 低參數模型推論與微調:對於小於 200 億參數的模型,推論和微調在 CPU 上是可行的,Xeon 6 搭配 AMX 加速器可以支援高達 200-300 個使用者。 * 我們對市場的建議是,任何小於 200 億參數的模型進行推論和微調,在 CPU 上都是可行的。 * 總體擁有成本 (TCO) 優勢:相較於傳統部署,升級到 Xeon 6 可以顯著減少伺服器數量(5x 到 17x)和功耗,從而降低 TCO。 3. Gaudi 加速器:專為大規模深度學習設計 當模型規模增加或使用者並發數更高時,Gaudi 被推薦作為專用的深度學習加速器。 * Gaudi 是一種 ASIC (特定應用積體電路),專為深度學習而設計,擁有 Tensor Core、Matrix Core 和 HBM 記憶體,並增加了乙太網路頻寬。 * Gaudi 3 旨在替代市場上流行的 GPU,例如 H100 和 H200,提供更好的 TCO。 * 在 SAS Hackathon 訓練營中,參與者成功在 Intel Gaudi 平台上運行 LLM 驅動的代理,展現了其強大的迭代和並行處理能力。 4. 軟體生態系統與開發工具 Intel 提供了一整套工具和庫,以確保其硬體能夠被開發者有效利用。 * 流行框架的優化: Intel 與 PyTorch、TensorFlow、Onyx、XG Boost 和 Scikit-learn 等主流框架合作,將其優化程式碼上游化,使得在使用 Intel 架構時,這些框架能夠自動發現並利用硬體優化。 * OpenVINO: Intel 提供的免費工具,用於模型開發和部署,實現「一次開發,多處部署」。OpenVINO 支援模型從雲端或地端訓練的 FP16 量化模型,在邊緣進行 Int8 推論。 * Intel oneAPI: 包含 oneDNN、oneCCL、oneMKL 等多個函式庫,這些函式庫對開發者是透明的,同時也提供開源版本供深度開發使用。 * Intel Tiber Developer Cloud: 一個開發者可以測試 Intel 技術的「遊樂場」,提供作為服務或裸機的多種選項。 * 預優化模型: Intel 在 Hugging Face/Intel 上發布了大量預優化模型,參數範圍從 700 萬到 6700 億不等,供開發者直接使用。 5. 機密計算 (TDX):保護 AI 資料和模型 TDX (Trusted Domain Extension) 是 Intel 在 Xeon 第四代處理器之後引入的信任技術,旨在提高 AI 的安全性和負責任使用。 * TDX 允許創建一個包含整個虛擬機的機密領域,保護記憶體中的資料和模型,使其免受潛在的攻擊和未經授權的存取。 * 您記憶體中的資料受到基於矽的加密保護。 * 與軟體實施相比,TDX 能夠將攻擊面減少約 10 倍。 * 在機密計算環境中,即使有人惡意存取記憶體,也只會看到亂碼,CPU 可以在不解密的情況下處理加密資料。 6. 延遲與使用者體驗 在 LLM (大型語言模型) 部署中,延遲對使用者體驗至關重要。 * 人類可感知的延遲通常為 100 毫秒。如果響應時間超過 100 毫秒,使用者會感覺到速度較慢。 * 簡報展示了在 Xeon 6 上運行 LLM 的第一詞元延遲和後續詞元延遲數據,例如 200 毫秒、140 毫秒,這些數據在某些情況下優於初始響應需要 3-5 秒的方案。 * 對於低於 200 億參數的模型,Xeon 6 搭配 AMX 可以提供足夠的效能,支援 200-300 個使用者。對於需要支援 10,000 名使用者的情況,則建議使用 Gaudi 等專用加速器。 ## 結論 Intel 透過 Xeon 6 處理器(特別是其內建的 AMX 加速器)、Gaudi 專用 AI 加速器以及完善的軟體生態系統(如 OpenVINO 和 oneAPI),展現了其在 AI 領域的全面佈局。這些創新不僅大幅提升了 AI 工作負載的效能和效率,還透過 TDX 等技術確保了資料和模型的安全。Intel 的目標是提供涵蓋 AI 生命週期各階段的解決方案,讓客戶能夠根據其工作負載需求,在效能、TCO 和可擴展性之間做出最佳選擇。
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.