白皮書：高通 Snapdragon 平台上的裝置端 AI — 釋放異構運算的全部潛能

# 白皮書：高通 Snapdragon 平台上的裝置端 AI — 釋放異構運算的全部潛能 ## 1. 導論：從雲端到邊緣，AI 運算的範式轉移人工智慧（AI）應用的發展正經歷一場深刻的範式轉移，運算重心正以前所未有的速度從集中式的雲端（Cloud AI）向分散式的終端裝置（Edge AI 或 On-device AI）遷移。這一轉變不僅是技術演進的必然，更是一項影響深遠的戰略佈局。過去，複雜的 AI 模型需要在遠端資料中心的龐大 GPU 叢集上運行；如今，新一代的生成式 AI 體驗，如即時翻譯、AI 助理和個人化內容創作，要求運算必須在用戶的個人裝置上即時完成。此趨勢的背後，是對即時性、隱私保護與可靠性的極致追求。傳統的雲端 AI 架構雖然強大，卻也面臨著四大核心限制，而裝置端 AI 正是為了解決這些痛點而生： | 限制 | 邊緣 AI 優勢 | |---|---| | 延遲問題 (Latency) | 資料來回傳輸網路造成的延遲，對於自動駕駛、即時互動等應用是無法接受的。在裝置端直接運算，能將延遲降至最低，實現即時回應。 | | 隱私疑慮 (Privacy) | 個人化或敏感性資料（如個人對話、醫療影像）需上傳至第三方伺服器，引發資料外洩與濫用的風險。裝置端 AI 讓資料始終保留在本地，最大程度地保障用戶隱私。 | | 網路依賴 (Connectivity) | 雲端 AI 服務在沒有網路或連線不穩定的環境下便無法使用。裝置端 AI 可在離線狀態下獨立運行，確保應用的可靠性與普遍性。 | | 成本考量 (Cost) | 大規模的雲端運算需要持續支付高昂的伺服器與頻寬費用。裝置端 AI 將運算成本轉移至一次性的硬體，對於大規模部署更具經濟效益。 | 綜上所述，對於追求極致使用者體驗的新一代生成式 AI 應用而言，裝置端 AI 不再是一個選項，而是一個必然的發展方向。它為需要即時互動、高度隱私保護和全天候可靠性的應用場景提供了堅實的基礎。然而，要在功耗和散熱受限的行動裝置上實現媲美雲端的 AI 效能，對底層的硬體架構提出了前所未有的挑戰。這項挑戰不僅僅是技術問題，更需要一種全新的設計哲學，引領我們深入探討下一代處理器架構的核心理念——異構運算。 --- ## 2. 異構運算的必然性：為多元 AI 工作負載打造的處理器架構現代 AI 應用的複雜性與多樣性，早已超越了任何單一處理器的處理能力範疇。無論是 CPU 還是 GPU，其通用設計已無法在效能、功耗和散熱之間取得最佳平衡，以滿足日益嚴苛的 AI 運算需求。因此，「異構運算」（Heterogeneous Computing）成為了必然的解決方案。其核心理念是：在一個系統單晶片（SoC）中整合多種專為不同任務設計的處理器，並透過智慧調度，將特定的工作負載分配給最適合的處理單元，從而實現系統整體的效能最大化與功耗最小化。這不僅僅是使用不同的工具，更是一項系統級的戰略，旨在管理峰值效能、散熱裕度與電池續航力之間持續存在的工程權衡。現代 AI 使用案例根據其運行特性，可大致分為三種類型，每種類型對處理器的需求都截然不同： - **隨選使用案例 (On-demand use cases)** - **說明：** 由使用者觸發，需要立即回應的任務。這類應用對延遲極為敏感。 - **範例：** AI 圖像生成與編輯、文件或郵件內容的即時摘要、程式碼生成。 - **持續性使用案例 (Sustained use cases)** - **說明：** 需要在一段較長時間內持續運行的任務。這類應用對能效（performance per watt）要求極高，以避免裝置過熱或快速耗電。 - **範例：** 遊戲畫面的超解析度增強、視訊通話中的背景虛化與降噪、即時語音翻譯。 - **普遍性使用案例 (Pervasive use cases)** - **說明：** 在背景中 24/7 全時運行的任務，通常用於情境感知與個人化推薦。這類應用要求極致的低功耗。 - **範例：** 隨時待命的預測性 AI 助理、根據對話內容智慧建議會議行程、進階的文字自動完成。為了應對這些多元化的工作負載，一個理想的異構運算架構就像一個裝滿了專業工具的「工具箱」，每個工具（處理器）都有其獨特的專長： - **CPU (Kryo / Oryon)：** 其對循序控制與低延遲的精通，使其成為處理需要快速反應但運算量相對較小的 AI 模型或複雜控制流程的最佳選擇。 - **GPU (Adreno)：** 專為高精度格式的串流平行處理而設計，是處理大規模平行運算（尤其在圖形渲染和 FP16/FP32 視覺 AI 模型中）的強大引擎。 - **NPU (Hexagon)：** 為 AI 任務量身打造，旨在為核心 AI 工作負載提供持續性、高效率的峰值效能，並在最低功耗下高效處理神經網路運算。透過智慧地將不同 AI 任務分配給最適合的處理器，異構運算架構能夠在極致效能、散熱效率和電池續航力之間取得完美的平衡，最終為使用者帶來更流暢、更持久的生成式 AI 體驗。高通公司正是透過其精心打造的 Qualcomm AI 引擎，將這一異構運算的願景變為現實。 --- ## 3. Qualcomm AI 引擎：深度解析系統級異構運算架構 Qualcomm AI 引擎是高通異構運算理念的具體實現，它是應對前述挑戰的必然架構結晶。它不僅僅是多個處理器的簡單堆砌，而是一套經過深度系統級共同設計、軟硬體協同優化的完整解決方案。這種從晶片底層到軟體堆疊的全棧式設計，確保了各個處理單元之間能夠無縫協作，發揮出 1+1>2 的綜效。 ### Qualcomm AI 引擎的核心處理單元 Qualcomm AI 引擎整合了多個專用處理器，每個處理器都在 AI 工作流程中扮演著不可或缺的角色： - **Qualcomm® Hexagon™ NPU：** 作為整個 AI 引擎的核心，Hexagon NPU 是「為 AI 而生」的專用處理器。其設計理念源自長期的技術演進：它從最初的數位訊號處理器（DSP）發展而來，於 2018 年在 Snapdragon 855 中加入了 Hexagon Tensor Accelerator，並在 2020 年演進為融合了純量、向量和張量加速器的統一架構。特別是在為生成式 AI 設計的 Snapdragon 8 Gen 3 中，Hexagon NPU 進行了革命性的架構升級，實現了高達 98% 的效能提升和 40% 的能效改善。關鍵升級包括： - **微架構升級：** 全面提升純量、向量和張量加速器的效能與協同效率。 - **升級的微切片推論 (micro-tile inferencing)：** 將神經網路拆分為更小的區塊獨立執行，極大地減少了對外部 DRAM 的存取需求，這對於降低功耗和提升持續性效能至關重要，讓 AI 助理運行更久而不發燙。 - **記憶體頻寬優化：** 將大型共享記憶體的頻寬加倍，以應對現代 Transformer 模型固有的記憶體頻寬瓶頸。 - **原生 INT4 整數精度支援：** 提供了硬體級的 4 位元整數運算支援，這對於在裝置端運行大型語言模型至關重要，能顯著提升效能與能效。 - **Qualcomm® Adreno™ GPU：** Adreno GPU 不僅是圖形處理的引擎，也是強大的平行運算單元。它擅長處理需要較高數值精度（如 FP16/FP32）的 AI 模型，或與視覺高度相關的任務，例如大型視覺模型（LVM）的圖像生成與處理。 - **Qualcomm® Kryo™ 或 Qualcomm Oryon™ CPU：** CPU 在 AI 引擎中扮演著靈活的協調者與快速反應者的角色。它非常適合處理那些對延遲極為敏感、但本身運算量不大的 AI 模型（例如文字轉語音），或是負責整個 AI 應用的主控制流程。 - **Qualcomm® Sensing Hub：** 這是一個專為「普遍性」使用案例設計的超低功耗 AI 處理器。在 Snapdragon 8 Gen 3 中，其效能較前代提升了 3.5 倍，記憶體也增加了 30%。它能夠在主 SoC 大部分處於休眠狀態時，以低於 1 毫安培（mA）的電流持續運行，處理如語音喚醒、感測器數據分析等需要 24/7 全時運行的情境感知任務，極大地延長了裝置的電池續航。 ### 系統級方法的差異化優勢高通的獨特優勢在於採用全棧（full-stack）客製化設計。與市場上許多「將第三方處理器拼湊在一起」的模式不同，高通完全掌控從指令集架構（ISA）到硬體設計，再到軟體驅動和工具鏈的每一個環節。這種系統級的協同設計帶來了顯著的差異化優勢： - **更深度的協同優化：** 設計團隊可以從全局視角出發，優化處理器之間的數據流動、共享記憶體的使用效率以及任務調度的策略，消除潛在的效能瓶頸。 - **更快的創新速度：** 由於掌握核心 ISA，高通可以快速地在硬體中加入針對最新 AI 模型（如 Transformer）的專用指令或加速單元，以應對新出現的運算瓶頸，確保硬體架構始終與 AI 演算法的發展保持同步。這種整合性的設計理念，使得 Qualcomm AI 引擎成為一個高效、協同工作的有機整體，而非一盤散沙。然而，卓越的架構理論需要透過實際應用來驗證其價值，下一章我們將透過一個具體的案例來展示其強大之處。 --- ## 4. 實踐中的異構運算：AI 個人助理案例研究理論的價值在於實踐。本章節將透過一個具體的生成式 AI 應用——搭載即時虛擬化身的 AI 個人助理——來剖析 Qualcomm AI 引擎的異構處理器如何在一個複雜的多模型應用中協同工作，將理論付諸實踐。這個應用程式在 Snapdragon 8 Gen 3 平台上展示，完美體現了將正確的工作負載分配給最適合的處理器所帶來的巨大優勢。以下是該 AI 助理應用的完整工作流程拆解，以及每個環節的處理器分配策略： 1. **使用者語音輸入 → 自動語音辨識 (ASR)** - **模型：** Whisper (OpenAI 的 ASR 模型) - **執行單元：** Qualcomm Sensing Hub - **分配原因：** 語音喚醒和初步辨識是需要全時待命的任務。將其分配給經過大幅升級（效能提升 3.5 倍）、專為超低功耗運算設計的 Sensing Hub 執行，可以在不犧牲反應速度的前提下，最大限度地節省電力。 2. **文字指令 → 大型語言模型 (LLM) 處理** - **模型：** Llama 2 (7B 參數版本) - **執行單元：** Hexagon NPU - **分配原因：** LLM 的 token 生成是一個記憶體頻寬受限的任務。這使其成為 Hexagon NPU 的理想工作負載，因為 Snapdragon 8 Gen 3 中的 NPU 架構已針對此瓶頸進行了專門升級，包括加倍的共享記憶體頻寬和升級的微切片推論。這些特性直接解決了記憶體瓶頸，實現了在最低功耗下的持續、高速 token 生成——這是通用處理器無法企及的壯舉。 3. **LLM 回應 → 文字轉語音 (TTS)** - **模型：** 開源 TTS 模型 - **執行單元：** CPU - **分配原因：** TTS 任務對延遲非常敏感，但運算複雜度相對較低。CPU 對循序控制的精通使其成為此類任務的最佳選擇，能夠以最快的速度生成語音數據，確保對話的流暢性。 4. **語音輸出 → 臉部動畫生成 (Blendshape)** - **模型：** Audio-to-blendshape - **執行單元：** Hexagon NPU - **分配原因：** 為了優化系統整體的能源效率，將這個傳統的 AI 工作負載卸載到最高能效的 NPU 上執行，可以為主處理器釋放資源，用於處理其他任務。 5. **動畫數據 → 虛擬化身渲染 (Avatar Rendering)** - **模型：** UE MetaHuman (Unreal Engine 的數位人渲染技術) - **執行單元：** Adreno GPU - **分配原因：** 最終將動畫數據渲染成栩栩如生的 3D 虛擬化身，是圖形處理的密集型任務。這正是 Adreno GPU 的核心專長，能夠以高幀率流暢地完成渲染工作。這個案例完美地證明了異構運算的真正價值：它並非簡單地將任務隨機分配，而是基於每個處理器的獨特架構優勢進行智慧調度。透過將 ASR、LLM、TTS、動畫生成和圖形渲染等截然不同的工作負載，精準地映射到 Sensing Hub、NPU、CPU 和 GPU 上，最終在功耗受限的行動裝置上，實現了一個過去只有在雲端才能運行的複雜、即時的生成式 AI 應用。了解了硬體如何協同工作之後，下一個關鍵問題是：開發者如何才能輕鬆地利用這股強大的運算能力？這便引出了我們的軟體開發平台——Qualcomm AI Stack。 --- ## 5. Qualcomm AI Stack：簡化從雲端到邊緣的部署流程擁有強大的異構運算硬體只是成功的一半，如何讓開發者能夠輕鬆、高效地利用這些硬體能力，是實現裝置端 AI 規模化部署的關鍵。為此，高通推出了 Qualcomm AI Stack——一套旨在統一和簡化 AI 模型開發、最佳化與部署流程的全面軟體工具集。其核心目標是實現「一次編寫，隨處部署」，讓開發者能夠專注於模型創新，而非耗時的底層硬體適配。 Qualcomm AI Stack 提供了對業界主流 AI 開發框架和執行環境的廣泛支援，為開發者打造了一個開放、靈活的生態系統： - **AI 框架支援：** TensorFlow, PyTorch, ONNX - **AI 執行環境支援：** TensorFlow Lite, ONNX Runtime, ExecuTorch - **底層介面：** Qualcomm AI Engine Direct 為了滿足不同開發者群體的需求，從 AI 研究人員到應用程式工程師，Qualcomm AI Stack 設計了三條清晰的主要開發路徑。雖然這三條路徑為不同需求提供了不同的抽象層級，但它們並非相互排斥的選擇，而是存取同一個統一後端的不同入口。所有路徑最終都匯集到相同的 Qualcomm Neural Network (QNN) 後端，並利用相同的硬體資源。 ### 路徑一：Qualcomm AI Hub（快速驗證與雲端最佳化） - **適用對象：** 需要快速進行概念驗證（PoC）的開發者、AI 研究人員、AI 初學者。 - **核心流程：** AI Hub 提供了一個強大的雲端平台和命令列工具，讓開發者無需實體裝置即可完成模型的最佳化與效能評估。其「自帶模型 (Bring Your Own Model, BYOM)」工作流程極大地簡化了初期驗證： 1. **提交 Compile Job：** 開發者上傳自己訓練好的模型，AI Hub 會自動執行硬體感知的最佳化，將其編譯成可在目標 Snapdragon 平台上高效運行的格式。 2. **執行 Profile Job：** 編譯完成後，模型會在雲端真實的 Snapdragon 裝置上運行。開發者可以獲得精確的效能數據，如推論延遲、峰值記憶體使用量等。 3. **運行 Inference Job：** 開發者可以上傳測試數據，驗證模型在經過最佳化後，其輸出的準確性是否符合預期。 ### 路徑二：ONNX Runtime（跨平台工程彈性） - **適用對象：** 追求程式碼可攜性、需要在 Windows、Android 等多個平台部署應用的開發團隊。 - **核心流程：** ONNX (Open Neural Network Exchange) 作為一個開放的模型交換標準，允許開發者將模型從一個框架無縫遷移到另一個執行環境。高通為 ONNX Runtime 提供了 QNN 執行提供器 (Execution Provider)。這意味著，應用開發者只需在程式碼中指定使用該執行提供器，ONNX Runtime 就會自動將模型中的運算圖智慧地卸載到最高效的處理單元上（通常是 Hexagon NPU），從而以最小的工程成本實現硬體加速。 ### 路徑三：Qualcomm AI Engine Direct（極致效能與底層控制） - **適用對象：** 對延遲和功耗有極致要求、需要進行深度最佳化的資深開發者或企業級量產部署。 - **核心流程：** 此路徑提供了最接近硬體的底層控制能力，讓開發者能夠榨乾硬體的每一分效能。其核心工具和技術包括： - **AI 模型效率工具包 (AIMET)：** 對於像 LLM 這樣受記憶體頻寬限制的模型而言，模型量化不僅是優化，更是必需。開發者可使用 AIMET 將傳統的 32 位元浮點（FP32）模型，轉換為 8 位元甚至 4 位元整數（INT8/INT4）模型。這不僅能將模型體積縮小數倍，更能大幅提升在 Hexagon NPU 上的運行速度和能效。得益於 NPU 對 INT4 的原生硬體支援，相較於 INT8，INT4 模型可實現高達 90% 的效能提升和 60% 的能效改善。卓越的硬體架構與完善的開發工具，最終必須由實際的效能數據來證明其領先地位。這自然地將我們引向了本次探討的終點。 --- ## 6. 結論：在 Snapdragon 平台上規模化部署裝置端生成式 AI 本白皮書深入探討了 AI 運算從雲端向邊緣裝置轉移的必然趨勢，並闡明了實現高效能、低功耗裝置端 AI 的核心技術路徑。我們重申，對於需要即時性、隱私保護和可靠性的下一代應用體驗，裝置端 AI 是不可或缺的基石。而要在功耗和散熱受限的行動裝置上釋放強大的 AI 能力，異構運算不僅是最佳選擇，更是唯一的途徑。 Qualcomm AI 引擎正是這一理念的卓越實踐。它透過系統級的客製化設計，將專為 AI 打造的 Hexagon NPU 與高效的 CPU、GPU 及 Sensing Hub 深度整合，形成一個協同工作的有機整體。這種全棧式的設計方法使其能夠智慧地將多元化的 AI 工作負載分配至最適合的處理單元，從而在真實應用中（如 AI 個人助理案例所示）實現了無與倫比的效能與能效。與此同時，Qualcomm AI Stack 為廣大的開發者生態系架起了一座橋樑，將強大的底層硬體能力轉化為易於存取、靈活調用的軟體工具。無論是需要快速驗證想法的研究人員，還是追求跨平台部署的應用工程師，亦或是尋求極致效能的專家，都能找到適合自己的開發路徑，從而簡化流程，加速創新，並實現規模化部署。展望未來，高通技術公司將持續憑藉其在技術上的領導力、客製化的晶片設計理念以及從硬體到軟體的全棧 AI 最佳化能力，不斷突破裝置端運算的極限，賦能開發者與合作夥伴，共同推動裝置端生成式 AI 的普及與發展，為全球數十億用戶帶來更智慧、更個人化、更安全的 AI 體驗。