【vMaker Edge AI專欄 #15】從MWC 2024看AI手機未來發展

# 【vMaker Edge AI專欄 #15】從MWC 2024看AI手機未來發展作者：Jack OmniXRI, 2024/3/15 ![vMaker_EdgeAI_15_Fig_00](https://hackmd.io/_uploads/HkS70EKp6.jpg) 一年一度的世界通訊大會(MWC 2024)[1]於2/26到2/29在西班牙巴塞隆納盛大舉行，以往重點都是在酷炫的行動通訊裝置，而此次重點則都落在AI上，尤其是不靠連網、本機可獨立運算的生成式應用。 2022年底OpenAI推出ChatGPT後，一時風起雲湧，每週都有新的驚喜，各種大語言模型（LLM）及生成式AI(GenAI / AIGC)應用層出不窮，讓文字可以生成文章、音樂、影像、影片甚至可以使用多模態(Multimodal)模型讓文字影音可以相互感知和生成。LLM剛開始時，使用的模型參數量都非常巨大，可高達1750億(簡寫成175B）個參數，隨著各種專家學者的努力，在特定用途、推論能力和精度略減時，可將參量縮減至330億(33B), 130億(13B), 70億(7B)甚至13億(1.3B)，若加上模型量化技術，就能讓模型儲存空間縮減到原先1/4（INT8）至1/8（INT4）。此時剛好高算力、大記憶體容量手機誕生，滿足運行最低門檻，於是AI手機就變成此次 MWC 2024 的新寵兒。為了讓大家更理解AI手機究竟有哪些方案供應商，硬體上究竟有哪些重大突破及軟體上到底能玩什麼應用，接下來就一一幫大家介紹一下。 ## 1. AI手機方案供應商此次AI手機晶片供應商主要由兩大家包辦，包括聯發科和高通，相關技術規格如下所示。其中AI計算引擎(APU/NPU)的性能提升是主要促成單機離線AI應用的重要關鍵，解決了以往單靠CPU或DSP計算能力有限的問題。 - 聯發科(MediaTek) 天磯（Dimemsity） 9300 [2] - Cortex-X4(3.25GHz) 4核 + Cortex-A720(2.0GHz) 4核 - 支援 LPDDR5T 9600Mbps, UFS 4.0 Flash - 第 7 代 APU 790 架構內建硬體級的生成式 AI 引擎 - 最高可支援330億(33B)參數的 AI 大語言模型 - 支援 NeuroPilot Compression 內存硬體壓縮技術 - 首款生成式 AI 端側技能擴充 (LoRA Fusion) 技術 - 高通(Qualcomm) 驍龍(Snapdragon) 8 Gen 3 [3] - Cortex-X4(3.3GHz) 1核 + Cortex-A720(3.2GHz & 3.0GHz) 5核 + Cortex-A520(2.3GHz) 2核 - Hexagon NPU, 可支援100億(10B+)參數，INT4/INT8/INT16/FP16數值格式，在 Llama 2 LLM 推論速度20 tokens/sec - 可支援 Hugging Face 超過20款主流AI模型以下列出目前有支援這些晶片的手機製造商、機種名稱、動態記憶體(DRAM)及快閃記憶體(FLASH)容量。 - 聯發科天磯（Dimemsity） 9300 [2] - 廣東移動(OPPO) FIND X7（12G+256G）[4] - 維沃移動(VIVO) X100（12G+256G）[5] - 維沃移動(VIVO) iQOO Neo9 Pro（12G+256G）[6] - 小米(Xiaomi) Redmi K70 Ultra(預計2024/8上市，規格不明) - 高通驍龍(Snapdragon) 8 Gen 3 [3] - 華碩(Asus) ROG Phone 8(16G+512G)[7] - 榮耀(Honor) Magic6 Pro(12G+256G)[8] - 廣東移動(OPPO) FIND X7 Ultra(12G+256G)[9] - 三星(Samsung) S24+(12G+256G)[10] / S24 Ultra（12G+256G）[11] - 小米(Xiaomi) 14(8G+256G)[12] / 14 Ultra(12G+256G）[13] 註：各家手機隨價格不同，會配置更大容量的動態及快閃記憶體，這裡僅列出最低配置。 ![vMaker_EdgeAI_15_Fig_01](https://hackmd.io/_uploads/BJPmBjKT6.jpg) Fig. 1 MWC 2024 AI手機及晶片供應商。(OmniXRI整理製作,2024/03/15) ## 2. AI手機運行模型限制及擴充從上述AI手機硬體規格來看，動態記憶體（DDR）是決定可以運行多大模型的關鍵。扣除手機作業系統及常用APP使用量，其餘的才是模型運行時可支配的容量。以較常見的7B模型來看，若參數以8位元整數（INT8）來表示，在模型不使用剪枝、權重共享等優化手段且一次讀入完整模型情況下，則至少要動用7GByte的動態記憶體。這對手機負擔頗重，所以通常會將模型參數量化成4位元整數(INT4)，讓動態記憶體需求量馬上降到1/2。當然，如果再搭配分段讀入甚至模型優化等手段，這樣動態記憶體的使用量就能變得更低。這裡建議將來有想購買AI手機的人，由於動態記憶體無法擴充，所以要選購容量大一點的，才能容許功能更強大、參數更多的模型運行。一般手機配置的快閃記憶體(Flash)容量通常都很大，不夠用時也能很輕易加上外掛的記憶卡，所以可以用來存放很多不同用途的AI模型，就像手機端上不同的APP一樣。未來除了晶片廠、手機商外，相信會有更多第三方開發出更多應用，這樣手機就能變得更聰明了。由於現有AI手機不像桌機、筆電有豐富的硬體資源可用，所以可使用的模型還是較受限的。各手機商為了確保AI模型能順利工作及免除使用者不知如何選用及安裝，出貨時多半已直接內建多種常用的模型。如果使用者還想擴充AI功能，亦可從晶片或手機商提供的管道下載模型。以下就以高通 AI Hub [14] 為例，列出目前已提供的模型清單給大家參考，更完整的內容可自行查閱參考連結。 - 高通(Qualcomm) AI HUB [14] - 聲音類： - 聲音增強 - Facebook-Denoiser - 語音辨識 - HuggingFace-WaveLM-Base-Plus, Whisper-Base - 電腦視覺類： - 影像分類 - ConvNext-Tiny, DenseNet-121, EfficientNet-B0, CoogLeNet, Inception-v3, MNASNet05, MobileNet-v2/v3/v3-Small, RegNet, ResNet18/50/101, ResNeXt50/101, Sufflenet-v2, SqueezeNet-1_1, Swin-Base/Small/Tiny, VIT, WideResNet50 - 影像編輯 - LaMa-Dilated - 影像生成 - StyleGAN2 - 物件偵測 - DETR-ResNet50/ResNet50-DC5/ResNet101/ResNet101-DC50, MediaPipe-Face-Detection/Hand-Detection, Yolo-v6/v7/v8-Detection - 姿態估測 - HRNetPose, LiteHRNet, MediaPipe-Pose-Estimation, OpenPose - 語義分割 - DDRNet23-Slim, DeepLabV3-ResNet50, FaseSam-S/X, FCN_ResNet, FFNet-40S/50S/78S/78S-LowRes/122NS-LowRes, MediaPipe-Selfie-Segmentation, Segment-Anything-Model, SlNet, Unet-Segmentation, YOLOv8-Segmentation - 超解析度 - ESRGAN, QuickSRNetLarge/Medium/Small, Real-ESRGAN-Grenral-x4v3/x4plus, SESR-M5, XLSR - 生成式AI類： - 影像生成 - ControlNet, Stable-Diffusion - 文字生成 - Baichuan-7B, Llama-v2-7B-Chat - 多模態類： - 影像分類 - OpenAI-Clip - 影像生成文字 - TrOCR 註：這裡提及的「影像生成」，在電腦視覺類是指 GAN 技術，而生成式類則是指 Diffusion 技術。 ![vMaker_EdgeAI_15_Fig_02](https://hackmd.io/_uploads/SJrWp3qa6.jpg) Fig. 2 高通 AI Hub 主要模型庫。(OmniXRI整理製作,2024/03/15) ## 3. AI手機主要生成式應用目前AI手機主要可完成的生成式應用，主要集中在文字、語音及影像之間的互相生成，以下就分別對各家展示的內容作一簡單整理和說明。 - **文字生成文字：** 以自然語言方式輸入文字，可作為查詢、翻譯、長文摘要、詩詞故事創作、聊天等，並直接輸出如真人對話文字。 - **文字生成語音：** 可像播音員一樣將文字稿完美讀出，可依需求調整性別、語速、語調、節奏、口音等。搭配文字生成文字即可變身個人貼身助理。 - **文字生成影像/影片：** 可直接以文字描述所需內容，即可生成靜態影像或數十秒動態短影片，增加使用者在社交媒體的互動性。 - **語音生成文字：** 可將口語或無字幕外語影片即時進行翻譯或會議聽打記錄，方便溝通及學習。若再搭配文字生成文字的自動摘要功能就能更方便整理資料。 - **影像生成文字：** 可用於產生影像標題或說明，如取得一張不知名地標影像，可即時產生說明文字。亦可直接辨識影像中的文字內容並直接輸出，即傳統OCR功能。 - **影像生成影像/影片：** - 虛擬頭像：拍一張個人大頭照，選定不同風格後，即時生成不同風格大頭照，如專業形象照、動漫風甚至不同性別。相較傳統簡單美顏或加特效有更多的樂趣。 - 去背補漏：到戶外旅遊拍照最怕後面有路人，還要事後P圖才能分享給別人，此時就能透過AI生成技術將路人去掉並自動補上合理的背景。或者拍歪了，旋轉圖像後造成四個角落空白，亦能自動補上。 - 虛擬試穿：拍一張個人影像，選定要試穿的衣服影像後，即時生成個人試穿新衣的結果，甚至可以產生擺弄姿勢的短影片，就像本人在試穿一樣。 ![vMaker_EdgeAI_15_Fig_03](https://hackmd.io/_uploads/r1d1tacaa.jpg) Fig. 3 AI手機常見生成式AI應用。(OmniXRI整理製作,2024/03/15) [15] ## 小結現階段AI手機仍在起步階段，各種高性能的手機會陸續推出，各種大型AI模型仍在不斷地努力瘦身想辦法擠進有限的硬體資源中，各種有趣的應用也在不停地被開發，相信不久後就會像智慧型手機剛出現時APP大爆發一樣，也會有各種AI應用被APP化。未來甚至手機不需要有實際的操作介面，就像電影鋼鐵人中的Jarvis虛擬助理一樣，所有事只要動動嘴就能完成一切，就讓我們期待這一天早日到來！ ## 參考文獻 [1] MWC BARCELONA https://www.mwcbarcelona.com/ [2] 聯發科技，天璣9300 https://www.mediatek.tw/products/smartphones-2/mediatek-dimensity-9300 [3] Qualcomm, Snapdragon 8 Gen 3 Mobile Platform https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-gen-3-mobile-platform [4] OPPO, Find X7 技術規格 https://www.oppo.com/cn/smartphones/series-find-x/find-x7/specs/ [5] VIVO, X100 技術規格 https://www.vivo.com/tw/products/param/x100 [6] VIVO, iQOO Neo 9 PRO 技術規格 https://shop.vivo.com.cn/product/10009292 [7] 華碩， ROG Phone 8 技術規格 https://rog.asus.com/tw/phones/rog-phone-8/spec/ [8] 榮耀， Magic6 Pro 技術規格 https://www.hihonor.com/cn/phones/honor-magic6-pro/spec/ [9] OPPO, Find X7 Ultra 技術規格 https://www.oppo.com/cn/smartphones/series-find-x/find-x7-ultra/specs/ [10] 三星， S24+ 技術規格 https://www.samsung.com/tw/smartphones/galaxy-s24/specs/ [11] 三星， S24 Ultra 技術規格 https://www.samsung.com/tw/smartphones/galaxy-s24-ultra/specs/ [12] 小米， 14 技術規格 https://www.mi.com/xiaomi-14/specs [13] 小米， 14 Ultra 技術規格 https://www.mi.com/xiaomi-14-pro [14] Qualcomm, AI Hub Models https://aihub.qualcomm.com/models [15] MediaTek at MWC 2024 - Generative AI https://www.mediatek.com/blog/mediatek-at-mwc-2024-generative-ai https://youtu.be/dlZMedOHQ60 **本文同步發表在[【台灣自造者 vMaker】](https://vmaker.tw/archives/category/%e5%b0%88%e6%ac%84/jack-omnixri)** --- OmniXRI 整理製作，歡迎點贊、收藏、訂閱、留言、分享