# 【vMaker Edge AI專欄 #15】 從MWC 2024看AI手機未來發展 作者:Jack OmniXRI, 2024/3/15 ![vMaker_EdgeAI_15_Fig_00](https://hackmd.io/_uploads/HkS70EKp6.jpg) 一年一度的世界通訊大會(MWC 2024)[1]於2/26到2/29在西班牙巴塞隆納盛大舉行,以往重點都是在酷炫的行動通訊裝置,而此次重點則都落在AI上,尤其是不靠連網、本機可獨立運算的生成式應用。 2022年底OpenAI推出ChatGPT後,一時風起雲湧,每週都有新的驚喜,各種大語言模型(LLM)及生成式AI(GenAI / AIGC)應用層出不窮,讓文字可以生成文章、音樂、影像、影片甚至可以使用多模態(Multimodal)模型讓文字影音可以相互感知和生成。LLM剛開始時,使用的模型參數量都非常巨大,可高達1750億(簡寫成175B)個參數,隨著各種專家學者的努力,在特定用途、推論能力和精度略減時,可將參量縮減至330億(33B), 130億(13B), 70億(7B)甚至13億(1.3B),若加上模型量化技術,就能讓模型儲存空間縮減到原先1/4(INT8)至1/8(INT4)。此時剛好高算力、大記憶體容量手機誕生,滿足運行最低門檻,於是AI手機就變成此次 MWC 2024 的新寵兒。 為了讓大家更理解AI手機究竟有哪些方案供應商,硬體上究竟有哪些重大突破及軟體上到底能玩什麼應用,接下來就一一幫大家介紹一下。 ## 1. AI手機方案供應商 此次AI手機晶片供應商主要由兩大家包辦,包括聯發科和高通,相關技術規格如下所示。其中AI計算引擎(APU/NPU)的性能提升是主要促成單機離線AI應用的重要關鍵,解決了以往單靠CPU或DSP計算能力有限的問題。 - 聯發科(MediaTek) 天磯(Dimemsity) 9300 [2] - Cortex-X4(3.25GHz) 4核 + Cortex-A720(2.0GHz) 4核 - 支援 LPDDR5T 9600Mbps, UFS 4.0 Flash - 第 7 代 APU 790 架構內建硬體級的生成式 AI 引擎 - 最高可支援330億(33B)參數的 AI 大語言模型 - 支援 NeuroPilot Compression 內存硬體壓縮技術 - 首款生成式 AI 端側技能擴充 (LoRA Fusion) 技術 - 高通(Qualcomm) 驍龍(Snapdragon) 8 Gen 3 [3] - Cortex-X4(3.3GHz) 1核 + Cortex-A720(3.2GHz & 3.0GHz) 5核 + Cortex-A520(2.3GHz) 2核 - Hexagon NPU, 可支援100億(10B+)參數,INT4/INT8/INT16/FP16數值格式,在 Llama 2 LLM 推論速度20 tokens/sec - 可支援 Hugging Face 超過20款主流AI模型 以下列出目前有支援這些晶片的手機製造商、機種名稱、動態記憶體(DRAM)及快閃記憶體(FLASH)容量。 - 聯發科 天磯(Dimemsity) 9300 [2] - 廣東移動(OPPO) FIND X7(12G+256G)[4] - 維沃移動(VIVO) X100(12G+256G)[5] - 維沃移動(VIVO) iQOO Neo9 Pro(12G+256G)[6] - 小米(Xiaomi) Redmi K70 Ultra(預計2024/8上市,規格不明) - 高通 驍龍(Snapdragon) 8 Gen 3 [3] - 華碩(Asus) ROG Phone 8(16G+512G)[7] - 榮耀(Honor) Magic6 Pro(12G+256G)[8] - 廣東移動(OPPO) FIND X7 Ultra(12G+256G)[9] - 三星(Samsung) S24+(12G+256G)[10] / S24 Ultra(12G+256G)[11] - 小米(Xiaomi) 14(8G+256G)[12] / 14 Ultra(12G+256G)[13] 註:各家手機隨價格不同,會配置更大容量的動態及快閃記憶體,這裡僅列出最低配置。 ![vMaker_EdgeAI_15_Fig_01](https://hackmd.io/_uploads/BJPmBjKT6.jpg) Fig. 1 MWC 2024 AI手機及晶片供應商。(OmniXRI整理製作,2024/03/15) ## 2. AI手機運行模型限制及擴充 從上述AI手機硬體規格來看,動態記憶體(DDR)是決定可以運行多大模型的關鍵。扣除手機作業系統及常用APP使用量,其餘的才是模型運行時可支配的容量。以較常見的7B模型來看,若參數以8位元整數(INT8)來表示,在模型不使用剪枝、權重共享等優化手段且一次讀入完整模型情況下,則至少要動用7GByte的動態記憶體。這對手機負擔頗重,所以通常會將模型參數量化成4位元整數(INT4),讓動態記憶體需求量馬上降到1/2。當然,如果再搭配分段讀入甚至模型優化等手段,這樣動態記憶體的使用量就能變得更低。這裡建議將來有想購買AI手機的人,由於動態記憶體無法擴充,所以要選購容量大一點的,才能容許功能更強大、參數更多的模型運行。 一般手機配置的快閃記憶體(Flash)容量通常都很大,不夠用時也能很輕易加上外掛的記憶卡,所以可以用來存放很多不同用途的AI模型,就像手機端上不同的APP一樣。未來除了晶片廠、手機商外,相信會有更多第三方開發出更多應用,這樣手機就能變得更聰明了。 由於現有AI手機不像桌機、筆電有豐富的硬體資源可用,所以可使用的模型還是較受限的。各手機商為了確保AI模型能順利工作及免除使用者不知如何選用及安裝,出貨時多半已直接內建多種常用的模型。如果使用者還想擴充AI功能,亦可從晶片或手機商提供的管道下載模型。 以下就以高通 AI Hub [14] 為例,列出目前已提供的模型清單給大家參考,更完整的內容可自行查閱參考連結。 - 高通(Qualcomm) AI HUB [14] - 聲音類: - 聲音增強 - Facebook-Denoiser - 語音辨識 - HuggingFace-WaveLM-Base-Plus, Whisper-Base - 電腦視覺類: - 影像分類 - ConvNext-Tiny, DenseNet-121, EfficientNet-B0, CoogLeNet, Inception-v3, MNASNet05, MobileNet-v2/v3/v3-Small, RegNet, ResNet18/50/101, ResNeXt50/101, Sufflenet-v2, SqueezeNet-1_1, Swin-Base/Small/Tiny, VIT, WideResNet50 - 影像編輯 - LaMa-Dilated - 影像生成 - StyleGAN2 - 物件偵測 - DETR-ResNet50/ResNet50-DC5/ResNet101/ResNet101-DC50, MediaPipe-Face-Detection/Hand-Detection, Yolo-v6/v7/v8-Detection - 姿態估測 - HRNetPose, LiteHRNet, MediaPipe-Pose-Estimation, OpenPose - 語義分割 - DDRNet23-Slim, DeepLabV3-ResNet50, FaseSam-S/X, FCN_ResNet, FFNet-40S/50S/78S/78S-LowRes/122NS-LowRes, MediaPipe-Selfie-Segmentation, Segment-Anything-Model, SlNet, Unet-Segmentation, YOLOv8-Segmentation - 超解析度 - ESRGAN, QuickSRNetLarge/Medium/Small, Real-ESRGAN-Grenral-x4v3/x4plus, SESR-M5, XLSR - 生成式AI類: - 影像生成 - ControlNet, Stable-Diffusion - 文字生成 - Baichuan-7B, Llama-v2-7B-Chat - 多模態類: - 影像分類 - OpenAI-Clip - 影像生成文字 - TrOCR 註:這裡提及的「影像生成」,在電腦視覺類是指 GAN 技術,而生成式類則是指 Diffusion 技術。 ![vMaker_EdgeAI_15_Fig_02](https://hackmd.io/_uploads/SJrWp3qa6.jpg) Fig. 2 高通 AI Hub 主要模型庫。(OmniXRI整理製作,2024/03/15) ## 3. AI手機主要生成式應用 目前AI手機主要可完成的生成式應用,主要集中在文字、語音及影像之間的互相生成,以下就分別對各家展示的內容作一簡單整理和說明。 - **文字生成文字:** 以自然語言方式輸入文字,可作為查詢、翻譯、長文摘要、詩詞故事創作、聊天等,並直接輸出如真人對話文字。 - **文字生成語音:** 可像播音員一樣將文字稿完美讀出,可依需求調整性別、語速、語調、節奏、口音等。搭配文字生成文字即可變身個人貼身助理。 - **文字生成影像/影片:** 可直接以文字描述所需內容,即可生成靜態影像或數十秒動態短影片,增加使用者在社交媒體的互動性。 - **語音生成文字:** 可將口語或無字幕外語影片即時進行翻譯或會議聽打記錄,方便溝通及學習。若再搭配文字生成文字的自動摘要功能就能更方便整理資料。 - **影像生成文字:** 可用於產生影像標題或說明,如取得一張不知名地標影像,可即時產生說明文字。亦可直接辨識影像中的文字內容並直接輸出,即傳統OCR功能。 - **影像生成影像/影片:** - 虛擬頭像:拍一張個人大頭照,選定不同風格後,即時生成不同風格大頭照,如專業形象照、動漫風甚至不同性別。相較傳統簡單美顏或加特效有更多的樂趣。 - 去背補漏:到戶外旅遊拍照最怕後面有路人,還要事後P圖才能分享給別人,此時就能透過AI生成技術將路人去掉並自動補上合理的背景。或者拍歪了,旋轉圖像後造成四個角落空白,亦能自動補上。 - 虛擬試穿:拍一張個人影像,選定要試穿的衣服影像後,即時生成個人試穿新衣的結果,甚至可以產生擺弄姿勢的短影片,就像本人在試穿一樣。 ![vMaker_EdgeAI_15_Fig_03](https://hackmd.io/_uploads/r1d1tacaa.jpg) Fig. 3 AI手機常見生成式AI應用。(OmniXRI整理製作,2024/03/15) [15] ## 小結 現階段AI手機仍在起步階段,各種高性能的手機會陸續推出,各種大型AI模型仍在不斷地努力瘦身想辦法擠進有限的硬體資源中,各種有趣的應用也在不停地被開發,相信不久後就會像智慧型手機剛出現時APP大爆發一樣,也會有各種AI應用被APP化。未來甚至手機不需要有實際的操作介面,就像電影鋼鐵人中的Jarvis虛擬助理一樣,所有事只要動動嘴就能完成一切,就讓我們期待這一天早日到來! ## 參考文獻 [1] MWC BARCELONA https://www.mwcbarcelona.com/ [2] 聯發科技,天璣9300 https://www.mediatek.tw/products/smartphones-2/mediatek-dimensity-9300 [3] Qualcomm, Snapdragon 8 Gen 3 Mobile Platform https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-gen-3-mobile-platform [4] OPPO, Find X7 技術規格 https://www.oppo.com/cn/smartphones/series-find-x/find-x7/specs/ [5] VIVO, X100 技術規格 https://www.vivo.com/tw/products/param/x100 [6] VIVO, iQOO Neo 9 PRO 技術規格 https://shop.vivo.com.cn/product/10009292 [7] 華碩, ROG Phone 8 技術規格 https://rog.asus.com/tw/phones/rog-phone-8/spec/ [8] 榮耀, Magic6 Pro 技術規格 https://www.hihonor.com/cn/phones/honor-magic6-pro/spec/ [9] OPPO, Find X7 Ultra 技術規格 https://www.oppo.com/cn/smartphones/series-find-x/find-x7-ultra/specs/ [10] 三星, S24+ 技術規格 https://www.samsung.com/tw/smartphones/galaxy-s24/specs/ [11] 三星, S24 Ultra 技術規格 https://www.samsung.com/tw/smartphones/galaxy-s24-ultra/specs/ [12] 小米, 14 技術規格 https://www.mi.com/xiaomi-14/specs [13] 小米, 14 Ultra 技術規格 https://www.mi.com/xiaomi-14-pro [14] Qualcomm, AI Hub Models https://aihub.qualcomm.com/models [15] MediaTek at MWC 2024 - Generative AI https://www.mediatek.com/blog/mediatek-at-mwc-2024-generative-ai https://youtu.be/dlZMedOHQ60 **本文同步發表在[【台灣自造者 vMaker】](https://vmaker.tw/)** --- OmniXRI 整理製作,歡迎點贊、收藏、訂閱、留言、分享