當 Phi-3 SLM 降落在你的裝置上你該怎麼玩 - 張立顗(Poy Chang)

# 當 Phi-3 SLM 降落在你的裝置上你該怎麼玩 - 張立顗(Poy Chang) {%hackmd @HWDC/BJOE4qInR %} 簡報連結：https://onedrive.live.com/?authkey=%21APRg4FRg4%2DY8law&id=EB877EF9188E2D2C%21390527&cid=EB877EF9188E2D2C&parId=root&parQt=sharedby&o=OneUp ## Introduction 你要開發AI應用的Hello World ## 你預期的裝置? * 筆電、桌機、終端裝置 * Server ## LLM vs SLM * 效率 * 部署到相對小的設備或是邊緣設備上 * 需要較少的計算能力和記憶體裝置 * 沒有障礙性 * 允許開發者和企業更容易使用(大模型你只能呼叫) * 客製化 * 為特定領域和任務進行細微調整 * 專有的處理模型 * (增加特定知識) ## 選擇關鍵 * 推理延遲可以在地端 * 可不可以把資料留在地端 * 雲端出現問題你要怎麼辦? * 可以拉到地端去執行 * 成本 * 準確度:在短時間內得到相對可靠的效果 * 推理延遲:使用者從發出問題到模型解析完給出解答所需的時間 ## 略 * 雲端跟地端要怎麼配合?是否存在模糊地帶? * 模型運行在終端已經行之有年 ## WWDC * 他可以把app跟使用者體驗規劃好 * 可以基於一個模型fintune成特定的領域知識變成特定的adapter ## 開發AI應用是一場綜合格鬥 ## ONNX .Net開發者訓練模型的唯一一條路 ## Olive * 量化模型和優化模型 ## Finetune with AI Toolkit for Visual Studio Code ## ONNX問題 * ONNX還沒實做這個operatior * 不支援這麼高的精度 * 不能馬上支援 ## 使用之前先補足知識點介紹僅限於Windows平台 ### DirectML * 像是DirectX來充分使用硬體資源 * 基於DirectX API ### WebNN * 可以在瀏覽器上運行你的模型 * 使用DirectML跟GPU交互 * 仍在開發中 ### Semantic Kernel * 用connector聯街到模型與向量資料庫 ### Demo 終端裝置如果要讓體驗較好，需要考慮以下幾點 1. 因為要下載很大的模型，瀏覽器需要做Cache 2. 使用者裝置需要注意使用的CPU/GPU，可能需要進一步調整系統設定強迫瀏覽器使用特定硬體 3. 使用針對硬體優化過後的模型環境需要注意CUDA版本與相容性 Phi3 對中文的支援度不佳，Phi3.5才有較好對簡體中文的支援 >#### 》[議程介紹](https://hwdc.ithome.com.tw/2024/session-page/3187) >#### 》[填寫議程滿意度問卷｜回饋建言給辛苦的講者](https://forms.gle/GLY1feUtnnEpMiWv7)