探索語言模型最新的能力：o1/4o Audio/Phi 最新案例展示

隨著 o1 系列的模型推出，跟適用於語音和音訊的 GPT-4o 即時 API 的開放, 來一起了解這些新能力在各個產業能帶來的不同實務範例。除了大語言模型，也會探討微調小語言模型這個方向帶來的好處，並且分享微調的攻略。

講者：Samson Lee

Senior AI Specialist, Microsoft

讓我們一起編輯留存今日的複習資源。

請從這裡開始

4o:可支援不同情緒與語氣進行語音互動，可提供以下的場景使用發想：
- VoiceRAG推薦餐廳與美食 (KB search by Voice through RAG)
- Voice-to-Voice Translator(即時翻譯)
- Language coach(依NLP模型進行口說表達修正，AI協助進行語言腔調微調)
- Model: gpt-4o-realtime-preview
  - 查詢圖片中異常之處(Feature Extraction)
  - 圖片分類(基於Feature extraction，給予Tag進行Classcification)
o1 Family特色
- o1-preview: Complex use case
- o1-mini: faster, lighter, cheaper
o1 表現 > 4o，思考完整度/邏輯完整性
目前o1不支援圖片識別，已利用4o之圖片解析能力進行相關處理。
4o強項：回應速度，圖文支援
Reasoning: o1, o1-mini in preview
保險理賠案例：4o較快，但是o1的組織內容較清楚(多方分析)
o1可以分析多筆內容，比較好壞
4o圖形、影片內容分析：偵測是否有電線設備穩壞，分析影片中哪一個人在哪一個時間做了什麼
模型是否需要fine tune？
- 可增加速度
- 降低成本
- 保證數據安全
- 保證內容不會輸出不良的內容，若出現則不會publish此模型
小語言模型：phi
- 微調後反應有機會優於大LLM
- 可以更聚焦在特定範圍
4o生成影片，製作說明
4o無法直接輸入影片，可以把影片拆成圖片，將key frame餵給4o
Fine-tuning風險：
- Catastrophic forgetting - 原先model中不應出現的回應，微調後反而發生，此為所有模型微調的風險。
由4o回應進行完成之資料集儲存 => 拋入Azure Evaluation評估是否適合用來再訓練4o-mini模型
Fine-tuning好處：
- 未微調的LLM回應正確性反而較有微調的SLM更不好

Phi Models

Phi-3.5-mini
Phi-3.5-MoE
TimeGen
- 用於處理time series資料 (ex: 歷史股價)

LLM vs SLM

Offline
Cost constrain

探索語言模型最新的能力：o1/4o Audio/Phi 最新案例展示

隨著 o1 系列的模型推出，跟適用於語音和音訊的 GPT-4o 即時 API 的開放, 來一起了解這些新能力在各個產業能帶來的不同實務範例。除了大語言模型，也會探討微調小語言模型這個方向帶來的好處，並且分享微調的攻略。

講者：Samson Lee

讓我們一起編輯留存今日的複習資源。

Read more

AOAI 賦能低程式碼：敏捷實現業務創新 - 以台灣產業客戶為例 - Clare Hsiao, Lisa Chu

運用 AI 實現產業元宇宙：微軟顧問團隊以半導體全球化實體安全為例 - Kevin Chang, Neal Lee

開場致詞：未來 AI 技術走向與 Ignite 全球大會精彩亮點回顧 - Almond Au

多模態智慧整合：Agentic RAG 帶來的創新突破 - Sonic Chung