# 探索語言模型最新的能力:o1/4o Audio/Phi 最新案例展示 ###### 隨著 o1 系列的模型推出,跟適用於語音和音訊的 GPT-4o 即時 API 的開放, 來一起了解這些新能力在各個產業能帶來的不同實務範例。除了大語言模型,也會探討微調小語言模型這個方向帶來的好處,並且分享微調的攻略。 #### 講者:Samson Lee Senior AI Specialist, Microsoft >###### 讓我們一起編輯留存今日的複習資源。 > 請從這裡開始 * > 4o:可支援不同情緒與語氣進行語音互動,可提供以下的場景使用發想: * VoiceRAG推薦餐廳與美食 (KB search by Voice through RAG) * Voice-to-Voice Translator(即時翻譯) * Language coach(依NLP模型進行口說表達修正,AI協助進行語言腔調微調) * Model: gpt-4o-realtime-preview * 查詢圖片中異常之處(Feature Extraction) * 圖片分類(基於Feature extraction,給予Tag進行Classcification) * * > o1 Family特色 * o1-preview: Complex use case * o1-mini: faster, lighter, cheaper * o1 表現 > 4o,思考完整度/邏輯完整性 * 目前o1不支援圖片識別,已利用4o之圖片解析能力進行相關處理。 * 4o強項:回應速度,圖文支援 * Reasoning: o1, o1-mini in preview * 保險理賠案例:4o較快,但是o1的組織內容較清楚(多方分析) * o1可以分析多筆內容,比較好壞 * 4o圖形、影片內容分析:偵測是否有電線設備穩壞,分析影片中哪一個人在哪一個時間做了什麼 * 模型是否需要fine tune? * 可增加速度 * 降低成本 * 保證數據安全 * 保證內容不會輸出不良的內容,若出現則不會publish此模型 * 小語言模型:phi * 微調後反應有機會優於大LLM * 可以更聚焦在特定範圍 * 4o生成影片,製作說明 * 4o無法直接輸入影片,可以把影片拆成圖片,將key frame餵給4o * Fine-tuning風險: * Catastrophic forgetting - 原先model中不應出現的回應,微調後反而發生,此為所有模型微調的風險。 * 由4o回應進行完成之資料集儲存 => 拋入Azure Evaluation評估是否適合用來再訓練4o-mini模型 * Fine-tuning好處: * 未微調的LLM回應正確性反而較有微調的SLM更不好 Phi Models * Phi-3.5-mini * Phi-3.5-MoE * TimeGen * 用於處理time series資料 (ex: 歷史股價) LLM vs SLM * Offline * Cost constrain
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up