Senior AI Specialist, Microsoft
讓我們一起編輯留存今日的複習資源。
請從這裡開始
4o:可支援不同情緒與語氣進行語音互動,可提供以下的場景使用發想:
VoiceRAG推薦餐廳與美食 (KB search by Voice through RAG)
Voice-to-Voice Translator(即時翻譯)
Language coach(依NLP模型進行口說表達修正,AI協助進行語言腔調微調)
Model: gpt-4o-realtime-preview
o1 Family特色
o1 表現 > 4o,思考完整度/邏輯完整性
目前o1不支援圖片識別,已利用4o之圖片解析能力進行相關處理。
4o強項:回應速度,圖文支援
Reasoning: o1, o1-mini in preview
保險理賠案例:4o較快,但是o1的組織內容較清楚(多方分析)
o1可以分析多筆內容,比較好壞
4o圖形、影片內容分析:偵測是否有電線設備穩壞,分析影片中哪一個人在哪一個時間做了什麼
模型是否需要fine tune?
小語言模型:phi
4o生成影片,製作說明
4o無法直接輸入影片,可以把影片拆成圖片,將key frame餵給4o
Fine-tuning風險:
由4o回應進行完成之資料集儲存 => 拋入Azure Evaluation評估是否適合用來再訓練4o-mini模型
Fine-tuning好處:
Phi Models
Phi-3.5-mini
Phi-3.5-MoE
TimeGen
LLM vs SLM