Try   HackMD

探索語言模型最新的能力:o1/4o Audio/Phi 最新案例展示

隨著 o1 系列的模型推出,跟適用於語音和音訊的 GPT-4o 即時 API 的開放, 來一起了解這些新能力在各個產業能帶來的不同實務範例。除了大語言模型,也會探討微調小語言模型這個方向帶來的好處,並且分享微調的攻略。

講者:Samson Lee

Senior AI Specialist, Microsoft

讓我們一起編輯留存今日的複習資源。

請從這裡開始

  • 4o:可支援不同情緒與語氣進行語音互動,可提供以下的場景使用發想:

    • VoiceRAG推薦餐廳與美食 (KB search by Voice through RAG)

    • Voice-to-Voice Translator(即時翻譯)

    • Language coach(依NLP模型進行口說表達修正,AI協助進行語言腔調微調)

    • Model: gpt-4o-realtime-preview

      • 查詢圖片中異常之處(Feature Extraction)
      • 圖片分類(基於Feature extraction,給予Tag進行Classcification)
  • o1 Family特色

    • o1-preview: Complex use case
    • o1-mini: faster, lighter, cheaper
  • o1 表現 > 4o,思考完整度/邏輯完整性

  • 目前o1不支援圖片識別,已利用4o之圖片解析能力進行相關處理。

  • 4o強項:回應速度,圖文支援

  • Reasoning: o1, o1-mini in preview

  • 保險理賠案例:4o較快,但是o1的組織內容較清楚(多方分析)

  • o1可以分析多筆內容,比較好壞

  • 4o圖形、影片內容分析:偵測是否有電線設備穩壞,分析影片中哪一個人在哪一個時間做了什麼

  • 模型是否需要fine tune?

    • 可增加速度
    • 降低成本
    • 保證數據安全
    • 保證內容不會輸出不良的內容,若出現則不會publish此模型
  • 小語言模型:phi

    • 微調後反應有機會優於大LLM
    • 可以更聚焦在特定範圍
  • 4o生成影片,製作說明

  • 4o無法直接輸入影片,可以把影片拆成圖片,將key frame餵給4o

  • Fine-tuning風險:

    • Catastrophic forgetting - 原先model中不應出現的回應,微調後反而發生,此為所有模型微調的風險。
  • 由4o回應進行完成之資料集儲存 => 拋入Azure Evaluation評估是否適合用來再訓練4o-mini模型

  • Fine-tuning好處:

    • 未微調的LLM回應正確性反而較有微調的SLM更不好

Phi Models

  • Phi-3.5-mini

  • Phi-3.5-MoE

  • TimeGen

    • 用於處理time series資料 (ex: 歷史股價)

LLM vs SLM

  • Offline
  • Cost constrain