揭秘LLMOps:讓LLM服務像火箭般穩定高效的祕密 - 李婕瑜(Maggie Lee)

歡迎來到 Hello World Dev Conf 共筆
共筆入口:https://hackmd.io/@HWDC/2024

議程介紹

填寫議程滿意度問卷|回饋建言給辛苦的講者


01-LLMOps 流程存在什麼挑戰

LLM 三個重要目標

  1. 提升效率
    • 看重商業價值創造商業上需要的LLM
  2. 穩定性
    • 準確性成為LLM的關鍵因素
    • 訓練模型的機會減少之後,實驗有被好好記錄嗎?
  3. 安全性
    • 屬於GenAI LLMOps獨有的挑戰

02-如何優化合作模式

儘管LLM已經幫助加快了開發速度,但我們還停留在過往機器學習專案的合作模式,所以在合作效率上仍然有很大的優化空間

文字生成開發流程

  • 痛點

    • 如何自動化審查: 生成文字的隨機性很高,有正確答案的尚且可以請ChatGPT與參考資料比對輸出跟參考資料,如果任務是以某某語氣生成內容,難以驗證
    • 無法判斷是否足夠好:或許修改初期加入RAG/ COT/few shot 表現一飛沖天,但到後面prompt tuning表現停滯,反而投入過多的實驗成本
  • 表現不佳

    • 什麼時候往 RAG/Fine-Tuning 階段移動
    • 無法判斷 Good Enough, 就無法決定 何時要EarlyStop

Case - 客服案件分類

  • 目標:快速分類客訴案件,統整可優化的服務
  • ML問題:分類、解釋

痛點-1:人人都可Prompt,R&R混亂

解方:將 Prompt 以 CO-STAR 切分任務
- 便於排定優先順序,進一步確認開發&驗收人員

  • CO-STAR (*為需BU確認)
    1. Context 情境*
    2. Objective 目標
    3. Response 回覆格式
    4. Audience 受眾
    5. Style 風格*
    6. Tone 語氣*

o.s Dev 事情越來越少,好爽
Maggie: Dev要提供更好用的開發測試平台啊啊啊

痛點-2:要優化到什麼程度,我可以停下來嗎

解方:

  1. 快速建立POC
  2. 決定是否使用RAG or tuning: 若準確度/正確度低於60% 嘗試加入model based solution (RAG/ fine tuing/ few shot)
  3. 討論服務可接受的表現: 與團隊討論預期效能,建議落在當前平均表現正負10%,若能穩定不低於正負10%,且服務端能接受,就該停止實驗

03-如何快速打造可靠的服務

運用 pezzo 管理Prompt,並快速檢視成本狀況

透過 MLFlow.evaluate 管理不同版本表現及差異

[等圖片支援]

04-法規與倫理面的實際方案

需要考慮 LLM 對社會的潛在影響,尤其是模型在不同應用場景中的應用。因此,必須從被動到主動確保 LLM 模型始終遵守相法律,從而減少企業風險、使用者利用風險,並增加使用者對平台的信任

  • AI法案基本原則:七大基本原則
  • 問責是其中特別重要的一個環節

Case - 廣告文案生成 Regulation Check

審查資源

​​​​- 法規
​​​​- 可用詞/不可宣稱詞
​​​​- 內部規範
​​​​- 過往審核結果

審查流程

  • Flow: GenAdsText -> Spamkeyword Detection -> Regulation Check

05-參考資料


Select a repo