揭秘LLMOps:讓LLM服務像火箭般穩定高效的祕密 - 李婕瑜(Maggie Lee)

歡迎來到 Hello World Dev Conf 共筆
共筆入口：https://hackmd.io/@HWDC/2024

》議程介紹

》填寫議程滿意度問卷｜回饋建言給辛苦的講者

揭秘LLMOps:讓LLM服務像火箭般穩定高效的祕密 - 李婕瑜(Maggie Lee)

01-LLMOps 流程存在什麼挑戰

LLM 三個重要目標

02-如何優化合作模式

文字生成開發流程

Case - 客服案件分類

痛點-1：人人都可Prompt，R&R混亂

痛點-2：要優化到什麼程度，我可以停下來嗎

03-如何快速打造可靠的服務

04-法規與倫理面的實際方案

Case - 廣告文案生成 Regulation Check

審查資源

審查流程

05-參考資料

儘管LLM已經幫助加快了開發速度，但我們還停留在過往機器學習專案的合作模式，所以在合作效率上仍然有很大的優化空間

痛點
- 如何自動化審查: 生成文字的隨機性很高，有正確答案的尚且可以請ChatGPT與參考資料比對輸出跟參考資料，如果任務是以某某語氣生成內容，難以驗證
- 無法判斷是否足夠好：或許修改初期加入RAG/ COT/few shot 表現一飛沖天，但到後面prompt tuning表現停滯，反而投入過多的實驗成本
表現不佳
- 什麼時候往 RAG/Fine-Tuning 階段移動
- 無法判斷 Good Enough, 就無法決定何時要EarlyStop

解方：將 Prompt 以 CO-STAR 切分任務
- 便於排定優先順序，進一步確認開發&驗收人員

o.s Dev 事情越來越少，好爽
Maggie: Dev要提供更好用的開發測試平台啊啊啊

解方：

快速建立POC
決定是否使用RAG or tuning: 若準確度/正確度低於60% 嘗試加入model based solution (RAG/ fine tuing/ few shot)
討論服務可接受的表現: 與團隊討論預期效能，建議落在當前平均表現正負10%，若能穩定不低於正負10%，且服務端能接受，就該停止實驗

運用 pezzo 管理Prompt，並快速檢視成本狀況

透過 MLFlow.evaluate 管理不同版本表現及差異

[等圖片支援]

需要考慮 LLM 對社會的潛在影響，尤其是模型在不同應用場景中的應用。因此，必須從被動到主動確保 LLM 模型始終遵守相法律，從而減少企業風險、使用者利用風險，並增加使用者對平台的信任

- 法規
- 可用詞/不可宣稱詞
- 內部規範
- 過往審核結果