[Stanford University] Beyond LLM課程

# [Stanford University] Beyond LLM課程本堂課程由史丹佛大學教授授課，深入探討 AI 工程師與 AI Builder 核心職能。內容從大型語言模型（LLM）的本質限制出發，一路涵蓋 **Prompt Engineering**、**RAG**、**Fine-Tuning** 到高階的 **Agentic Workflow** 與 **Multi-Agent** 框架，旨在建構一套將 AI 技術轉化為商業價值的完整認知體系。 --- ## 1. 🌀 大型語言模型的局限與縱軸策略在開發 AI 產品時，單純依賴更強的 **Base Model**（橫軸發展）是不夠的，開發者應專注於 **Augmenting LLM**（縱軸發展），即透過工程技術提升模型能力。 * **Base Model 的四大限制：** * **缺乏領域知識 (Domain Knowledge)：** 模型未接觸過企業內部文件或特定產業數據。 * **資訊滯後 (Stale Information)：** 模型訓練有截止日，無法即時掌握最新時事或流行語。 * **難以精確控制：** LLM 具備機率性輸出特質，在生產環境中難以保證穩定性。 * **長文本遺忘 (Lost in the Middle)：** 當 Context 太長時，模型容易忽略中間的細節資訊。 > **核心觀念：** 不要期待換一個更強的模型就能解決所有問題，真正的競爭力在於如何在現有模型上疊加工程技術。 --- ## 2. ✍️ 提示詞工程 (Prompt Engineering) 的實戰演化 **Prompt Engineering** 是每位工程師必備的基本功，而非獨立職業。 * **鋸齒邊界 (The Jagged Frontier)：** 認知到 AI 並非萬能，有些任務顯著加分，有些則會扣分。 * **協作模式：** * **半人馬 (Centaurs)：** 分工委派型，適合重複性高、流程清楚的任務。 * **生化人 (Cyborgs)：** 高頻對話協作型，適合需要創意與來回校正的任務。 * **關鍵技術：Prompt Chaining (提示詞鏈接)：** * 不同於 **Chain of Thought (思維鏈)**，Chaining 是將複雜任務拆解成多個獨立的 Prompt。 * **優點：** 增加可觀測性 (**Observability**)，便於獨立測試與 Debug。 --- ## 3. 📚 RAG 與 Fine-Tuning 的選擇權衡當需要導入特定領域知識時，開發者常在 **RAG** 與 **Fine-Tuning** 之間抉擇。 ### **為何不輕易進行 Fine-Tuning？** 1. 數據成本高：需要大量高品質標注資料。 2. 易過擬合 (**Overfitting**)：喪失通用能力。 3. 時效性差：新版 Base Model 出現後，微調模型易過時。 4. 遷移性低：Prompt 通常可跨模型使用，微調模型則不行。 ### **RAG (檢索增強生成) 的運作機制** * **運作流程：** 原始資料 → **Embedding (向量化)** → 存入 **Vector Database (向量資料庫)** → 根據問題進行語意檢索 → 組合成最終 Prompt。 * **進階技巧：** * **Chunking (切片)：** 將長文件拆解，避免細節遺失。 * **多層次存儲：** 同時保留整篇與段落的向量，提升命中率。 > --- ## 4. ⚙️ Agentic Workflow：從模型轉向系統設計 **Agentic Workflow** 是將提示詞、工具與元件組合成有結構的流程。 * **工程心態的翻轉：** * 從 **Deterministic (確定性)** 轉向 **Fuzzy (模糊性)**。 * 從「精確控制路徑」轉向「管理目標與邊界 (Think like a manager)」。 * **Agent 的三大核心要素：** 1. **Prompts：** 定義角色與行為邊界。 2. **Context Management：** 管理 **Working Memory** (高頻快取) 與 **Archival Memory** (低頻存儲)。 3. **Tools：** 包含執行類工具 (API) 與查詢類工具 (RAG)。 --- ## 5. ⚖️ 評估系統 (Evaluation)：生產環境的命脈在模糊工程 (Fuzzy Engineering) 中，**Eval** 是確保系統穩定的關鍵。 * **三維評估框架：** * **整體 vs 部件：** End-to-End (使用者滿意度) 與 Component-based (單步準確率)。 * **客觀 vs 主觀：** Objective (自動驗證數據) 與 Subjective (語氣、同理心)。 * **定量 vs 定性：** Quantitative (成功率、延遲) 與 Qualitative (幻覺分析、使用者困惑點)。 > **LLM-as-Judge：** 利用另一個 LLM 作為評審，配合 **Rubric-based (評分準則)** 進行主觀評分。 --- ## 6. 🤝 Multi-Agent 系統與 MCP 協議當任務可以平行處理或需要高度復用性時，應考慮 **Multi-Agent** 架構。 * **架構模式：** * **Hierarchical (層級式)：** 由一個 **Orchestrator (統籌者)** 指派任務。 * **Flat (扁平式)：** Agent 之間直接互通。 * **MCP (Model Context Protocol)：** * 一種通用協議層，讓 Agent 不需要針對每個 API 寫死串接邏輯。 * 實現 **Agent-to-Agent Communication**，將其他 Agent 視為一種「工具」。 --- ## 💡 總結與實踐建議打造 AI 產品的成功路徑應遵循：**任務拆解 (Task Decomposition) → 選擇合適工具 (RAG/Tool/Prompt) → 建立評估系統 (Eval)**。 > **學習建議：** 不要盲目追隨技術熱點。從解決實際痛點出發，當單一模型無法負荷時，再逐步引入 RAG、Agentic Workflow 甚至是 Multi-Agent 架構。