# [Stanford University] Beyond LLM課程 本堂課程由史丹佛大學教授授課,深入探討 AI 工程師與 AI Builder 核心職能。內容從大型語言模型(LLM)的本質限制出發,一路涵蓋 **Prompt Engineering**、**RAG**、**Fine-Tuning** 到高階的 **Agentic Workflow** 與 **Multi-Agent** 框架,旨在建構一套將 AI 技術轉化為商業價值的完整認知體系。 --- ## 1. 🌀 大型語言模型的局限與縱軸策略 在開發 AI 產品時,單純依賴更強的 **Base Model**(橫軸發展)是不夠的,開發者應專注於 **Augmenting LLM**(縱軸發展),即透過工程技術提升模型能力。 * **Base Model 的四大限制:** * **缺乏領域知識 (Domain Knowledge):** 模型未接觸過企業內部文件或特定產業數據。 * **資訊滯後 (Stale Information):** 模型訓練有截止日,無法即時掌握最新時事或流行語。 * **難以精確控制:** LLM 具備機率性輸出特質,在生產環境中難以保證穩定性。 * **長文本遺忘 (Lost in the Middle):** 當 Context 太長時,模型容易忽略中間的細節資訊。 > **核心觀念:** 不要期待換一個更強的模型就能解決所有問題,真正的競爭力在於如何在現有模型上疊加工程技術。 --- ## 2. ✍️ 提示詞工程 (Prompt Engineering) 的實戰演化 **Prompt Engineering** 是每位工程師必備的基本功,而非獨立職業。 * **鋸齒邊界 (The Jagged Frontier):** 認知到 AI 並非萬能,有些任務顯著加分,有些則會扣分。 * **協作模式:** * **半人馬 (Centaurs):** 分工委派型,適合重複性高、流程清楚的任務。 * **生化人 (Cyborgs):** 高頻對話協作型,適合需要創意與來回校正的任務。 * **關鍵技術:Prompt Chaining (提示詞鏈接):** * 不同於 **Chain of Thought (思維鏈)**,Chaining 是將複雜任務拆解成多個獨立的 Prompt。 * **優點:** 增加可觀測性 (**Observability**),便於獨立測試與 Debug。 --- ## 3. 📚 RAG 與 Fine-Tuning 的選擇權衡 當需要導入特定領域知識時,開發者常在 **RAG** 與 **Fine-Tuning** 之間抉擇。 ### **為何不輕易進行 Fine-Tuning?** 1. 數據成本高:需要大量高品質標注資料。 2. 易過擬合 (**Overfitting**):喪失通用能力。 3. 時效性差:新版 Base Model 出現後,微調模型易過時。 4. 遷移性低:Prompt 通常可跨模型使用,微調模型則不行。 ### **RAG (檢索增強生成) 的運作機制** * **運作流程:** 原始資料 → **Embedding (向量化)** → 存入 **Vector Database (向量資料庫)** → 根據問題進行語意檢索 → 組合成最終 Prompt。 * **進階技巧:** * **Chunking (切片):** 將長文件拆解,避免細節遺失。 * **多層次存儲:** 同時保留整篇與段落的向量,提升命中率。 > --- ## 4. ⚙️ Agentic Workflow:從模型轉向系統設計 **Agentic Workflow** 是將提示詞、工具與元件組合成有結構的流程。 * **工程心態的翻轉:** * 從 **Deterministic (確定性)** 轉向 **Fuzzy (模糊性)**。 * 從「精確控制路徑」轉向「管理目標與邊界 (Think like a manager)」。 * **Agent 的三大核心要素:** 1. **Prompts:** 定義角色與行為邊界。 2. **Context Management:** 管理 **Working Memory** (高頻快取) 與 **Archival Memory** (低頻存儲)。 3. **Tools:** 包含執行類工具 (API) 與查詢類工具 (RAG)。 --- ## 5. ⚖️ 評估系統 (Evaluation):生產環境的命脈 在模糊工程 (Fuzzy Engineering) 中,**Eval** 是確保系統穩定的關鍵。 * **三維評估框架:** * **整體 vs 部件:** End-to-End (使用者滿意度) 與 Component-based (單步準確率)。 * **客觀 vs 主觀:** Objective (自動驗證數據) 與 Subjective (語氣、同理心)。 * **定量 vs 定性:** Quantitative (成功率、延遲) 與 Qualitative (幻覺分析、使用者困惑點)。 > **LLM-as-Judge:** 利用另一個 LLM 作為評審,配合 **Rubric-based (評分準則)** 進行主觀評分。 --- ## 6. 🤝 Multi-Agent 系統與 MCP 協議 當任務可以平行處理或需要高度復用性時,應考慮 **Multi-Agent** 架構。 * **架構模式:** * **Hierarchical (層級式):** 由一個 **Orchestrator (統籌者)** 指派任務。 * **Flat (扁平式):** Agent 之間直接互通。 * **MCP (Model Context Protocol):** * 一種通用協議層,讓 Agent 不需要針對每個 API 寫死串接邏輯。 * 實現 **Agent-to-Agent Communication**,將其他 Agent 視為一種「工具」。 --- ## 💡 總結與實踐建議 打造 AI 產品的成功路徑應遵循:**任務拆解 (Task Decomposition) → 選擇合適工具 (RAG/Tool/Prompt) → 建立評估系統 (Eval)**。 > **學習建議:** 不要盲目追隨技術熱點。從解決實際痛點出發,當單一模型無法負荷時,再逐步引入 RAG、Agentic Workflow 甚至是 Multi-Agent 架構。