# [Stanford University] Beyond LLM課程
本堂課程由史丹佛大學教授授課,深入探討 AI 工程師與 AI Builder 核心職能。內容從大型語言模型(LLM)的本質限制出發,一路涵蓋 **Prompt Engineering**、**RAG**、**Fine-Tuning** 到高階的 **Agentic Workflow** 與 **Multi-Agent** 框架,旨在建構一套將 AI 技術轉化為商業價值的完整認知體系。
---
## 1. 🌀 大型語言模型的局限與縱軸策略
在開發 AI 產品時,單純依賴更強的 **Base Model**(橫軸發展)是不夠的,開發者應專注於 **Augmenting LLM**(縱軸發展),即透過工程技術提升模型能力。
* **Base Model 的四大限制:**
* **缺乏領域知識 (Domain Knowledge):** 模型未接觸過企業內部文件或特定產業數據。
* **資訊滯後 (Stale Information):** 模型訓練有截止日,無法即時掌握最新時事或流行語。
* **難以精確控制:** LLM 具備機率性輸出特質,在生產環境中難以保證穩定性。
* **長文本遺忘 (Lost in the Middle):** 當 Context 太長時,模型容易忽略中間的細節資訊。
> **核心觀念:** 不要期待換一個更強的模型就能解決所有問題,真正的競爭力在於如何在現有模型上疊加工程技術。
---
## 2. ✍️ 提示詞工程 (Prompt Engineering) 的實戰演化
**Prompt Engineering** 是每位工程師必備的基本功,而非獨立職業。
* **鋸齒邊界 (The Jagged Frontier):** 認知到 AI 並非萬能,有些任務顯著加分,有些則會扣分。
* **協作模式:**
* **半人馬 (Centaurs):** 分工委派型,適合重複性高、流程清楚的任務。
* **生化人 (Cyborgs):** 高頻對話協作型,適合需要創意與來回校正的任務。
* **關鍵技術:Prompt Chaining (提示詞鏈接):**
* 不同於 **Chain of Thought (思維鏈)**,Chaining 是將複雜任務拆解成多個獨立的 Prompt。
* **優點:** 增加可觀測性 (**Observability**),便於獨立測試與 Debug。
---
## 3. 📚 RAG 與 Fine-Tuning 的選擇權衡
當需要導入特定領域知識時,開發者常在 **RAG** 與 **Fine-Tuning** 之間抉擇。
### **為何不輕易進行 Fine-Tuning?**
1. 數據成本高:需要大量高品質標注資料。
2. 易過擬合 (**Overfitting**):喪失通用能力。
3. 時效性差:新版 Base Model 出現後,微調模型易過時。
4. 遷移性低:Prompt 通常可跨模型使用,微調模型則不行。
### **RAG (檢索增強生成) 的運作機制**
* **運作流程:** 原始資料 → **Embedding (向量化)** → 存入 **Vector Database (向量資料庫)** → 根據問題進行語意檢索 → 組合成最終 Prompt。
* **進階技巧:**
* **Chunking (切片):** 將長文件拆解,避免細節遺失。
* **多層次存儲:** 同時保留整篇與段落的向量,提升命中率。
>
---
## 4. ⚙️ Agentic Workflow:從模型轉向系統設計
**Agentic Workflow** 是將提示詞、工具與元件組合成有結構的流程。
* **工程心態的翻轉:**
* 從 **Deterministic (確定性)** 轉向 **Fuzzy (模糊性)**。
* 從「精確控制路徑」轉向「管理目標與邊界 (Think like a manager)」。
* **Agent 的三大核心要素:**
1. **Prompts:** 定義角色與行為邊界。
2. **Context Management:** 管理 **Working Memory** (高頻快取) 與 **Archival Memory** (低頻存儲)。
3. **Tools:** 包含執行類工具 (API) 與查詢類工具 (RAG)。
---
## 5. ⚖️ 評估系統 (Evaluation):生產環境的命脈
在模糊工程 (Fuzzy Engineering) 中,**Eval** 是確保系統穩定的關鍵。
* **三維評估框架:**
* **整體 vs 部件:** End-to-End (使用者滿意度) 與 Component-based (單步準確率)。
* **客觀 vs 主觀:** Objective (自動驗證數據) 與 Subjective (語氣、同理心)。
* **定量 vs 定性:** Quantitative (成功率、延遲) 與 Qualitative (幻覺分析、使用者困惑點)。
> **LLM-as-Judge:** 利用另一個 LLM 作為評審,配合 **Rubric-based (評分準則)** 進行主觀評分。
---
## 6. 🤝 Multi-Agent 系統與 MCP 協議
當任務可以平行處理或需要高度復用性時,應考慮 **Multi-Agent** 架構。
* **架構模式:**
* **Hierarchical (層級式):** 由一個 **Orchestrator (統籌者)** 指派任務。
* **Flat (扁平式):** Agent 之間直接互通。
* **MCP (Model Context Protocol):**
* 一種通用協議層,讓 Agent 不需要針對每個 API 寫死串接邏輯。
* 實現 **Agent-to-Agent Communication**,將其他 Agent 視為一種「工具」。
---
## 💡 總結與實踐建議
打造 AI 產品的成功路徑應遵循:**任務拆解 (Task Decomposition) → 選擇合適工具 (RAG/Tool/Prompt) → 建立評估系統 (Eval)**。
> **學習建議:** 不要盲目追隨技術熱點。從解決實際痛點出發,當單一模型無法負荷時,再逐步引入 RAG、Agentic Workflow 甚至是 Multi-Agent 架構。