---
# System prepended metadata

title: '[Stanford University] Beyond LLM課程'
tags: [learn]

---

# [Stanford University] Beyond LLM課程

本堂課程由史丹佛大學教授授課，深入探討 AI 工程師與 AI Builder 核心職能。內容從大型語言模型（LLM）的本質限制出發，一路涵蓋 **Prompt Engineering**、**RAG**、**Fine-Tuning** 到高階的 **Agentic Workflow** 與 **Multi-Agent** 框架，旨在建構一套將 AI 技術轉化為商業價值的完整認知體系。

---

## 1. 🌀 大型語言模型的局限與縱軸策略

在開發 AI 產品時，單純依賴更強的 **Base Model**（橫軸發展）是不夠的，開發者應專注於 **Augmenting LLM**（縱軸發展），即透過工程技術提升模型能力。

* **Base Model 的四大限制：**
    * **缺乏領域知識 (Domain Knowledge)：** 模型未接觸過企業內部文件或特定產業數據。
    * **資訊滯後 (Stale Information)：** 模型訓練有截止日，無法即時掌握最新時事或流行語。
    * **難以精確控制：** LLM 具備機率性輸出特質，在生產環境中難以保證穩定性。
    * **長文本遺忘 (Lost in the Middle)：** 當 Context 太長時，模型容易忽略中間的細節資訊。

> **核心觀念：** 不要期待換一個更強的模型就能解決所有問題，真正的競爭力在於如何在現有模型上疊加工程技術。

---

## 2. ✍️ 提示詞工程 (Prompt Engineering) 的實戰演化

**Prompt Engineering** 是每位工程師必備的基本功，而非獨立職業。

* **鋸齒邊界 (The Jagged Frontier)：** 認知到 AI 並非萬能，有些任務顯著加分，有些則會扣分。
* **協作模式：**
    * **半人馬 (Centaurs)：** 分工委派型，適合重複性高、流程清楚的任務。
    * **生化人 (Cyborgs)：** 高頻對話協作型，適合需要創意與來回校正的任務。
* **關鍵技術：Prompt Chaining (提示詞鏈接)：**
    * 不同於 **Chain of Thought (思維鏈)**，Chaining 是將複雜任務拆解成多個獨立的 Prompt。
    * **優點：** 增加可觀測性 (**Observability**)，便於獨立測試與 Debug。

---

## 3. 📚 RAG 與 Fine-Tuning 的選擇權衡

當需要導入特定領域知識時，開發者常在 **RAG** 與 **Fine-Tuning** 之間抉擇。

### **為何不輕易進行 Fine-Tuning？**
1. 數據成本高：需要大量高品質標注資料。
2. 易過擬合 (**Overfitting**)：喪失通用能力。
3. 時效性差：新版 Base Model 出現後，微調模型易過時。
4. 遷移性低：Prompt 通常可跨模型使用，微調模型則不行。

### **RAG (檢索增強生成) 的運作機制**
* **運作流程：** 原始資料 → **Embedding (向量化)** → 存入 **Vector Database (向量資料庫)** → 根據問題進行語意檢索 → 組合成最終 Prompt。
* **進階技巧：**
    * **Chunking (切片)：** 將長文件拆解，避免細節遺失。
    * **多層次存儲：** 同時保留整篇與段落的向量，提升命中率。

> 

---

## 4. ⚙️ Agentic Workflow：從模型轉向系統設計

**Agentic Workflow** 是將提示詞、工具與元件組合成有結構的流程。

* **工程心態的翻轉：**
    * 從 **Deterministic (確定性)** 轉向 **Fuzzy (模糊性)**。
    * 從「精確控制路徑」轉向「管理目標與邊界 (Think like a manager)」。
* **Agent 的三大核心要素：**
    1. **Prompts：** 定義角色與行為邊界。
    2. **Context Management：** 管理 **Working Memory** (高頻快取) 與 **Archival Memory** (低頻存儲)。
    3. **Tools：** 包含執行類工具 (API) 與查詢類工具 (RAG)。

---

## 5. ⚖️ 評估系統 (Evaluation)：生產環境的命脈

在模糊工程 (Fuzzy Engineering) 中，**Eval** 是確保系統穩定的關鍵。

* **三維評估框架：**
    * **整體 vs 部件：** End-to-End (使用者滿意度) 與 Component-based (單步準確率)。
    * **客觀 vs 主觀：** Objective (自動驗證數據) 與 Subjective (語氣、同理心)。
    * **定量 vs 定性：** Quantitative (成功率、延遲) 與 Qualitative (幻覺分析、使用者困惑點)。

> **LLM-as-Judge：** 利用另一個 LLM 作為評審，配合 **Rubric-based (評分準則)** 進行主觀評分。

---

## 6. 🤝 Multi-Agent 系統與 MCP 協議

當任務可以平行處理或需要高度復用性時，應考慮 **Multi-Agent** 架構。

* **架構模式：**
    * **Hierarchical (層級式)：** 由一個 **Orchestrator (統籌者)** 指派任務。
    * **Flat (扁平式)：** Agent 之間直接互通。
* **MCP (Model Context Protocol)：**
    * 一種通用協議層，讓 Agent 不需要針對每個 API 寫死串接邏輯。
    * 實現 **Agent-to-Agent Communication**，將其他 Agent 視為一種「工具」。

---

## 💡 總結與實踐建議

打造 AI 產品的成功路徑應遵循：**任務拆解 (Task Decomposition) → 選擇合適工具 (RAG/Tool/Prompt) → 建立評估系統 (Eval)**。

> **學習建議：** 不要盲目追隨技術熱點。從解決實際痛點出發，當單一模型無法負荷時，再逐步引入 RAG、Agentic Workflow 甚至是 Multi-Agent 架構。