###### tags: `大語言模型` `AI` `Agent` `核心概念大串聯` # 第一篇:語言模型的基石 — LLM 與 Token > **系列**:AI 核心概念大串聯 | [返回總覽](https://hackmd.io/@TommyHuang/ByDQ96dcZx) | 下一篇:[Context 與 Context Window →](https://hackmd.io/@TommyHuang/SkiIsT_qbe) --- ## 一、LLM 是什麼? **LLM(Large Language Model,大型語言模型)** 是一種以海量文字資料訓練而成的 AI 模型,核心能力是「預測下一個詞」。 聽起來很簡單,但這個能力在足夠規模之後,會湧現出令人驚訝的能力:推理、寫程式、翻譯、摘要、對話…… ### LLM 的本質:機率預測機器 ``` 輸入:「今天天氣很好,我想去」 輸出:「公園」(機率最高的下一個詞) ``` LLM 不是查資料庫,也不是執行規則。它是透過學習數十億個句子後,建立起對語言模式的「直覺」,每次輸出都是一個機率分佈的採樣。 ### 常見的 LLM | 模型 | 開發者 | |------|--------| | GPT-4o | OpenAI | | Claude 3.5 / Claude 4 | Anthropic | | Gemini | Google | | Llama 3 | Meta(開源) | --- ## 二、Token 是什麼? LLM 不是以「字」或「詞」為單位來處理文字,而是以 **Token(詞元)** 為單位。 ### Token ≠ 字,也 ≠ 詞 Token 是模型處理文字的最小單位,由訓練時的**分詞演算法(Tokenizer)** 決定。 ``` 英文範例: "Hello, world!" → ["Hello", ",", " world", "!"] → 4 tokens 中文範例: "你好世界" → ["你好", "世界"] → 2 tokens(視模型而定) 程式碼範例: "def hello():" → ["def", " hello", "():"] → 3 tokens ``` ### 為什麼 Token 很重要? 1. **成本計算**:API 費用以 token 數量計費(輸入 token + 輸出 token) 2. **速度影響**:token 數越多,生成越慢 3. **容量限制**:模型能處理的最大 token 數有上限(這就是 Context Window,後篇詳述) ### Token 的直覺估算 | 語言 | 估算規則 | |------|----------| | 英文 | 1 個單字 ≈ 1.3 tokens | | 中文 | 1 個漢字 ≈ 1–2 tokens | | 程式碼 | 比自然語言用更多 token | --- ## 三、LLM 與 Token 的關係 ``` 你輸入的文字 ↓ Tokenizer(分詞) ↓ [Token][Token][Token]...(數字 ID 序列) ↓ LLM 處理(向量運算) ↓ [Token][Token][Token]...(預測輸出) ↓ Detokenizer(反分詞) ↓ 你看到的輸出文字 ``` LLM 從頭到尾只看到「數字序列」,而非你眼中的文字。Token 就是人類語言與模型數學世界之間的橋樑。 --- ## 四、重點整理 - **LLM** = 以預測下一個 token 為核心訓練的大型語言模型 - **Token** = 模型處理文字的最小單位,非字非詞 - Token 影響:**費用、速度、容量上限** - LLM 的「理解」本質上是對 token 序列的機率運算 --- > 下一篇:[第二篇 — 模型的記憶與視野:Context 與 Context Window →](https://hackmd.io/@TommyHuang/SkiIsT_qbe)