---
# System prepended metadata

title: 第一篇：語言模型的基石 — LLM 與 Token
tags: [大語言模型, Agent, 核心概念大串聯, AI]

---

###### tags: `大語言模型` `AI` `Agent` `核心概念大串聯`
# 第一篇：語言模型的基石 — LLM 與 Token

> **系列**：AI 核心概念大串聯 | [返回總覽](https://hackmd.io/@TommyHuang/ByDQ96dcZx) | 下一篇：[Context 與 Context Window →](https://hackmd.io/@TommyHuang/SkiIsT_qbe)

---

## 一、LLM 是什麼？

**LLM（Large Language Model，大型語言模型）** 是一種以海量文字資料訓練而成的 AI 模型，核心能力是「預測下一個詞」。

聽起來很簡單，但這個能力在足夠規模之後，會湧現出令人驚訝的能力：推理、寫程式、翻譯、摘要、對話……

### LLM 的本質：機率預測機器

```
輸入：「今天天氣很好，我想去」
輸出：「公園」（機率最高的下一個詞）
```

LLM 不是查資料庫，也不是執行規則。它是透過學習數十億個句子後，建立起對語言模式的「直覺」，每次輸出都是一個機率分佈的採樣。

### 常見的 LLM

| 模型 | 開發者 |
|------|--------|
| GPT-4o | OpenAI |
| Claude 3.5 / Claude 4 | Anthropic |
| Gemini | Google |
| Llama 3 | Meta（開源） |

---

## 二、Token 是什麼？

LLM 不是以「字」或「詞」為單位來處理文字，而是以 **Token（詞元）** 為單位。

### Token ≠ 字，也 ≠ 詞

Token 是模型處理文字的最小單位，由訓練時的**分詞演算法（Tokenizer）** 決定。

```
英文範例：
"Hello, world!" → ["Hello", ",", " world", "!"]  → 4 tokens

中文範例：
"你好世界" → ["你好", "世界"]  → 2 tokens（視模型而定）

程式碼範例：
"def hello():" → ["def", " hello", "():"]  → 3 tokens
```

### 為什麼 Token 很重要？

1. **成本計算**：API 費用以 token 數量計費（輸入 token + 輸出 token）
2. **速度影響**：token 數越多，生成越慢
3. **容量限制**：模型能處理的最大 token 數有上限（這就是 Context Window，後篇詳述）

### Token 的直覺估算

| 語言 | 估算規則 |
|------|----------|
| 英文 | 1 個單字 ≈ 1.3 tokens |
| 中文 | 1 個漢字 ≈ 1–2 tokens |
| 程式碼 | 比自然語言用更多 token |

---

## 三、LLM 與 Token 的關係

```
你輸入的文字
      ↓
  Tokenizer（分詞）
      ↓
[Token][Token][Token]...（數字 ID 序列）
      ↓
  LLM 處理（向量運算）
      ↓
[Token][Token][Token]...（預測輸出）
      ↓
  Detokenizer（反分詞）
      ↓
你看到的輸出文字
```

LLM 從頭到尾只看到「數字序列」，而非你眼中的文字。Token 就是人類語言與模型數學世界之間的橋樑。

---

## 四、重點整理

- **LLM** = 以預測下一個 token 為核心訓練的大型語言模型
- **Token** = 模型處理文字的最小單位，非字非詞
- Token 影響：**費用、速度、容量上限**
- LLM 的「理解」本質上是對 token 序列的機率運算

---

> 下一篇：[第二篇 — 模型的記憶與視野：Context 與 Context Window →](https://hackmd.io/@TommyHuang/SkiIsT_qbe)
