###### tags: `大語言模型` `AI` `Agent` `核心概念大串聯` # 第一篇:語言模型的基石 — LLM 與 Token > **系列**:AI 核心概念大串聯 | [返回總覽](https://hackmd.io/@TommyHuang/ByDQ96dcZx) | 下一篇:[Context 與 Context Window →](https://hackmd.io/@TommyHuang/SkiIsT_qbe) --- ## 一、LLM 是什麼? **LLM(Large Language Model,大型語言模型)** 是一種以海量文字資料訓練而成的 AI 模型,核心能力是「預測下一個詞」。 聽起來很簡單,但這個能力在足夠規模之後,會湧現出令人驚訝的能力:推理、寫程式、翻譯、摘要、對話…… ### LLM 的本質:機率預測機器 ``` 輸入:「今天天氣很好,我想去」 輸出:「公園」(機率最高的下一個詞) ``` LLM 不是查資料庫,也不是執行規則。它是透過學習數十億個句子後,建立起對語言模式的「直覺」,每次輸出都是一個機率分佈的採樣。 ### 常見的 LLM | 模型 | 開發者 | |------|--------| | GPT-4o | OpenAI | | Claude 3.5 / Claude 4 | Anthropic | | Gemini | Google | | Llama 3 | Meta(開源) | --- ## 二、Token 是什麼? LLM 不是以「字」或「詞」為單位來處理文字,而是以 **Token(詞元)** 為單位。 ### Token ≠ 字,也 ≠ 詞 Token 是模型處理文字的最小單位,由訓練時的**分詞演算法(Tokenizer)** 決定。 ``` 英文範例: "Hello, world!" → ["Hello", ",", " world", "!"] → 4 tokens 中文範例: "你好世界" → ["你好", "世界"] → 2 tokens(視模型而定) 程式碼範例: "def hello():" → ["def", " hello", "():"] → 3 tokens ``` ### 為什麼 Token 很重要? 1. **成本計算**:API 費用以 token 數量計費(輸入 token + 輸出 token) 2. **速度影響**:token 數越多,生成越慢 3. **容量限制**:模型能處理的最大 token 數有上限(這就是 Context Window,後篇詳述) ### Token 的直覺估算 | 語言 | 估算規則 | |------|----------| | 英文 | 1 個單字 ≈ 1.3 tokens | | 中文 | 1 個漢字 ≈ 1–2 tokens | | 程式碼 | 比自然語言用更多 token | --- ## 三、LLM 與 Token 的關係 ``` 你輸入的文字 ↓ Tokenizer(分詞) ↓ [Token][Token][Token]...(數字 ID 序列) ↓ LLM 處理(向量運算) ↓ [Token][Token][Token]...(預測輸出) ↓ Detokenizer(反分詞) ↓ 你看到的輸出文字 ``` LLM 從頭到尾只看到「數字序列」,而非你眼中的文字。Token 就是人類語言與模型數學世界之間的橋樑。 --- ## 四、重點整理 - **LLM** = 以預測下一個 token 為核心訓練的大型語言模型 - **Token** = 模型處理文字的最小單位,非字非詞 - Token 影響:**費用、速度、容量上限** - LLM 的「理解」本質上是對 token 序列的機率運算 --- > 下一篇:[第二篇 — 模型的記憶與視野:Context 與 Context Window →](https://hackmd.io/@TommyHuang/SkiIsT_qbe)
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.