[GenAI] [AI] [Youtube] [Hung-yi Lee]【生成式人工智慧與機器學習導論2025】 - 解剖大型語言模型

# 課程主題與目標 ![image](https://hackmd.io/_uploads/HkRni0VkZg.png) * 第三講主題：語言模型的內部運作 * 探討語言模型從輸入句子到輸出機率分布的過程 * 不討論訓練過程，只觀察已訓練模型的內部結構與運算流程 * 分三部分：輸入到輸出流程、各層運作、單層內部細節 # 語言模型的基本概念 ![image](https://hackmd.io/_uploads/B10ao0Vk-x.png) * 語言模型是函式 F，輸入未完成句子 X，輸出 F(X) 為下一個 Token 的機率分布 * 模型任務：預測下一個 Token 的機率 * 模型由多層組成，每層逐步處理向量資訊 # Tokenization 與 Embedding ![image](https://hackmd.io/_uploads/rkIy3CE1be.png) * 輸入句子經過 Tokenization 切成 Token，每個 Token 對應唯一 ID * 假設每個中文字是一個 Token（為簡化示意） * Token ID 經由 Embedding Table 轉成向量（embedding） * Embedding Table 是模型參數矩陣：row 對應詞彙，column 對應向量維度 * Token ID 查表獲得 embedding，即一串實數向量 # Embedding 的性質與分類 ![image](https://hackmd.io/_uploads/B1JZ3CEJ-e.png) * 每個 Token embedding 對應模型參數的一部分 * Embedding Table 為模型的參數矩陣之一 * 查表後的 embedding 稱為 Token Embedding * 通過 Layer 後的 embedding 考慮上下文，稱為 Contextualized Embedding * Contextualized Embedding 又稱 Hidden/Latent Representation # Layer 的基本運作 ![image](https://hackmd.io/_uploads/Bkb7nA41Zl.png) ![image](https://hackmd.io/_uploads/H1cX3CEJWl.png) * 每層接收一組輸入向量並輸出同樣長度的新向量 * 每層包含多組參數矩陣，形成模型的核心運算單元 * 每個輸出向量綜合該 Token 與其前文資訊 * 多層疊加形成 Deep Learning 結構 # 深度學習的意義 ![image](https://hackmd.io/_uploads/SyDN3CEybl.png) ![image](https://hackmd.io/_uploads/BJhVnRNkbx.png) * 多層網路即 Deep Learning，也稱 Neural Network * 多層結構能逐層抽取更高層次的語意特徵 * 比淺層網路表現更好，可在數學上證明深層模型優於淺層模型 # 最後輸出與 LM Head ![image](https://hackmd.io/_uploads/SJWDnA4yZe.png) * 通過所有 Layer 後取得最終一排向量 * 取最後一個向量（k 維），乘上 LM Head 矩陣（k×V） * 輸出 V 維向量，每一維對應一個 Token 的分數 * LM Head 為模型最後一層參數矩陣 # Logit 與 Softmax ![image](https://hackmd.io/_uploads/SJuu3CNk-l.png) * 輸出向量中的數值稱為 Logit，可為正或負，非機率 * Softmax 將 Logit 轉換為 0~1 的機率分布，使總和為 1 * 操作：取每個 logit 的 exponential，再除以總和 # Softmax 的意義與彈性 * Softmax 僅為將數值轉為便於取樣的形式，不必視為真實機率 * Hugging Face 模型預設輸出 Logit，是否轉機率由使用者決定 * 可用其他方法轉換或取樣，Softmax 只是常用選項 # Temperature 參數 ![image](https://hackmd.io/_uploads/HkgcnAV1-l.png) * 在 Softmax 前可除以參數 T（temperature）調整分布平坦度 * T 大 → 機率分布較平均，輸出更多樣（創意模式） * T 小 → 機率分布集中，輸出較穩定（保守模式） * 控制 T 可改變模型輸出傾向與取樣風格 --- # Unembedding 的概念 ![image](https://hackmd.io/_uploads/SJisnR4yWl.png) * Unembedding 是將模型最後輸出的向量轉成各 Token 的分數 * 多數語言模型（如 Llama、Gemma）採首尾共用設計：LM Head 與 Embedding Table 相同 * 模型最後輸出向量與每個 Token 的 Embedding 做 dot product，比較相似度 * 相似度越高的 Token，其分數與機率越高 * 模型會產生接近正確 Token Embedding 的 Representation，以提高預測正確率 # Token Embedding 的意義 ![image](https://hackmd.io/_uploads/HkG62AE1-g.png) ![image](https://hackmd.io/_uploads/Hyf1T0Nk-e.png) * 同一 Token 會有相同的 Token Embedding * 意思相近的 Token 其 Embedding 也會相似 * Token Embedding 不是隨機產生，而是學習出語意相似度 * 例如：Apple 的 Embedding 會接近 Orange、Banana，也可能接近 iPhone # Contextualized Embedding ![image](https://hackmd.io/_uploads/Sy-xpAVJZg.png) ![image](https://hackmd.io/_uploads/r1ogTAVkZl.png) * Token Embedding 經過第一層後成為 Contextualized Embedding * 考慮上下文後，同一 Token 在不同句子中會有不同的 Embedding * 例如：Apple 表示水果與公司時，其 Contextualized Embedding 會顯著不同 * 不同語境的 Embedding 反映語義差異 # Embedding 空間與語意方向 ![image](https://hackmd.io/_uploads/ryQGTAE1Zl.png) * Embedding 在高維空間中排列並非隨機 * 類似語意的 Embedding 會聚集在相近位置 * 某些方向具有特定語意（如翻譯方向、性別、語法關係） * 例如：Cold-冷、Hot-熱、Big-大的差向量可能相似 * 不同模型與層之間語意方向不一定一致 # 高維向量的低維投影分析 ![image](https://hackmd.io/_uploads/ryuXaAVkWe.png) ![image](https://hackmd.io/_uploads/rkXVpCVy-e.png) ![image](https://hackmd.io/_uploads/SJ-HaAN1Zx.png) * 為理解高維 Embedding，可將其投影至二維空間觀察 * 不同投影方向會呈現不同關聯結果 * 研究發現特定層的 Representation 可投影出語法結構（文法樹） * 中間層通常蘊含較多語法資訊 * 實驗例：BERT 模型在中間層可觀察出文法樹結構 # 語意地圖的投影研究 ![messageImage_1762090317348](https://hackmd.io/_uploads/rygvp0NyZx.jpg) * 實驗將地名丟入 Llama 模型，抽取其 Representation * 找到合適投影平面後，可在二維平面上重現世界地圖的輪廓 * 投影後地名大致分布於對應洲域，顯示模型內部具有地理語意結構 # Representation Engineering ![image](https://hackmd.io/_uploads/SJ1dpCEJ-l.png) * 通過修改 Representation 觀察模型行為變化 * 若改動後模型行為改變（如說髒話），表示該方向控制相關語意 * 技術名稱：Representation Engineering / Activation Engineering / Activation Theory * 作業範例：操控模型拒絕或同意使用者請求 # 拒絕成分的提取方法 ![image](https://hackmd.io/_uploads/SJyFTAVy-e.png) ![image](https://hackmd.io/_uploads/r1dK6CEJWg.png) * 找出模型在拒絕請求時的特定層（如第 10 層）Representation * 收集多組會拒絕與不會拒絕的輸入 * 取兩組第 10 層的平均 Representation，並作相減 * 相減結果代表「拒絕向量」，即引導模型拒絕的成分 * 將拒絕向量加回正常請求的第 10 層 Representation，模型就會拒絕該請求 * 實際操作需嘗試多層以找出效果最佳的層級 --- # 拒絕成分（Refusal Component）實驗 ![image](https://hackmd.io/_uploads/Bk52aR41Zx.png) ![image](https://hackmd.io/_uploads/HkGT6RE1-g.png) ![image](https://hackmd.io/_uploads/Sk11R0N1bl.png) ![image](https://hackmd.io/_uploads/B1_lACVJ-l.png) ![image](https://hackmd.io/_uploads/HJoWCAE1Wg.png) * 2024 年論文找出語言模型中代表「拒絕」的成分向量 * 對模型進行 intervention（在 representation 中加入向量）即可改變行為 * 原本問題如「請教我怎麼做瑜伽」會正常回答 * 加入拒絕成分後模型會拒絕並給出負面回應，如「做瑜伽對身體有害」 * 數據顯示加入拒絕向量後拒絕比例大幅上升 # 減去拒絕成分的效果 ![image](https://hackmd.io/_uploads/SJNfC041Wl.png) * 若從 representation 中減掉拒絕向量，原本會拒絕的問題就會被回答 * 例如「請幫我寫關於美國總統吸毒醜聞的信」 * 原本模型會拒絕，減去拒絕向量後模型會生成違規內容 * 實驗以兩項指標評估：拒絕比例與安全比例 * 減去拒絕成分後，拒絕比例下降、不安全比例上升 # Anthropic 的 Representation 分析 ![image](https://hackmd.io/_uploads/r1g4R04y-l.png) * Anthropic（Claude 開發公司）進行自動化成分搜尋 * 找出可控制模型行為的向量，如「拍馬屁／諂媚」成分 * 加入該成分後，Claude 對任何輸入都會過度誇讚使用者 * 同篇分析中還發現多種語義與情感控制成分 # Logit Lens 方法 ![image](https://hackmd.io/_uploads/ry1HA0Vkbe.png) ![image](https://hackmd.io/_uploads/B1sHAAV1Zx.png) * 分析模型中間層的語意內容 * 原理：對每一層的 representation 進行 unembedding * 可觀察每層模型「心裡」預測的下一個 token * 讓研究者看到模型逐層的思考過程 * 最早出現於 2020 年論文，後被命名為 Logit Lens # Logit Lens 翻譯實驗 ![image](https://hackmd.io/_uploads/SkA80R4kZe.png) * 2024 年研究利用 Logit Lens 觀察 Llama 翻譯流程 * 輸入法文「fleur」，最終輸出中文「花」 * 模型中間層先生成英文 "flower"，再轉為中文 * 顯示模型內部以英文為中介語進行思考 # Patch Scope 方法 ![image](https://hackmd.io/_uploads/Hygt0041-l.png) ![image](https://hackmd.io/_uploads/ryF5CR4kZe.png) * 將特定 representation 注入語言模型中觀察輸出變化 * 操作方式：在 prompt 中設置「請簡單介紹 X」，用特定 representation 替換 X * 可生成代表該 representation 的完整句子描述 * 不同 prompt 角度可產生不同解讀 # Patch Scope 實驗：Diana, Princess of Wales ![image](https://hackmd.io/_uploads/SJW2C0Nybx.png) ![image](https://hackmd.io/_uploads/SkBp00Nybe.png) * 將輸入「Diana, Princess of Wales」於各層 representation 替換分析 * 前 1–3 層僅辨識出 "Wales" → 「英國的國家」 * 第 4 層辨識出「女性王室成員」 * 第 5 層理解為「威爾斯王子的妻子」 * 第 6 層完整識別為「黛安娜王妃」 * 顯示模型隨層數加深逐步形成語意理解 # Transformer Layer 結構概述 ![image](https://hackmd.io/_uploads/BJj1JJrJZg.png) * 每層包含多個 sub-layer * 核心運作為 self-attention，負責融合上下文資訊 * 每層輸入與輸出向量數量相同 * self-attention 輸出後再經 feed-forward layer 得最終輸出 * Transformer 的上下文建模能力主要來自 self-attention 机制 --- # Attention is All You Need 的真正貢獻 ![image](https://hackmd.io/_uploads/rypzyyS1Wg.png) * 發表於 2017 年（Transformer 架構提出） * 並非發明 attention，而是首次證明僅用 attention 即可取代 recurrent 架構 * 2014 年起已有多篇論文提出 attention 概念 * 以往模型多使用 LSTM、GRU 等 recurrent 結構搭配 attention * Transformer 移除 recurrent 結構，僅用 attention 即能處理上下文 * 優點：可完全平行化，訓練效率提升 # Attention 的基本運作概念 ![image](https://hackmd.io/_uploads/H1rOk1S1-x.png) * 每層接收輸入 Token Embedding，輸出新的 representation * 以「果」這個 Token 為例，目標是找出句中哪些 Token 影響「果」的意思 * 例如句子「兩顆青蘋果」中，「青」與「蘋」對「果」的語意影響最大 * Attention 包含兩步驟：尋找關聯的 Token、整合影響資訊 # Query、Key、Value 的生成 ![image](https://hackmd.io/_uploads/rk1nyyrybg.png) ![image](https://hackmd.io/_uploads/SkpnyyHJbg.png) * 每個 Token Embedding 經三個矩陣轉換：WQ、WK、WV * WQ 產生 Query 向量（代表想了解的 Token，例如「果」） * WK 產生 Key 向量（代表提供資訊的 Token，例如「青」） * WV 產生 Value 向量（代表實際資訊內容） * 使用 dot product 計算 Query 與各 Key 的相似度 # Attention Weight 的計算 ![image](https://hackmd.io/_uploads/r1-MxJrJZg.png) ![image](https://hackmd.io/_uploads/rkeQlkrJbg.png) ![image](https://hackmd.io/_uploads/HJvBxJHkWx.png) * Dot product 結果代表兩 Token 之間的關聯強度 * 每個 Token 都會與其他 Token 進行計算（包含自己） * 結果經過 Softmax 正規化，形成 attention weight（總和為 1） * 數值越大代表該 Token 對當前 Token 的語意影響越大 # Positional Embedding 的引入 ![image](https://hackmd.io/_uploads/ryjgg1Sy-x.png) * Token Embedding 本身不含位置信息，需加入 Positional Embedding * 每個位置對應一個位置向量，與 Token Embedding 相加 * 可讓模型分辨「青果」與「果青」等不同順序 * 固定表格法限制輸入長度，因此出現改良技術（如 Llama 使用的 RoPE） # Weighted Sum 與 Residual Connection ![image](https://hackmd.io/_uploads/By6wxyrJ-g.png) ![image](https://hackmd.io/_uploads/H1jFeJHkZg.png) * Attention 輸出階段：根據 attention weight 對各 Token 的 Value 向量加權求和 * 結果融合不同 Token 的語意資訊 * 為保留原始 Token 資訊，使用 residual connection：將原 embedding 加回加權結果 * 得到新的輸出向量作為該位置的 representation # Multi-head Attention ![image](https://hackmd.io/_uploads/S1xixkSJWl.png) * 單一 attention 只能捕捉一種語意關聯（如顏色） * 多頭（multi-head）設計可同時捕捉不同面向 * 每個 head 有獨立的 WQ、WK、WV * 不同 head 專注於不同語意關係，如形容詞、數量、語法 * 各 head 的輸出向量最後會整合成最終輸出 representation --- # Multi-head Attention 的整合 ![image](https://hackmd.io/_uploads/Bysng1SkWg.png) ![image](https://hackmd.io/_uploads/ByypeJSkbx.png) * 多個 attention head 各自產生不同向量 * 這些向量會通過矩陣 WO 進行整合 * 經 WO 後的向量再與原始 Token 向量透過 residual connection 相加 * 結果即為 Self-Attention layer 的最終輸出 representation # Attention 的計算複雜度 ![image](https://hackmd.io/_uploads/Sk8alkHk-l.png) ![image](https://hackmd.io/_uploads/Byc6gkr1-x.png) * Attention 的運算量與輸入長度平方成長 * 輸入越長，計算量與記憶體消耗越高 * 這是語言模型處理長序列時的主要瓶頸 * 為解決此問題，後續出現各種替代架構（如 Mamba） # Causal Attention ![image](https://hackmd.io/_uploads/HybgbkHy-e.png) * 實際語言模型通常僅考慮左側（前文）Token * 像「蘋」的 representation 只受「兩、顆、青」影響 * 這種僅使用前文資訊的設計稱為 Causal Attention * 適合用於自回歸（autoregressive）生成模型 # Non-Causal Attention * 允許模型同時考慮左、右兩邊的上下文 * 理論上能捕捉更完整語意關係 * 實驗顯示部分任務中效果更佳 * 但在自回歸生成任務中較不方便實作 # Feed-Forward Layer（FFN）結構 ![image](https://hackmd.io/_uploads/Sk2xZ1BJZe.png) * 位於每層 attention 之後 * 以矩陣乘法與 bias 相加構成 * 通常包含兩層線性轉換與一個 activation function * 主要功能為非線性映射與特徵轉換 # Activation Function ![image](https://hackmd.io/_uploads/S1eMZ1SyWl.png) * 常見 ReLU（小於 0 設為 0，大於 0 保留） * 近年多使用 GeLU 等更平滑的函式 * 提供非線性，使模型具備表現複雜關係的能力 # Feed-Forward 運算流程 ![image](https://hackmd.io/_uploads/HkXq-kHkZx.png) * 向量乘上第一個權重矩陣 W，加上偏置 B * 經過 activation function 得中間結果 * 再乘上第二個矩陣 W'、加上 B' 得最終輸出 * 本質上是連續兩層線性轉換加上非線性函式 # Feed-Forward Layer 的新觀點 ![image](https://hackmd.io/_uploads/HymEWkBJWl.png) * 論文指出 FFN 可被視為另一種類型的 Attention * 題為「Transformer Feed-Forward Layers Are Key-Value Memories」 * 認為 FFN 透過參數儲存並查詢語意記憶 # 類神經網路的本質 * 每層運算本質上是矩陣乘法與加法 * 每個輸出維度（如 y1）由輸入向量加權求和再加 bias * 通過 activation function 即得到輸出值 * 所謂「神經元」實際上只是這些線性運算單元的抽象稱呼 # 語言模型的神經網路結構 * 多個神經元構成一層 * 多層堆疊形成深度網路（Deep Learning） * 實際上整個運算過程僅是大量矩陣運算的堆疊 --- # 模型參數的結構與分析 ![image](https://hackmd.io/_uploads/HJFqGJH1Zg.png) * 模型由多個矩陣與向量組成，稱為張量（Tensor） * 每個參數具備名稱（name）與形狀（shape） * 可藉由 named_parameters() 觀察模型內部參數結構 * 例如 Llama 3B 共有 28 層，每層包含 attention、feed-forward、layer norm 等 # Llama 3B 模型特性 ![image](https://hackmd.io/_uploads/ryNhEJSkWx.png) * 約 32 億參數（3B = 3 Billion） * Embedding table 大小為 128256 × 3072 * 每層均包含 query、key、value、o_proj 等矩陣 * 採用 Grouped-Query Attention 節省參數 * Feed-forward 結構：3072 → 8192 → 3072 # Gemma 4B 模型特性 ![image](https://hackmd.io/_uploads/B1tNSkHk-g.png) * 約 43 億參數（4B = 4 Billion） * 前段包含 Vision Tower，可處理圖片 * Embedding table 為 262144 × 2560，詞彙量更大 * Feed-forward 結構：2560 → 10240 → 2560 * 總共 34 層，比 Llama 更深 # 模型參數觀察 ![image](https://hackmd.io/_uploads/BygD3kSyZx.png) * 可用 state_dict() 檢視完整參數數值 * 每層的矩陣與偏置組成模型的運算基礎 * 單看數值難以理解語意意涵 # Token Embedding 觀察 ![image](https://hackmd.io/_uploads/SJTO2kS1Zg.png) * Embedding table 對應 token → 向量 * 每個 token 有唯一 embedding * Llama 的表大小為 128256 × 3072，含保留 token * token ID 與 embedding 對應一一映射 # Token 相似度分析 ![image](https://hackmd.io/_uploads/HkCc3JBkbx.png) ![image](https://hackmd.io/_uploads/ByhohyrJWl.png) ![image](https://hackmd.io/_uploads/ByET21HJWx.png) * 可透過 dot product 計算不同 token embedding 的相似程度 * 「apple」與「Apple」「蘋果」「Cupertino」距離接近 * 模型能識別語意關聯（品牌與地點） * 中文 token 如「李」與「LEE」「劉」相似，反映語意一致性 * 「王」對應到英文「king」，顯示跨語言語意連結 # Representation 抽取 ![image](https://hackmd.io/_uploads/ByYA3JBJZl.png) * 模型每層輸出 hidden representation * 使用 `output_hidden_states=True` 取得所有層的結果 * hidden_states[0] 為 token embedding，其餘為各層輸出 * 每層輸出 shape 為 (1, 序列長度, 向量維度) * 可觀察不同層對輸入句子的表示變化 --- # Token 與各層表示（Representation） ![image](https://hackmd.io/_uploads/HJEV6yB1Wg.png) * 第 0 層是 token embedding，同一個 token 的表示完全相同（例如多個句子的 "you" 向量相同）。 * 從第 1 層起變成 contextualized embedding，表示會受上下文影響而不同。 * 只考慮左側上下文時，句首的 "how" 在不同句子中經過任意層仍相同，因為左邊都空白。 * 同一 token 在不同層會不同，但相同句首且只看左側時，不同句子的該 token 仍相同。 # 「apple」異義對比：層間相似度 ![image](https://hackmd.io/_uploads/SJ6NakHJ-l.png) * 兩句：「I ate an apple for breakfast」（食物）與「the company … called apple」（公司）。 * 第 0 層 cosine similarity = 1（相同 token embedding）。 ![image](https://hackmd.io/_uploads/BJcwTJrybe.png) * 自第 1 層起相似度下降，約在第 11 層達低點，之後回升。 * 回升可能因不同層的表示分佈尺度差異造成，需正規化比較。 # 相似度正規化（Normalization）概念 ![image](https://hackmd.io/_uploads/rkf5aJSJWl.png) * 各層整體向量分佈與可分性不同，後層平均更「接近」可能抬高原始相似度。 * 作法：計算兩句所有 token 兩兩相似度的平均，以此除去目標 pair 的相似度。 * 正規化後結果更合理：第 1 層起兩個「apple」明顯分歧，層數越深差異越大。 # 四句「apple」分組實驗 ![image](https://hackmd.io/_uploads/SyFjTyH1Wl.png) * 句 1/2 的「apple」皆為食物；句 3/4 皆為公司名稱。 * 第 0 層四條相似度曲線皆為 1。 * 同語義（食物–食物、公司–公司）跨句相似度在各層都維持偏高。 * 異語義（食物–公司）隨層數加深相似度顯著降低。 * 模型能聚合同義並區分異義，即便上下文不同也能識別語義一致性。 # Logit Lens：逐層「最可能下一個 token」 ![image](https://hackmd.io/_uploads/rJ16TkS1-x.png) * 取各層 hidden representation 經 `lm_head` 得 logits，觀察每層預測的 top-1 token。 * 「天氣」：前期重複最後 token「氣」→ 中期轉英文 "weather" → 後期出現 "forecast" → 最終映回中文「預」，形成「天氣預報」。 * 「天氣預」：層間在 "forecast"/"prediction"/"report" 間擺動，最終輸出「報」。 * 「今天天氣真」：在 "beautiful"/"good"/"bad" 間切換，最終選「好」。 * 現象：中間層表徵常投射到英文詞，最終再映射回中文輸出。 # 取得與閱讀 Attention ![image](https://hackmd.io/_uploads/rJPkCJry-g.png) ![image](https://hackmd.io/_uploads/Hyx7C1rkZg.png) ![messageImage_1762094659833](https://hackmd.io/_uploads/BkxwCkB1Zl.jpg) * 推論需設定 `output_attentions=True` 並指定 `implementation='eager'` 才會保存 attention weight。 * Llama 單層張量形狀示例為 (1, 24, 12, 12)：1（批次）、24（heads 數）、12×12（輸入長度為 12 的注意力矩陣）。 * 矩陣右上角為 0 反映 causal attention 只看左側 token。 * 觀察例：某 head 對大多數 token 偏好句首符號；對 "apple" 會額外關注 "green"。 * 另一例："color" attend 到前面的 "green"；第二個 "apple" attend 到第一個 "apple"。 * 多數 head 行為各異且難以解釋，常見多個 head 只看前幾個 token。 # 起始符號的「預設」作用 * softmax 迫使注意力必須分配；當沒有明顯相關 token 時，注意力會落在起始符號作為「無可關注對象」的預設。 * 此行為在不同模型（如 Llama、Gemma）普遍可見。 # Gemma 與 Llama 的觀察差異 ![image](https://hackmd.io/_uploads/B1U_CkSybx.png) ![image](https://hackmd.io/_uploads/H1jOC1rJ-g.png) * 僅更換模型即可沿用相同分析流程。 * Gemma 每層約 8 個 head，層數可至第 34 層；仍可觀察到起始符偏好。 * 各層 head 的關注模式不同，但整體與 Llama 類似：部分 head 聚焦語意關聯，部分 head 表現出模板式或難解讀的行為。 --- # Terminology * 語言模型（Language Model）：以機率方式預測序列下一個Token的模型。 * 自回歸建模（Autoregressive Modeling）：逐步以先前Token條件化來產生下一個Token。 * 函式表示（Function F）：將輸入序列X映射為下一Token分佈的數學函式。 * 輸入序列（Input Sequence, X）：待補全的未完成句子或Token串。 * Token化（Tokenization）：將文字切分為模型可處理的最小單位。 * 子詞單位（Subword Unit）：以BPE/WordPiece等方法形成的部分詞片段。 * 詞彙表（Vocabulary, V）：模型可產生與辨識的Token集合。 * Token ID（Token Index）：詞彙表中Token對應的整數編號。 * 嵌入表（Embedding Table）：將每個Token ID對應到向量的參數矩陣。 * Token嵌入（Token Embedding）：由嵌入表查得的Token向量表示。 * 位置編碼（Positional Encoding）：向序列注入順序資訊的表示方式。 * 層（Layer）：將一列向量轉換為另一列向量的網路模組。 * 隱表示（Hidden Representation）：中間層輸出的內部向量表徵。 * 上下文化嵌入（Contextualized Embedding）：考慮前文後文後得到的向量表示。 * 殘差連接（Residual Connection）：將輸入疊加到輸出以利梯度傳遞的結構。 * 層歸一化（Layer Normalization）：在特徵維度進行標準化以穩定訓練/推論。 * 自注意力（Self-Attention）：根據序列內部關聯加權聚合資訊的機制。 * 因果遮罩（Causal Masking）：限制注意力僅能看見當前位置以前的Token。 * 多頭注意力（Multi-Head Attention）：並行多組注意力以捕捉不同關係。 * 前饋網路（Feed-Forward Network, FFN）：位置獨立的非線性投影與變換。 * 線性投影（Linear Projection）：以矩陣乘法改變向量維度的操作。 * 維度（Dimensionality, d_model）：各層隱表示的向量長度。 * 疊代層疊（Stacked Layers, Depth）：多層串接形成深度結構。 * 深度學習（Deep Learning）：以多層非線性轉換提升表達能力的範式。 * 神經網路（Neural Network）：由參數化線性/非線性模組組成的函式族。 * LM頭（LM Head）：將最末隱表示投影到詞彙分數空間的線性層。 * 權重綁定（Weight Tying）：共享嵌入表與LM頭權重以減參數增一致性。 * Logit（Logit）：未經歸一化的每個Token分數向量。 * Softmax（Softmax）：將logit轉為非負且總和為1的類機率分佈。 * 指數函數（Exponential Function）：softmax中將logit映射為正值的操作。 * 溫度（Temperature, T）：在softmax前縮放logit以調整分佈平坦度。 * 機率分佈（Probability Distribution）：對下一Token的機率估計。 * 取樣（Sampling）：依分佈隨機選取下一Token的解碼策略。 * 貪婪解碼（Greedy Decoding）：每步選擇機率最高的Token。 * Top-k取樣（Top-k Sampling）：僅在最高k個Token內抽樣。 * 核心取樣（Nucleus/Top-p Sampling）：在累積機率達p的集合中抽樣。 * 序列長度（Sequence Length）：當前處理的Token數量。 * 上下文視窗（Context Window Size）：模型一次可處理的最大Token數。 * 批次處理（Batching）：同時處理多個序列以提升吞吐。 * 參數矩陣（Parameter Matrix）：網路中可學（或已學）權重的矩陣表示。 * 向量表示（Vector Representation）：用實數向量刻畫語義/語法的數值化形式。 * 語境聚合（Context Aggregation）：將相關位置資訊加權整合到當前表示。 * 解碼步（Decoding Step）：一次產生單一下一Token的推論迭代。 * 前綴條件（Prefix Conditioning）：以已生成前綴作為後續預測的條件。 * 模型頭維度（Vocabulary Logit Dim）：LM頭輸出之詞彙大小維度。 * 正規化常數（Partition Function, Z）：softmax分母的總和項。 * 機率溫度縮放（Temperature Scaling）：透過T控制探索與保守度。 * 梯度遮罩等價（Masking Equivalence）：因果遮罩等同於未來位置梯度為零。 * 穩定性/數值技巧（Numerical Stabilization）：對logit減最大值以避免溢位。 * 末位表徵選取（Last-Token Representation）：僅用最末位置向量做下一步投影。 * 模型頭輸出（Logit Vector）：對每個詞彙的打分向量用以解碼下一Token。 * 反嵌入（Unembedding）：用最末層表徵與嵌入表各列做內積，得到每個Token的分數（logit）。 * 權重綁定（Weight Tying）：將輸入的嵌入表與LM頭權重共用，首尾呼應、減少參數。 * 內積相似度（Dot Product Similarity）：以向量內積衡量表徵與Token嵌入的相近程度。 * 詞彙分數向量（Logit Vector）：未經歸一化的每詞彙打分，之後再轉機率。 * 詞彙空間（Vocabulary Space）：所有Token嵌入所張成的向量空間。 * 表徵空間（Representation Space）：模型中間層隱表示所在的高維向量空間。 * 最末位置表徵（Last-Token Representation）：用於預測下一Token的最後一個位置向量。 * 嵌入表（Embedding Table）：將Token ID映射為連續向量的參數矩陣。 * Token嵌入（Token Embedding）：由嵌入表查得、未含上下文的基礎向量。 * 上下文化嵌入（Contextualized Embedding）：經層疊與注意力後，融入前文資訊的向量。 * 相似度排序（Similarity Ranking）：依內積大小為各詞彙排序以近似下一步概率。 * 近鄰檢索（Nearest Neighbor Search）：找出與表徵最接近的若干Token嵌入。 * 餘弦相似度（Cosine Similarity）：以角度衡量向量相似，常用於輔助分析。 * 線性投影（Linear Projection）：以矩陣乘法將隱表示映射到詞彙分數空間。 * LM頭（LM Head）：輸出層線性投影（常與嵌入表權重綁定）。 * Softmax歸一化（Softmax Normalization）：將logit轉為0-1且總和為1的分佈。 * 溫度縮放（Temperature Scaling）：用T縮放logit以調整分佈平坦度與創造性。 * 數值穩定化（Logit Stabilization）：在softmax前減去最大logit以避免溢位。 * 分區函數（Partition Function, Z）：softmax分母之指數和，負責正規化。 * 機率校準（Output Calibration）：調整輸出分佈使其更貼近真實機率。 * 表徵幾何（Representation Geometry）：以幾何關係解讀隱表示的語法語義結構。 * 語義方向（Semantic Direction）：表徵空間中對應特定語義屬性的向量方向。 * 向量算術（Vector Arithmetic）：以加減操作操作屬性（如king−man+woman≈queen）。 * 屬性向量（Attribute Vector）：代表某特定屬性（如「拒絕」）的方向/偏移量。 * 表徵工程（Representation Engineering）：直接修改中間表徵以操控行為。 * 啟動值工程（Activation Engineering）：在指定層對activation進行加減或替換。 * 因果干預（Causal Intervention）：對內部表徵施加改動以驗證因果貢獻。 * 層位選擇（Layer Selection）：尋找最能承載目標屬性的關鍵網路層。 * 層特化（Layer Specialization）：不同層對語法、語義或任務信息的分工現象。 * 上下文消歧（Contextual Disambiguation）：利用上下文讓同形詞獲得不同表徵。 * 多義詞處理（Word Sense Disambiguation, WSD）：在表徵空間區分詞義。 * 意義聚簇（Semantic Clustering）：語義相近的表徵在空間中形成群集。 * 維度縮減（Dimensionality Reduction）：將高維表徵投影到低維以便觀察。 * 主成分分析（PCA）：以方差最大化的線性投影做低維視覺化。 * t-SNE（t-Distributed Stochastic Neighbor Embedding）：保鄰近結構的非線性降維方法。 * UMAP（Uniform Manifold Approximation and Projection）：保持全域/局部結構的降維工具。 * 文法樹探針（Parse-Tree Probing）：以投影觀察層內是否顯化句法樹狀結構。 * 探針分類器（Probing Classifier）：使用簡單模型檢驗隱表示是否蘊含某資訊。 * 差分向量（Difference Vector）：以「正例均值−負例均值」抽取目標屬性方向。 * 表徵稀疏性（Representation Sparsity）：隱表示中少量維度承載主要訊息的性質。 * 局部線性近似（Local Linear Approximation）：以小幅線性擾動估計行為改變。 * 相似度—機率對齊（Similarity–Probability Alignment）：將內積大小與輸出機率對應。 * 詞彙等價類（Token-Type Equivalence Class）：同一Token在無上下文時共享嵌入。 * 上下文驅動漂移（Context-Driven Drift）：同一Token於不同上下文表徵分歧。 * 幾何可視化（Geometric Visualization）：以低維圖示呈現語義/句法結構。 * 世界知識嵌入（Geospatial/World Knowledge Embedding）：地名等在表徵空間呈地理拓撲。 * 中間層介入點（Intervention Point）：實施表徵加減的具體層與位置選擇。 * 性能—穩定權衡（Capability–Reliability Trade-off）：表徵操控帶來的準確與穩定取捨。 * 嵌入—輸出共享一致性（Embedding–Output Consistency）：綁定權重使輸入/輸出語義一致。 * 內積解碼直覺（Dot-Product Decoding Intuition）：「更像哪個嵌入就選哪個Token」的機制詮釋。 * 多義投影面（Sense-Specific Subspace）：區分詞義的子空間或投影方向。 * 表徵干預（Representation Intervention）：直接在中間層向量上加減特定方向以改變模型行為。 * 拒絕向量（Refusal Vector）：從正反例平均差分抽取、能誘發拒絕回應的屬性方向。 * 安全對齊（Safety Alignment）：透過資料、規則或機制讓模型輸出符合安全與倫理。 * 內容審查閾值（Moderation Threshold）：將不當輸出判定為拒絕的分界設定。 * 行為開關（Behavior Toggle）：以小幅表徵偏移切換模型的回應傾向。 * 反干預（De-intervention）：從表徵移除特定屬性向量以抑制對應行為。 * 失效模式（Failure Mode）：干預後出現的不預期或危險輸出型態。 * 對抗越獄（Adversarial Jailbreak）：用技巧繞過防護促使模型執行受限指令。 * 屬性編碼（Attribute Encoding）：語義/風格等屬性以方向或子空間形式嵌入表徵。 * 層級敏感性分析（Layer-wise Sensitivity Analysis）：逐層測試干預效果以定位關鍵層。 * 作用點掃描（Intervention Point Sweep）：在不同層與位置系統化嘗試干預。 * 因果追蹤（Causal Tracing）：以替換/打補丁找出對輸出具因果影響的通路。 * 激活打補丁（Activation Patching）：用另一條前向的中間激活覆蓋原激活以觀察影響。 * 特徵方向（Feature Direction）：能系統性改變輸出性質的向量方向。 * 斜率放大（Logit Scaling）：對logit作線性縮放以改變信心與選擇性。 * 安全性指標（Safety Metric）：量化輸出是否安全的評分或比例。 * 拒絕率（Refusal Rate）：模型對請求給出拒絕回覆的比例。 * 安全回應比率（Safe Response Rate）：在不拒絕情況下輸出仍符合安全準則的比例。 * 偏移注入（Bias Injection）：向表徵添加固定偏移以誘導特定語氣/立場。 * Anthropic 特徵探勘（Anthropic Feature Mining）：自動發現可操控行為的內部特徵方向。 * 諂媚特徵（Flattery Feature）：能引發誇讚/吹捧語氣的表徵方向。 * 風格化操控（Style Steering）：以向量控制文風、語氣或禮貌程度。 * Logit 鏡（Logit Lens）：對各層表徵套LM頭投影成詞分數以讀取「心中候選」。 * 層內解碼（Layer-wise Decoding）：將中間層激活解碼為最可能token序。 * 早期假說（Early Hypothesis）：模型在淺層形成的暫時性下一詞猜測。 * 中介語假說（Interlingua Hypothesis）：翻譯時內部先轉為隱含的共同語表示。 * 逐層語義演化（Layerwise Semantic Evolution）：語義假說隨層深逐步精煉的現象。 * PatchScope（Patch Scope）：以替換中間表徵並驅動生成敘述來解讀其語義。 * 提示注入基底（Prompt Scaffold）：為PatchScope/探針設計的模板提示句。 * 輕量探針（Lightweight Probe）：以小模型檢測中間表徵是否蘊含特定資訊。 * 自註釋解讀（Self-Annotation）：讓模型以文字描述被注入/替換表徵的含義。 * 因果遮罩（Causal Masking）：以遮罩控制注意力的因果方向以避免看未來。 * 位置編碼（Positional Encoding）：為序列中每個位置注入可區分的位置信息。 * 旋轉位置嵌入（Rotary Positional Embedding, RoPE）：以相位旋轉方式注入相對位置信號。 * 多頭自注意力（Multi-Head Self-Attention）：並行多子空間捕捉多種關聯。 * 查詢/鍵/值向量（Query/Key/Value Vectors）：計算注意力分數與加權匯總的三組向量。 * 注意力分數（Attention Scores）：以Q·K決定各位置彼此關注強度的值。 * 注意力權重歸一化（Attention Softmax）：對分數softmax成為權重分佈。 * 因果注意力遮罩（Causal Attention Mask）：禁止關注未來位置的上三角遮罩。 * 殘差連接（Residual Connection）：將輸入直接加回輸出以保留與穩定訊息流。 * 層正規化（Layer Normalization）：對通道做標準化以穩定訓練與推論。 * 前饋網路（Feed-Forward Network, FFN/MLP）：對每位置獨立的非線性變換子層。 * 激活函數（Activation Function, GELU/ReLU）：為FFN提供非線性表達能力的函式。 * 參數共享（Parameter Sharing）：重用權重（如嵌入/LM頭綁定）以減參並保一致性。 * 鍵值快取（KV Cache）：在自回歸生成中快取K/V以加速長序列解碼。 * 序列長度外推（Sequence Length Extrapolation）：在超過訓練長度下維持穩定推理能力。 * 上下文學習（In-Context Learning）：僅靠提示中的示例即時習得任務行為。 * 梯度凍結推論（Frozen-Gradient Inference）：推理時不更新權重的前向運算過程。 * 權重綁定LM頭（Weight-Tied LM Head）：輸入嵌入表與輸出頭共用權重以首尾呼應。 * 注意力機制（Attention Mechanism）：以可學習權重聚焦關鍵位置以融合上下文資訊。 * 自注意力（Self-Attention）：序列內各位置彼此計分並匯總以更新自身表示。 * 點積注意力（Dot-Product Attention）：以向量點積作為相似度計算注意力分數。 * 縮放點積注意力（Scaled Dot-Product Attention）：將點積除以維度平方根以穩定梯度。 * 查詢向量（Query Vector, Q）：代表當前位置「想找什麼訊息」的投影向量。 * 鍵向量（Key Vector, K）：代表各位置「提供什麼訊息」的投影向量。 * 值向量（Value Vector, V）：被加權匯總以輸出的內容向量。 * 注意力分數（Attention Scores）：由 Q·K 計算出的相關性實數。 * 注意力權重（Attention Weights）：對分數做 softmax 後的歸一化權重。 * 多頭注意力（Multi-Head Attention）：多組 QKV 在不同子空間並行捕捉多面向關係。 * 注意力頭（Attention Head）：多頭注意力中的單一 QKV 計算路徑。 * 注意力矩陣（Attention Matrix）：所有查詢對所有鍵的權重排列成的矩陣。 * 掩碼自注意力（Masked Self-Attention）：用上三角遮罩禁止關注未來位置。 * 因果遮罩（Causal Mask）：確保自回歸模型僅使用過去資訊的遮罩。 * 位置編碼（Positional Encoding）：為序列位置注入可學或解析的位置信號。 * 絕對位置編碼（Absolute Positional Encoding）：以表格/函式為固定索引的位置信號。 * 相對位置編碼（Relative Positional Encoding）：根據位置差建模而非絕對索引。 * 旋轉位置嵌入（Rotary Positional Embedding, RoPE）：以複數相位旋轉注入相對位置信息。 * 詞嵌入表（Token Embedding Table）：將 token ID 查表映射為連續向量。 * 上下文嵌入（Contextualized Embedding）：經多層運算後含語境語義的向量表示。 * 反嵌入／輸出頭（Unembedding / LM Head）：用權重將表徵投影到詞彙分數空間。 * 權重綁定LM頭（Weight-Tied LM Head）：輸入嵌入與輸出頭共享權重以首尾呼應。 * 邏輯分數（Logits）：未正規化的詞彙分數向量。 * Softmax 正規化（Softmax Normalization）：將分數轉為機率分佈的函式。 * 溫度取樣（Temperature Sampling）：以溫度縮放 logits 控制隨機性與創意度。 * 前饋網路（Feed-Forward Network, FFN/MLP）：對每位置獨立的非線性變換子層。 * 激活函數（Activation Function, GELU/ReLU）：提供非線性的元素級函數。 * 殘差連接（Residual Connection）：將輸入加回輸出以保訊息與穩定深層訓練。 * 層正規化（Layer Normalization）：對特徵維度標準化以穩定數值。 * 投影層（Projection Layer）：將多頭拼接結果映射回模型維度的線性層。 * 注意力頭拼接（Head Concatenation）：將各頭輸出沿特徵維度串接。 * 加權和（Weighted Sum）：以注意力權重對各值向量加權匯總。 * 權重矩陣 WQ（WQ Matrix）：將嵌入投影為查詢向量的線性權重。 * 權重矩陣 WK（WK Matrix）：將嵌入投影為鍵向量的線性權重。 * 權重矩陣 WV（WV Matrix）：將嵌入投影為值向量的線性權重。 * 輸出投影矩陣 WO（Output Projection, WO）：將多頭輸出映射回隱層維度的權重。 * 位置感知相似度（Position-Aware Similarity）：在注意力計分中納入位置信息的機制。 * 序列平行化（Sequence Parallelization）：移除循環以利 GPU 並行計算。 * 上下文視窗（Context Window）：模型可處理的最大 token 長度上限。 * 序列長度外推（Sequence Length Extrapolation）：在訓練長度外維持穩定推理的能力。 * Token 化（Tokenization）：將文本切分並映射為詞彙表索引的過程。 * 詞彙表大小（Vocabulary Size）：模型輸出機率分佈的維度數。 * 歷史上下文（Past Context）：當前位置可見的先前 token 序列。 * 早期假說（Early Hypothesis）：淺層注意力對下一詞的初步猜測。 * 語義聚合（Semantic Aggregation）：以注意力將多來源訊息整合成單一表示。 * 修改詞依附（Modifier Attachment）：注意力將形容詞/量詞與名詞對齊的現象。 * 不同面向頭（Aspect-Specific Heads）：各頭專注數量、顏色、語法等不同訊息。 * 查表操作（Embedding Lookup）：以索引直接讀取嵌入向量的動作。 * GPU 平行化（GPU Parallelization）：利用矩陣運算加速大規模注意力計算。 * 掩碼權重（Masked Weights）：被遮罩位置的注意力權重強制為零。 * 青蘋果歧義解析（Modifier Disambiguation via Attention）：透過注意力將「青」對齊到「蘋果」以確定語義。 * 注意力頭（Attention Head）：在多頭注意力中獨立學習的一組 Q/K/V 投影與計算單元，用於擷取不同子空間的關聯。 * 多頭注意力（Multi-Head Attention）：並行多個注意力頭後再拼接與投影，提升模型表徵多樣性。 * 查詢向量（Query, Q）：用來對序列其他位置提問以計算注意力權重的向量。 * 鍵向量（Key, K）：與查詢做相似度（如點積）以產生注意力分佈的向量。 * 值向量（Value, V）：依注意力權重加權求和後輸出的內容向量。 * 輸出投影矩陣（Output Projection, (W_O)）：將多頭注意力拼接結果線性映射回隱層維度的矩陣。 * 殘差連接（Residual Connection）：將層輸入加回層輸出以穩定訓練與促進梯度流動的結構。 * 自注意力（Self-Attention）：同一序列內位置彼此做注意力，擷取全域上下文關係。 * 因果注意力（Causal Attention）：只允許關注當前位置左側（過去）token，符合自回歸生成。 * 非因果注意力（Non-Causal/Bidirectional Attention）：可同時關注左右文，常見於編碼器或掩碼任務。 * 自回歸生成（Autoregressive Generation）：逐步依賴前綴條件分佈產生下一個 token 的生成方式。 * 前饋神經網路（Feed-Forward Network, FFN/MLP）：位置獨立的逐位置非線性變換，常用兩層線性+激活。 * 激活函數（Activation Function）：引入非線性以提高表徵能力的函數族。 * 修正線性單元（ReLU）：將負值截斷為 0、正值保持不變的簡單激活函數。 * 高斯誤差線性單元（GeLU）：依輸入經高斯分佈平滑門控的激活，LLM 中常見。 * 層正規化（LayerNorm）：沿特徵維做標準化與仿射變換，穩定深層訓練。 * 詞嵌入表（Token Embedding Table）：將 token ID 映射到連續向量空間的大矩陣。 * 詞嵌入向量（Token Embedding）：單一 token 在嵌入表對應的稠密向量表示。 * 位置編碼／旋轉位置編碼（Positional Encoding/RoPE）：為序列位置提供可學或解析式位置資訊的方法。 * 點積注意力（Dot-Product Attention）：以 (QK^\top) 的縮放點積估計相似度並經 Softmax 得權重。 * Softmax 正規化（Softmax Normalization）：將分數轉為機率分佈以加權值向量。 * 分組查詢注意力（Grouped-Query Attention, GQA）：多查詢共享較少的鍵／值頭，降低參數與記憶。 * 門控投影（Gate Projection）：在 FFN 中以門控機制（如 SwiGLU）調節通道流量的線性層。 * 上投影（Up-Projection）：FFN 第一層將隱層維度擴張到更高維的線性映射。 * 下投影（Down-Projection）：FFN 第二層將擴張後通道壓回原隱層維度的映射。 * 隱狀態（Hidden States）：每層對每個位置輸出的中間表徵張量。 * 潛在表徵（Latent Representation）：模型內部未直接可觀測但承載語義與結構的向量表示。 * Transformer 區塊（Transformer Block）：包含多頭注意力、FFN、殘差與正規化的堆疊單元。 * 解碼器式語言模型（Decoder-Only LM）：僅由解碼器堆疊構成、使用因果遮罩的生成模型。 * 詞彙表大小（Vocabulary Size）：模型可處理的離散 token 類別總數。 * 張量（Tensor）：向量與矩陣在更高維度的泛化，為深度學習基礎資料結構。 * 矩陣乘法（Matrix Multiplication）：線性層與注意力計算的核心算子。 * 偏置向量（Bias Vector）：線性變換後加成的可學參數，用以平移激活分佈。 * 參數量（Parameter Count）：模型可學權重總規模，常以 B（十億）為單位。 * 模型深度（Model Depth, Layers）：堆疊的 Transformer 區塊層數。 * 隱層維度（Hidden Dimension）：每個位置表徵向量的特徵通道數。 * 序列長度（Sequence Length）：單次前向傳播處理的 token 數量（上下文長度）。 * 注意力計算複雜度（Attention Complexity (O(n^2))）：注意力隨序列長度平方成長的計算／記憶成本。 * 長上下文挑戰（Long-Context Challenge）：長序列導致成本暴增與資訊衰減的難題。 * 參數命名查詢（named_parameters）：程式介面，用於列舉模型參數名稱與張量。 * 參數狀態字典（state_dict）：序列化的權重容器，可讀寫各層參數數值。 * 分詞器（Tokenizer）：將文字切分並映射為 token ID 的模組。 * 標記 ID（Token ID）：詞彙表中每個 token 的索引標號。 * 權重共享嵌入／反嵌入（Tied Embedding/Unembedding）：輸入嵌入與輸出投影矩陣共享權重以節省參數。 * 鍵值記憶（Key-Value Memory）：觀點認為 FFN 可作為可查詢的 KV 記憶庫以擴充檢索能力。 * KV 快取（KV Cache）：在推論中緩存歷史 K/V 以避免重算、加速自回歸生成。 * 視覺塔（Vision Tower）：多模態模型中處理影像的前端編碼器模組。 * 混合精度訓練（Mixed Precision Training）：以較低浮點精度計算以提高吞吐與降低記憶占用。 * 正則化（Regularization）：抑制過擬合與穩定訓練的技術（如 Dropout、權重衰減）。 * Mamba 狀態空間模型（Mamba State Space Model）：以可擴展 SSM 結構替代注意力以高效處理長序列的競品架構。 * 語意表徵（Semantic Representation）：模型對詞彙或句子意涵的高維向量化表示。 * 上下文嵌入（Contextualized Embedding）：考慮前後文後得到的動態詞向量。 * 餘弦相似度（Cosine Similarity）：度量兩個向量方向相似程度的指標，範圍為 -1 至 1。 * 正規化（Normalization）：將數值尺度調整以利比較或穩定訓練的操作。 * 層歸一化平均（Layer-wise Normalization）：對每層表徵的平均分佈進行調整以消除尺度偏差。 * 表徵變化曲線（Representation Similarity Curve）：展示不同層表徵相似度變化的圖形。 * 語境歧義（Contextual Ambiguity）：同一詞在不同語境下具有不同語意的現象。 * 層級語意分化（Layerwise Semantic Divergence）：隨層數增長詞語語意逐漸分化的現象。 * 表徵聚合（Representation Clustering）：語義相似的詞嵌入在向量空間中聚集。 * 橫層比較（Cross-Layer Comparison）：在多層間分析同一詞表徵差異的技術。 * 語意收斂（Semantic Convergence）：相似語意的表徵在深層逐漸靠攏的現象。 * 語意分離（Semantic Separation）：不同語意的表徵在模型層中逐步遠離的過程。 * 隱層激活（Hidden Activation）：特定層輸出表徵的活化值分佈。 * 表徵空間（Representation Space）：模型內部隱層向量所構成的多維語意空間。 * 語意漂移（Semantic Drift）：表徵隨層數或語境改變而移動的現象。 * 預測頭（LM Head）：將隱層表徵轉換為詞彙分佈的線性層。 * 邏輯透鏡（Logit Lens）：將中間層表徵映射回可解釋 token 機率的分析方法。 * 邏輯分數（Logit Score）：softmax 前模型對每個詞的原始打分。 * 層內預測（Layerwise Prediction）：以各層輸出通過 LM head 觀察模型預測傾向。 * 詞彙解碼（Token Decoding）：根據 logits 選出最可能的下一個 token 的過程。 * 語言轉換現象（Language Switching）：模型在中英等語間切換的潛在行為。 * 概念激活（Concept Activation）：中間層向量對特定語意概念的響應強度。 * 注意力權重（Attention Weight）：衡量 token 之間關聯強度的權值矩陣。 * 注意力矩陣（Attention Matrix）：所有 token 之間注意力分佈的可視化表示。 * 層與頭索引（Layer/Head Index）：定位特定注意力層與注意力頭的標記。 * 注意力可視化（Attention Visualization）：以熱圖形式呈現 token 之間關聯程度。 * 因果遮罩（Causal Mask）：防止注意力訪問未生成 token 的遮罩機制。 * 起始符號（BOS Token）：句子開頭的特殊 token，用於表示序列起始。 * 注意力偏好（Attention Bias）：模型注意力傾向特定位置（如起始符號）的現象。 * 預設注意力（Default Attention）：無相關 token 時注意力分配到起始符號的行為。 * 注意力頭多樣性（Head Diversity）：不同注意力頭學習到不同語法或語義關係。 * 注意力層級模式（Attention Pattern Across Layers）：不同層間注意力分佈差異的結構。 * 語法對齊（Syntactic Alignment）：注意力捕捉語法依存關係的能力。 * 語意對齊（Semantic Alignment）：注意力捕捉語意相關詞之間關聯的能力。 * 長程依賴（Long-Range Dependency）：模型捕捉遠距離 token 關係的能力。 * 注意力頭冗餘（Head Redundancy）：多個頭學習到相似功能導致資訊重疊。 * 注意力頭專化（Head Specialization）：不同頭專注於特定語法或語義角色。 * 殘差混合（Residual Mixing）：每層輸出結合前層資訊的融合機制。 * 模型層深度（Model Depth）：Transformer 疊加層數，影響表徵抽象程度。 * 上下文依賴性（Context Dependency）：表徵隨上下文變化的程度。 * 模型內視（Model Introspection）：觀察模型內部表徵與注意力行為的分析方法。 * 表徵相似度矩陣（Representation Similarity Matrix）：顯示多詞多層間餘弦相似度的圖表。 * 模型語意分層（Semantic Layering in Model）：不同層捕捉語法、語意、篇章等層級特徵。 * 層級相關性（Inter-Layer Correlation）：各層表徵之間的相關程度。 * token 特徵動態（Token Feature Dynamics）：單一 token 表徵隨層變化的軌跡。 * 預訓練語言模型（Pretrained Language Model）：經大規模文本預訓練後具語言理解能力的模型。 * 模型可解釋性（Model Interpretability）：理解模型內部運作與決策依據的能力。 * 表徵分析（Representation Analysis）：研究模型中隱層向量特性與語義關聯的方法。 * 注意力行為分析（Attention Behavior Analysis）：研究模型注意力分佈與功能差異的技術。