# 課程主題與目標 ![image](https://hackmd.io/_uploads/HkRni0VkZg.png) * 第三講主題:語言模型的內部運作 * 探討語言模型從輸入句子到輸出機率分布的過程 * 不討論訓練過程,只觀察已訓練模型的內部結構與運算流程 * 分三部分:輸入到輸出流程、各層運作、單層內部細節 # 語言模型的基本概念 ![image](https://hackmd.io/_uploads/B10ao0Vk-x.png) * 語言模型是函式 F,輸入未完成句子 X,輸出 F(X) 為下一個 Token 的機率分布 * 模型任務:預測下一個 Token 的機率 * 模型由多層組成,每層逐步處理向量資訊 # Tokenization 與 Embedding ![image](https://hackmd.io/_uploads/rkIy3CE1be.png) * 輸入句子經過 Tokenization 切成 Token,每個 Token 對應唯一 ID * 假設每個中文字是一個 Token(為簡化示意) * Token ID 經由 Embedding Table 轉成向量(embedding) * Embedding Table 是模型參數矩陣:row 對應詞彙,column 對應向量維度 * Token ID 查表獲得 embedding,即一串實數向量 # Embedding 的性質與分類 ![image](https://hackmd.io/_uploads/B1JZ3CEJ-e.png) * 每個 Token embedding 對應模型參數的一部分 * Embedding Table 為模型的參數矩陣之一 * 查表後的 embedding 稱為 Token Embedding * 通過 Layer 後的 embedding 考慮上下文,稱為 Contextualized Embedding * Contextualized Embedding 又稱 Hidden/Latent Representation # Layer 的基本運作 ![image](https://hackmd.io/_uploads/Bkb7nA41Zl.png) ![image](https://hackmd.io/_uploads/H1cX3CEJWl.png) * 每層接收一組輸入向量並輸出同樣長度的新向量 * 每層包含多組參數矩陣,形成模型的核心運算單元 * 每個輸出向量綜合該 Token 與其前文資訊 * 多層疊加形成 Deep Learning 結構 # 深度學習的意義 ![image](https://hackmd.io/_uploads/SyDN3CEybl.png) ![image](https://hackmd.io/_uploads/BJhVnRNkbx.png) * 多層網路即 Deep Learning,也稱 Neural Network * 多層結構能逐層抽取更高層次的語意特徵 * 比淺層網路表現更好,可在數學上證明深層模型優於淺層模型 # 最後輸出與 LM Head ![image](https://hackmd.io/_uploads/SJWDnA4yZe.png) * 通過所有 Layer 後取得最終一排向量 * 取最後一個向量(k 維),乘上 LM Head 矩陣(k×V) * 輸出 V 維向量,每一維對應一個 Token 的分數 * LM Head 為模型最後一層參數矩陣 # Logit 與 Softmax ![image](https://hackmd.io/_uploads/SJuu3CNk-l.png) * 輸出向量中的數值稱為 Logit,可為正或負,非機率 * Softmax 將 Logit 轉換為 0~1 的機率分布,使總和為 1 * 操作:取每個 logit 的 exponential,再除以總和 # Softmax 的意義與彈性 * Softmax 僅為將數值轉為便於取樣的形式,不必視為真實機率 * Hugging Face 模型預設輸出 Logit,是否轉機率由使用者決定 * 可用其他方法轉換或取樣,Softmax 只是常用選項 # Temperature 參數 ![image](https://hackmd.io/_uploads/HkgcnAV1-l.png) * 在 Softmax 前可除以參數 T(temperature)調整分布平坦度 * T 大 → 機率分布較平均,輸出更多樣(創意模式) * T 小 → 機率分布集中,輸出較穩定(保守模式) * 控制 T 可改變模型輸出傾向與取樣風格 --- # Unembedding 的概念 ![image](https://hackmd.io/_uploads/SJisnR4yWl.png) * Unembedding 是將模型最後輸出的向量轉成各 Token 的分數 * 多數語言模型(如 Llama、Gemma)採首尾共用設計:LM Head 與 Embedding Table 相同 * 模型最後輸出向量與每個 Token 的 Embedding 做 dot product,比較相似度 * 相似度越高的 Token,其分數與機率越高 * 模型會產生接近正確 Token Embedding 的 Representation,以提高預測正確率 # Token Embedding 的意義 ![image](https://hackmd.io/_uploads/HkG62AE1-g.png) ![image](https://hackmd.io/_uploads/Hyf1T0Nk-e.png) * 同一 Token 會有相同的 Token Embedding * 意思相近的 Token 其 Embedding 也會相似 * Token Embedding 不是隨機產生,而是學習出語意相似度 * 例如:Apple 的 Embedding 會接近 Orange、Banana,也可能接近 iPhone # Contextualized Embedding ![image](https://hackmd.io/_uploads/Sy-xpAVJZg.png) ![image](https://hackmd.io/_uploads/r1ogTAVkZl.png) * Token Embedding 經過第一層後成為 Contextualized Embedding * 考慮上下文後,同一 Token 在不同句子中會有不同的 Embedding * 例如:Apple 表示水果與公司時,其 Contextualized Embedding 會顯著不同 * 不同語境的 Embedding 反映語義差異 # Embedding 空間與語意方向 ![image](https://hackmd.io/_uploads/ryQGTAE1Zl.png) * Embedding 在高維空間中排列並非隨機 * 類似語意的 Embedding 會聚集在相近位置 * 某些方向具有特定語意(如翻譯方向、性別、語法關係) * 例如:Cold-冷、Hot-熱、Big-大 的差向量可能相似 * 不同模型與層之間語意方向不一定一致 # 高維向量的低維投影分析 ![image](https://hackmd.io/_uploads/ryuXaAVkWe.png) ![image](https://hackmd.io/_uploads/rkXVpCVy-e.png) ![image](https://hackmd.io/_uploads/SJ-HaAN1Zx.png) * 為理解高維 Embedding,可將其投影至二維空間觀察 * 不同投影方向會呈現不同關聯結果 * 研究發現特定層的 Representation 可投影出語法結構(文法樹) * 中間層通常蘊含較多語法資訊 * 實驗例:BERT 模型在中間層可觀察出文法樹結構 # 語意地圖的投影研究 ![messageImage_1762090317348](https://hackmd.io/_uploads/rygvp0NyZx.jpg) * 實驗將地名丟入 Llama 模型,抽取其 Representation * 找到合適投影平面後,可在二維平面上重現世界地圖的輪廓 * 投影後地名大致分布於對應洲域,顯示模型內部具有地理語意結構 # Representation Engineering ![image](https://hackmd.io/_uploads/SJ1dpCEJ-l.png) * 通過修改 Representation 觀察模型行為變化 * 若改動後模型行為改變(如說髒話),表示該方向控制相關語意 * 技術名稱:Representation Engineering / Activation Engineering / Activation Theory * 作業範例:操控模型拒絕或同意使用者請求 # 拒絕成分的提取方法 ![image](https://hackmd.io/_uploads/SJyFTAVy-e.png) ![image](https://hackmd.io/_uploads/r1dK6CEJWg.png) * 找出模型在拒絕請求時的特定層(如第 10 層)Representation * 收集多組會拒絕與不會拒絕的輸入 * 取兩組第 10 層的平均 Representation,並作相減 * 相減結果代表「拒絕向量」,即引導模型拒絕的成分 * 將拒絕向量加回正常請求的第 10 層 Representation,模型就會拒絕該請求 * 實際操作需嘗試多層以找出效果最佳的層級 --- # 拒絕成分(Refusal Component)實驗 ![image](https://hackmd.io/_uploads/Bk52aR41Zx.png) ![image](https://hackmd.io/_uploads/HkGT6RE1-g.png) ![image](https://hackmd.io/_uploads/Sk11R0N1bl.png) ![image](https://hackmd.io/_uploads/B1_lACVJ-l.png) ![image](https://hackmd.io/_uploads/HJoWCAE1Wg.png) * 2024 年論文找出語言模型中代表「拒絕」的成分向量 * 對模型進行 intervention(在 representation 中加入向量)即可改變行為 * 原本問題如「請教我怎麼做瑜伽」會正常回答 * 加入拒絕成分後模型會拒絕並給出負面回應,如「做瑜伽對身體有害」 * 數據顯示加入拒絕向量後拒絕比例大幅上升 # 減去拒絕成分的效果 ![image](https://hackmd.io/_uploads/SJNfC041Wl.png) * 若從 representation 中減掉拒絕向量,原本會拒絕的問題就會被回答 * 例如「請幫我寫關於美國總統吸毒醜聞的信」 * 原本模型會拒絕,減去拒絕向量後模型會生成違規內容 * 實驗以兩項指標評估:拒絕比例與安全比例 * 減去拒絕成分後,拒絕比例下降、不安全比例上升 # Anthropic 的 Representation 分析 ![image](https://hackmd.io/_uploads/r1g4R04y-l.png) * Anthropic(Claude 開發公司)進行自動化成分搜尋 * 找出可控制模型行為的向量,如「拍馬屁/諂媚」成分 * 加入該成分後,Claude 對任何輸入都會過度誇讚使用者 * 同篇分析中還發現多種語義與情感控制成分 # Logit Lens 方法 ![image](https://hackmd.io/_uploads/ry1HA0Vkbe.png) ![image](https://hackmd.io/_uploads/B1sHAAV1Zx.png) * 分析模型中間層的語意內容 * 原理:對每一層的 representation 進行 unembedding * 可觀察每層模型「心裡」預測的下一個 token * 讓研究者看到模型逐層的思考過程 * 最早出現於 2020 年論文,後被命名為 Logit Lens # Logit Lens 翻譯實驗 ![image](https://hackmd.io/_uploads/SkA80R4kZe.png) * 2024 年研究利用 Logit Lens 觀察 Llama 翻譯流程 * 輸入法文「fleur」,最終輸出中文「花」 * 模型中間層先生成英文 "flower",再轉為中文 * 顯示模型內部以英文為中介語進行思考 # Patch Scope 方法 ![image](https://hackmd.io/_uploads/Hygt0041-l.png) ![image](https://hackmd.io/_uploads/ryF5CR4kZe.png) * 將特定 representation 注入語言模型中觀察輸出變化 * 操作方式:在 prompt 中設置「請簡單介紹 X」,用特定 representation 替換 X * 可生成代表該 representation 的完整句子描述 * 不同 prompt 角度可產生不同解讀 # Patch Scope 實驗:Diana, Princess of Wales ![image](https://hackmd.io/_uploads/SJW2C0Nybx.png) ![image](https://hackmd.io/_uploads/SkBp00Nybe.png) * 將輸入「Diana, Princess of Wales」於各層 representation 替換分析 * 前 1–3 層僅辨識出 "Wales" → 「英國的國家」 * 第 4 層辨識出「女性王室成員」 * 第 5 層理解為「威爾斯王子的妻子」 * 第 6 層完整識別為「黛安娜王妃」 * 顯示模型隨層數加深逐步形成語意理解 # Transformer Layer 結構概述 ![image](https://hackmd.io/_uploads/BJj1JJrJZg.png) * 每層包含多個 sub-layer * 核心運作為 self-attention,負責融合上下文資訊 * 每層輸入與輸出向量數量相同 * self-attention 輸出後再經 feed-forward layer 得最終輸出 * Transformer 的上下文建模能力主要來自 self-attention 机制 --- # Attention is All You Need 的真正貢獻 ![image](https://hackmd.io/_uploads/rypzyyS1Wg.png) * 發表於 2017 年(Transformer 架構提出) * 並非發明 attention,而是首次證明僅用 attention 即可取代 recurrent 架構 * 2014 年起已有多篇論文提出 attention 概念 * 以往模型多使用 LSTM、GRU 等 recurrent 結構搭配 attention * Transformer 移除 recurrent 結構,僅用 attention 即能處理上下文 * 優點:可完全平行化,訓練效率提升 # Attention 的基本運作概念 ![image](https://hackmd.io/_uploads/H1rOk1S1-x.png) * 每層接收輸入 Token Embedding,輸出新的 representation * 以「果」這個 Token 為例,目標是找出句中哪些 Token 影響「果」的意思 * 例如句子「兩顆青蘋果」中,「青」與「蘋」對「果」的語意影響最大 * Attention 包含兩步驟:尋找關聯的 Token、整合影響資訊 # Query、Key、Value 的生成 ![image](https://hackmd.io/_uploads/rk1nyyrybg.png) ![image](https://hackmd.io/_uploads/SkpnyyHJbg.png) * 每個 Token Embedding 經三個矩陣轉換:WQ、WK、WV * WQ 產生 Query 向量(代表想了解的 Token,例如「果」) * WK 產生 Key 向量(代表提供資訊的 Token,例如「青」) * WV 產生 Value 向量(代表實際資訊內容) * 使用 dot product 計算 Query 與各 Key 的相似度 # Attention Weight 的計算 ![image](https://hackmd.io/_uploads/r1-MxJrJZg.png) ![image](https://hackmd.io/_uploads/rkeQlkrJbg.png) ![image](https://hackmd.io/_uploads/HJvBxJHkWx.png) * Dot product 結果代表兩 Token 之間的關聯強度 * 每個 Token 都會與其他 Token 進行計算(包含自己) * 結果經過 Softmax 正規化,形成 attention weight(總和為 1) * 數值越大代表該 Token 對當前 Token 的語意影響越大 # Positional Embedding 的引入 ![image](https://hackmd.io/_uploads/ryjgg1Sy-x.png) * Token Embedding 本身不含位置信息,需加入 Positional Embedding * 每個位置對應一個位置向量,與 Token Embedding 相加 * 可讓模型分辨「青果」與「果青」等不同順序 * 固定表格法限制輸入長度,因此出現改良技術(如 Llama 使用的 RoPE) # Weighted Sum 與 Residual Connection ![image](https://hackmd.io/_uploads/By6wxyrJ-g.png) ![image](https://hackmd.io/_uploads/H1jFeJHkZg.png) * Attention 輸出階段:根據 attention weight 對各 Token 的 Value 向量加權求和 * 結果融合不同 Token 的語意資訊 * 為保留原始 Token 資訊,使用 residual connection:將原 embedding 加回加權結果 * 得到新的輸出向量作為該位置的 representation # Multi-head Attention ![image](https://hackmd.io/_uploads/S1xixkSJWl.png) * 單一 attention 只能捕捉一種語意關聯(如顏色) * 多頭(multi-head)設計可同時捕捉不同面向 * 每個 head 有獨立的 WQ、WK、WV * 不同 head 專注於不同語意關係,如形容詞、數量、語法 * 各 head 的輸出向量最後會整合成最終輸出 representation --- # Multi-head Attention 的整合 ![image](https://hackmd.io/_uploads/Bysng1SkWg.png) ![image](https://hackmd.io/_uploads/ByypeJSkbx.png) * 多個 attention head 各自產生不同向量 * 這些向量會通過矩陣 WO 進行整合 * 經 WO 後的向量再與原始 Token 向量透過 residual connection 相加 * 結果即為 Self-Attention layer 的最終輸出 representation # Attention 的計算複雜度 ![image](https://hackmd.io/_uploads/Sk8alkHk-l.png) ![image](https://hackmd.io/_uploads/Byc6gkr1-x.png) * Attention 的運算量與輸入長度平方成長 * 輸入越長,計算量與記憶體消耗越高 * 這是語言模型處理長序列時的主要瓶頸 * 為解決此問題,後續出現各種替代架構(如 Mamba) # Causal Attention ![image](https://hackmd.io/_uploads/HybgbkHy-e.png) * 實際語言模型通常僅考慮左側(前文)Token * 像「蘋」的 representation 只受「兩、顆、青」影響 * 這種僅使用前文資訊的設計稱為 Causal Attention * 適合用於自回歸(autoregressive)生成模型 # Non-Causal Attention * 允許模型同時考慮左、右兩邊的上下文 * 理論上能捕捉更完整語意關係 * 實驗顯示部分任務中效果更佳 * 但在自回歸生成任務中較不方便實作 # Feed-Forward Layer(FFN)結構 ![image](https://hackmd.io/_uploads/Sk2xZ1BJZe.png) * 位於每層 attention 之後 * 以矩陣乘法與 bias 相加構成 * 通常包含兩層線性轉換與一個 activation function * 主要功能為非線性映射與特徵轉換 # Activation Function ![image](https://hackmd.io/_uploads/S1eMZ1SyWl.png) * 常見 ReLU(小於 0 設為 0,大於 0 保留) * 近年多使用 GeLU 等更平滑的函式 * 提供非線性,使模型具備表現複雜關係的能力 # Feed-Forward 運算流程 ![image](https://hackmd.io/_uploads/HkXq-kHkZx.png) * 向量乘上第一個權重矩陣 W,加上偏置 B * 經過 activation function 得中間結果 * 再乘上第二個矩陣 W'、加上 B' 得最終輸出 * 本質上是連續兩層線性轉換加上非線性函式 # Feed-Forward Layer 的新觀點 ![image](https://hackmd.io/_uploads/HymEWkBJWl.png) * 論文指出 FFN 可被視為另一種類型的 Attention * 題為「Transformer Feed-Forward Layers Are Key-Value Memories」 * 認為 FFN 透過參數儲存並查詢語意記憶 # 類神經網路的本質 * 每層運算本質上是矩陣乘法與加法 * 每個輸出維度(如 y1)由輸入向量加權求和再加 bias * 通過 activation function 即得到輸出值 * 所謂「神經元」實際上只是這些線性運算單元的抽象稱呼 # 語言模型的神經網路結構 * 多個神經元構成一層 * 多層堆疊形成深度網路(Deep Learning) * 實際上整個運算過程僅是大量矩陣運算的堆疊 --- # 模型參數的結構與分析 ![image](https://hackmd.io/_uploads/HJFqGJH1Zg.png) * 模型由多個矩陣與向量組成,稱為張量(Tensor) * 每個參數具備名稱(name)與形狀(shape) * 可藉由 named_parameters() 觀察模型內部參數結構 * 例如 Llama 3B 共有 28 層,每層包含 attention、feed-forward、layer norm 等 # Llama 3B 模型特性 ![image](https://hackmd.io/_uploads/ryNhEJSkWx.png) * 約 32 億參數(3B = 3 Billion) * Embedding table 大小為 128256 × 3072 * 每層均包含 query、key、value、o_proj 等矩陣 * 採用 Grouped-Query Attention 節省參數 * Feed-forward 結構:3072 → 8192 → 3072 # Gemma 4B 模型特性 ![image](https://hackmd.io/_uploads/B1tNSkHk-g.png) * 約 43 億參數(4B = 4 Billion) * 前段包含 Vision Tower,可處理圖片 * Embedding table 為 262144 × 2560,詞彙量更大 * Feed-forward 結構:2560 → 10240 → 2560 * 總共 34 層,比 Llama 更深 # 模型參數觀察 ![image](https://hackmd.io/_uploads/BygD3kSyZx.png) * 可用 state_dict() 檢視完整參數數值 * 每層的矩陣與偏置組成模型的運算基礎 * 單看數值難以理解語意意涵 # Token Embedding 觀察 ![image](https://hackmd.io/_uploads/SJTO2kS1Zg.png) * Embedding table 對應 token → 向量 * 每個 token 有唯一 embedding * Llama 的表大小為 128256 × 3072,含保留 token * token ID 與 embedding 對應一一映射 # Token 相似度分析 ![image](https://hackmd.io/_uploads/HkCc3JBkbx.png) ![image](https://hackmd.io/_uploads/ByhohyrJWl.png) ![image](https://hackmd.io/_uploads/ByET21HJWx.png) * 可透過 dot product 計算不同 token embedding 的相似程度 * 「apple」與「Apple」「蘋果」「Cupertino」距離接近 * 模型能識別語意關聯(品牌與地點) * 中文 token 如「李」與「LEE」「劉」相似,反映語意一致性 * 「王」對應到英文「king」,顯示跨語言語意連結 # Representation 抽取 ![image](https://hackmd.io/_uploads/ByYA3JBJZl.png) * 模型每層輸出 hidden representation * 使用 `output_hidden_states=True` 取得所有層的結果 * hidden_states[0] 為 token embedding,其餘為各層輸出 * 每層輸出 shape 為 (1, 序列長度, 向量維度) * 可觀察不同層對輸入句子的表示變化 --- # Token 與各層表示(Representation) ![image](https://hackmd.io/_uploads/HJEV6yB1Wg.png) * 第 0 層是 token embedding,同一個 token 的表示完全相同(例如多個句子的 "you" 向量相同)。 * 從第 1 層起變成 contextualized embedding,表示會受上下文影響而不同。 * 只考慮左側上下文時,句首的 "how" 在不同句子中經過任意層仍相同,因為左邊都空白。 * 同一 token 在不同層會不同,但相同句首且只看左側時,不同句子的該 token 仍相同。 # 「apple」異義對比:層間相似度 ![image](https://hackmd.io/_uploads/SJ6NakHJ-l.png) * 兩句:「I ate an apple for breakfast」(食物)與「the company … called apple」(公司)。 * 第 0 層 cosine similarity = 1(相同 token embedding)。 ![image](https://hackmd.io/_uploads/BJcwTJrybe.png) * 自第 1 層起相似度下降,約在第 11 層達低點,之後回升。 * 回升可能因不同層的表示分佈尺度差異造成,需正規化比較。 # 相似度正規化(Normalization)概念 ![image](https://hackmd.io/_uploads/rkf5aJSJWl.png) * 各層整體向量分佈與可分性不同,後層平均更「接近」可能抬高原始相似度。 * 作法:計算兩句所有 token 兩兩相似度的平均,以此除去目標 pair 的相似度。 * 正規化後結果更合理:第 1 層起兩個「apple」明顯分歧,層數越深差異越大。 # 四句「apple」分組實驗 ![image](https://hackmd.io/_uploads/SyFjTyH1Wl.png) * 句 1/2 的「apple」皆為食物;句 3/4 皆為公司名稱。 * 第 0 層四條相似度曲線皆為 1。 * 同語義(食物–食物、公司–公司)跨句相似度在各層都維持偏高。 * 異語義(食物–公司)隨層數加深相似度顯著降低。 * 模型能聚合同義並區分異義,即便上下文不同也能識別語義一致性。 # Logit Lens:逐層「最可能下一個 token」 ![image](https://hackmd.io/_uploads/rJ16TkS1-x.png) * 取各層 hidden representation 經 `lm_head` 得 logits,觀察每層預測的 top-1 token。 * 「天氣」:前期重複最後 token「氣」→ 中期轉英文 "weather" → 後期出現 "forecast" → 最終映回中文「預」,形成「天氣預報」。 * 「天氣預」:層間在 "forecast"/"prediction"/"report" 間擺動,最終輸出「報」。 * 「今天天氣真」:在 "beautiful"/"good"/"bad" 間切換,最終選「好」。 * 現象:中間層表徵常投射到英文詞,最終再映射回中文輸出。 # 取得與閱讀 Attention ![image](https://hackmd.io/_uploads/rJPkCJry-g.png) ![image](https://hackmd.io/_uploads/Hyx7C1rkZg.png) ![messageImage_1762094659833](https://hackmd.io/_uploads/BkxwCkB1Zl.jpg) * 推論需設定 `output_attentions=True` 並指定 `implementation='eager'` 才會保存 attention weight。 * Llama 單層張量形狀示例為 (1, 24, 12, 12):1(批次)、24(heads 數)、12×12(輸入長度為 12 的注意力矩陣)。 * 矩陣右上角為 0 反映 causal attention 只看左側 token。 * 觀察例:某 head 對大多數 token 偏好句首符號;對 "apple" 會額外關注 "green"。 * 另一例:"color" attend 到前面的 "green";第二個 "apple" attend 到第一個 "apple"。 * 多數 head 行為各異且難以解釋,常見多個 head 只看前幾個 token。 # 起始符號的「預設」作用 * softmax 迫使注意力必須分配;當沒有明顯相關 token 時,注意力會落在起始符號作為「無可關注對象」的預設。 * 此行為在不同模型(如 Llama、Gemma)普遍可見。 # Gemma 與 Llama 的觀察差異 ![image](https://hackmd.io/_uploads/B1U_CkSybx.png) ![image](https://hackmd.io/_uploads/H1jOC1rJ-g.png) * 僅更換模型即可沿用相同分析流程。 * Gemma 每層約 8 個 head,層數可至第 34 層;仍可觀察到起始符偏好。 * 各層 head 的關注模式不同,但整體與 Llama 類似:部分 head 聚焦語意關聯,部分 head 表現出模板式或難解讀的行為。 --- # Terminology * 語言模型(Language Model):以機率方式預測序列下一個Token的模型。 * 自回歸建模(Autoregressive Modeling):逐步以先前Token條件化來產生下一個Token。 * 函式表示(Function F):將輸入序列X映射為下一Token分佈的數學函式。 * 輸入序列(Input Sequence, X):待補全的未完成句子或Token串。 * Token化(Tokenization):將文字切分為模型可處理的最小單位。 * 子詞單位(Subword Unit):以BPE/WordPiece等方法形成的部分詞片段。 * 詞彙表(Vocabulary, V):模型可產生與辨識的Token集合。 * Token ID(Token Index):詞彙表中Token對應的整數編號。 * 嵌入表(Embedding Table):將每個Token ID對應到向量的參數矩陣。 * Token嵌入(Token Embedding):由嵌入表查得的Token向量表示。 * 位置編碼(Positional Encoding):向序列注入順序資訊的表示方式。 * 層(Layer):將一列向量轉換為另一列向量的網路模組。 * 隱表示(Hidden Representation):中間層輸出的內部向量表徵。 * 上下文化嵌入(Contextualized Embedding):考慮前文後文後得到的向量表示。 * 殘差連接(Residual Connection):將輸入疊加到輸出以利梯度傳遞的結構。 * 層歸一化(Layer Normalization):在特徵維度進行標準化以穩定訓練/推論。 * 自注意力(Self-Attention):根據序列內部關聯加權聚合資訊的機制。 * 因果遮罩(Causal Masking):限制注意力僅能看見當前位置以前的Token。 * 多頭注意力(Multi-Head Attention):並行多組注意力以捕捉不同關係。 * 前饋網路(Feed-Forward Network, FFN):位置獨立的非線性投影與變換。 * 線性投影(Linear Projection):以矩陣乘法改變向量維度的操作。 * 維度(Dimensionality, d_model):各層隱表示的向量長度。 * 疊代層疊(Stacked Layers, Depth):多層串接形成深度結構。 * 深度學習(Deep Learning):以多層非線性轉換提升表達能力的範式。 * 神經網路(Neural Network):由參數化線性/非線性模組組成的函式族。 * LM頭(LM Head):將最末隱表示投影到詞彙分數空間的線性層。 * 權重綁定(Weight Tying):共享嵌入表與LM頭權重以減參數增一致性。 * Logit(Logit):未經歸一化的每個Token分數向量。 * Softmax(Softmax):將logit轉為非負且總和為1的類機率分佈。 * 指數函數(Exponential Function):softmax中將logit映射為正值的操作。 * 溫度(Temperature, T):在softmax前縮放logit以調整分佈平坦度。 * 機率分佈(Probability Distribution):對下一Token的機率估計。 * 取樣(Sampling):依分佈隨機選取下一Token的解碼策略。 * 貪婪解碼(Greedy Decoding):每步選擇機率最高的Token。 * Top-k取樣(Top-k Sampling):僅在最高k個Token內抽樣。 * 核心取樣(Nucleus/Top-p Sampling):在累積機率達p的集合中抽樣。 * 序列長度(Sequence Length):當前處理的Token數量。 * 上下文視窗(Context Window Size):模型一次可處理的最大Token數。 * 批次處理(Batching):同時處理多個序列以提升吞吐。 * 參數矩陣(Parameter Matrix):網路中可學(或已學)權重的矩陣表示。 * 向量表示(Vector Representation):用實數向量刻畫語義/語法的數值化形式。 * 語境聚合(Context Aggregation):將相關位置資訊加權整合到當前表示。 * 解碼步(Decoding Step):一次產生單一下一Token的推論迭代。 * 前綴條件(Prefix Conditioning):以已生成前綴作為後續預測的條件。 * 模型頭維度(Vocabulary Logit Dim):LM頭輸出之詞彙大小維度。 * 正規化常數(Partition Function, Z):softmax分母的總和項。 * 機率溫度縮放(Temperature Scaling):透過T控制探索與保守度。 * 梯度遮罩等價(Masking Equivalence):因果遮罩等同於未來位置梯度為零。 * 穩定性/數值技巧(Numerical Stabilization):對logit減最大值以避免溢位。 * 末位表徵選取(Last-Token Representation):僅用最末位置向量做下一步投影。 * 模型頭輸出(Logit Vector):對每個詞彙的打分向量用以解碼下一Token。 * 反嵌入(Unembedding):用最末層表徵與嵌入表各列做內積,得到每個Token的分數(logit)。 * 權重綁定(Weight Tying):將輸入的嵌入表與LM頭權重共用,首尾呼應、減少參數。 * 內積相似度(Dot Product Similarity):以向量內積衡量表徵與Token嵌入的相近程度。 * 詞彙分數向量(Logit Vector):未經歸一化的每詞彙打分,之後再轉機率。 * 詞彙空間(Vocabulary Space):所有Token嵌入所張成的向量空間。 * 表徵空間(Representation Space):模型中間層隱表示所在的高維向量空間。 * 最末位置表徵(Last-Token Representation):用於預測下一Token的最後一個位置向量。 * 嵌入表(Embedding Table):將Token ID映射為連續向量的參數矩陣。 * Token嵌入(Token Embedding):由嵌入表查得、未含上下文的基礎向量。 * 上下文化嵌入(Contextualized Embedding):經層疊與注意力後,融入前文資訊的向量。 * 相似度排序(Similarity Ranking):依內積大小為各詞彙排序以近似下一步概率。 * 近鄰檢索(Nearest Neighbor Search):找出與表徵最接近的若干Token嵌入。 * 餘弦相似度(Cosine Similarity):以角度衡量向量相似,常用於輔助分析。 * 線性投影(Linear Projection):以矩陣乘法將隱表示映射到詞彙分數空間。 * LM頭(LM Head):輸出層線性投影(常與嵌入表權重綁定)。 * Softmax歸一化(Softmax Normalization):將logit轉為0-1且總和為1的分佈。 * 溫度縮放(Temperature Scaling):用T縮放logit以調整分佈平坦度與創造性。 * 數值穩定化(Logit Stabilization):在softmax前減去最大logit以避免溢位。 * 分區函數(Partition Function, Z):softmax分母之指數和,負責正規化。 * 機率校準(Output Calibration):調整輸出分佈使其更貼近真實機率。 * 表徵幾何(Representation Geometry):以幾何關係解讀隱表示的語法語義結構。 * 語義方向(Semantic Direction):表徵空間中對應特定語義屬性的向量方向。 * 向量算術(Vector Arithmetic):以加減操作操作屬性(如king−man+woman≈queen)。 * 屬性向量(Attribute Vector):代表某特定屬性(如「拒絕」)的方向/偏移量。 * 表徵工程(Representation Engineering):直接修改中間表徵以操控行為。 * 啟動值工程(Activation Engineering):在指定層對activation進行加減或替換。 * 因果干預(Causal Intervention):對內部表徵施加改動以驗證因果貢獻。 * 層位選擇(Layer Selection):尋找最能承載目標屬性的關鍵網路層。 * 層特化(Layer Specialization):不同層對語法、語義或任務信息的分工現象。 * 上下文消歧(Contextual Disambiguation):利用上下文讓同形詞獲得不同表徵。 * 多義詞處理(Word Sense Disambiguation, WSD):在表徵空間區分詞義。 * 意義聚簇(Semantic Clustering):語義相近的表徵在空間中形成群集。 * 維度縮減(Dimensionality Reduction):將高維表徵投影到低維以便觀察。 * 主成分分析(PCA):以方差最大化的線性投影做低維視覺化。 * t-SNE(t-Distributed Stochastic Neighbor Embedding):保鄰近結構的非線性降維方法。 * UMAP(Uniform Manifold Approximation and Projection):保持全域/局部結構的降維工具。 * 文法樹探針(Parse-Tree Probing):以投影觀察層內是否顯化句法樹狀結構。 * 探針分類器(Probing Classifier):使用簡單模型檢驗隱表示是否蘊含某資訊。 * 差分向量(Difference Vector):以「正例均值−負例均值」抽取目標屬性方向。 * 表徵稀疏性(Representation Sparsity):隱表示中少量維度承載主要訊息的性質。 * 局部線性近似(Local Linear Approximation):以小幅線性擾動估計行為改變。 * 相似度—機率對齊(Similarity–Probability Alignment):將內積大小與輸出機率對應。 * 詞彙等價類(Token-Type Equivalence Class):同一Token在無上下文時共享嵌入。 * 上下文驅動漂移(Context-Driven Drift):同一Token於不同上下文表徵分歧。 * 幾何可視化(Geometric Visualization):以低維圖示呈現語義/句法結構。 * 世界知識嵌入(Geospatial/World Knowledge Embedding):地名等在表徵空間呈地理拓撲。 * 中間層介入點(Intervention Point):實施表徵加減的具體層與位置選擇。 * 性能—穩定權衡(Capability–Reliability Trade-off):表徵操控帶來的準確與穩定取捨。 * 嵌入—輸出共享一致性(Embedding–Output Consistency):綁定權重使輸入/輸出語義一致。 * 內積解碼直覺(Dot-Product Decoding Intuition):「更像哪個嵌入就選哪個Token」的機制詮釋。 * 多義投影面(Sense-Specific Subspace):區分詞義的子空間或投影方向。 * 表徵干預(Representation Intervention):直接在中間層向量上加減特定方向以改變模型行為。 * 拒絕向量(Refusal Vector):從正反例平均差分抽取、能誘發拒絕回應的屬性方向。 * 安全對齊(Safety Alignment):透過資料、規則或機制讓模型輸出符合安全與倫理。 * 內容審查閾值(Moderation Threshold):將不當輸出判定為拒絕的分界設定。 * 行為開關(Behavior Toggle):以小幅表徵偏移切換模型的回應傾向。 * 反干預(De-intervention):從表徵移除特定屬性向量以抑制對應行為。 * 失效模式(Failure Mode):干預後出現的不預期或危險輸出型態。 * 對抗越獄(Adversarial Jailbreak):用技巧繞過防護促使模型執行受限指令。 * 屬性編碼(Attribute Encoding):語義/風格等屬性以方向或子空間形式嵌入表徵。 * 層級敏感性分析(Layer-wise Sensitivity Analysis):逐層測試干預效果以定位關鍵層。 * 作用點掃描(Intervention Point Sweep):在不同層與位置系統化嘗試干預。 * 因果追蹤(Causal Tracing):以替換/打補丁找出對輸出具因果影響的通路。 * 激活打補丁(Activation Patching):用另一條前向的中間激活覆蓋原激活以觀察影響。 * 特徵方向(Feature Direction):能系統性改變輸出性質的向量方向。 * 斜率放大(Logit Scaling):對logit作線性縮放以改變信心與選擇性。 * 安全性指標(Safety Metric):量化輸出是否安全的評分或比例。 * 拒絕率(Refusal Rate):模型對請求給出拒絕回覆的比例。 * 安全回應比率(Safe Response Rate):在不拒絕情況下輸出仍符合安全準則的比例。 * 偏移注入(Bias Injection):向表徵添加固定偏移以誘導特定語氣/立場。 * Anthropic 特徵探勘(Anthropic Feature Mining):自動發現可操控行為的內部特徵方向。 * 諂媚特徵(Flattery Feature):能引發誇讚/吹捧語氣的表徵方向。 * 風格化操控(Style Steering):以向量控制文風、語氣或禮貌程度。 * Logit 鏡(Logit Lens):對各層表徵套LM頭投影成詞分數以讀取「心中候選」。 * 層內解碼(Layer-wise Decoding):將中間層激活解碼為最可能token序。 * 早期假說(Early Hypothesis):模型在淺層形成的暫時性下一詞猜測。 * 中介語假說(Interlingua Hypothesis):翻譯時內部先轉為隱含的共同語表示。 * 逐層語義演化(Layerwise Semantic Evolution):語義假說隨層深逐步精煉的現象。 * PatchScope(Patch Scope):以替換中間表徵並驅動生成敘述來解讀其語義。 * 提示注入基底(Prompt Scaffold):為PatchScope/探針設計的模板提示句。 * 輕量探針(Lightweight Probe):以小模型檢測中間表徵是否蘊含特定資訊。 * 自註釋解讀(Self-Annotation):讓模型以文字描述被注入/替換表徵的含義。 * 因果遮罩(Causal Masking):以遮罩控制注意力的因果方向以避免看未來。 * 位置編碼(Positional Encoding):為序列中每個位置注入可區分的位置信息。 * 旋轉位置嵌入(Rotary Positional Embedding, RoPE):以相位旋轉方式注入相對位置信號。 * 多頭自注意力(Multi-Head Self-Attention):並行多子空間捕捉多種關聯。 * 查詢/鍵/值向量(Query/Key/Value Vectors):計算注意力分數與加權匯總的三組向量。 * 注意力分數(Attention Scores):以Q·K決定各位置彼此關注強度的值。 * 注意力權重歸一化(Attention Softmax):對分數softmax成為權重分佈。 * 因果注意力遮罩(Causal Attention Mask):禁止關注未來位置的上三角遮罩。 * 殘差連接(Residual Connection):將輸入直接加回輸出以保留與穩定訊息流。 * 層正規化(Layer Normalization):對通道做標準化以穩定訓練與推論。 * 前饋網路(Feed-Forward Network, FFN/MLP):對每位置獨立的非線性變換子層。 * 激活函數(Activation Function, GELU/ReLU):為FFN提供非線性表達能力的函式。 * 參數共享(Parameter Sharing):重用權重(如嵌入/LM頭綁定)以減參並保一致性。 * 鍵值快取(KV Cache):在自回歸生成中快取K/V以加速長序列解碼。 * 序列長度外推(Sequence Length Extrapolation):在超過訓練長度下維持穩定推理能力。 * 上下文學習(In-Context Learning):僅靠提示中的示例即時習得任務行為。 * 梯度凍結推論(Frozen-Gradient Inference):推理時不更新權重的前向運算過程。 * 權重綁定LM頭(Weight-Tied LM Head):輸入嵌入表與輸出頭共用權重以首尾呼應。 * 注意力機制(Attention Mechanism):以可學習權重聚焦關鍵位置以融合上下文資訊。 * 自注意力(Self-Attention):序列內各位置彼此計分並匯總以更新自身表示。 * 點積注意力(Dot-Product Attention):以向量點積作為相似度計算注意力分數。 * 縮放點積注意力(Scaled Dot-Product Attention):將點積除以維度平方根以穩定梯度。 * 查詢向量(Query Vector, Q):代表當前位置「想找什麼訊息」的投影向量。 * 鍵向量(Key Vector, K):代表各位置「提供什麼訊息」的投影向量。 * 值向量(Value Vector, V):被加權匯總以輸出的內容向量。 * 注意力分數(Attention Scores):由 Q·K 計算出的相關性實數。 * 注意力權重(Attention Weights):對分數做 softmax 後的歸一化權重。 * 多頭注意力(Multi-Head Attention):多組 QKV 在不同子空間並行捕捉多面向關係。 * 注意力頭(Attention Head):多頭注意力中的單一 QKV 計算路徑。 * 注意力矩陣(Attention Matrix):所有查詢對所有鍵的權重排列成的矩陣。 * 掩碼自注意力(Masked Self-Attention):用上三角遮罩禁止關注未來位置。 * 因果遮罩(Causal Mask):確保自回歸模型僅使用過去資訊的遮罩。 * 位置編碼(Positional Encoding):為序列位置注入可學或解析的位置信號。 * 絕對位置編碼(Absolute Positional Encoding):以表格/函式為固定索引的位置信號。 * 相對位置編碼(Relative Positional Encoding):根據位置差建模而非絕對索引。 * 旋轉位置嵌入(Rotary Positional Embedding, RoPE):以複數相位旋轉注入相對位置信息。 * 詞嵌入表(Token Embedding Table):將 token ID 查表映射為連續向量。 * 上下文嵌入(Contextualized Embedding):經多層運算後含語境語義的向量表示。 * 反嵌入/輸出頭(Unembedding / LM Head):用權重將表徵投影到詞彙分數空間。 * 權重綁定LM頭(Weight-Tied LM Head):輸入嵌入與輸出頭共享權重以首尾呼應。 * 邏輯分數(Logits):未正規化的詞彙分數向量。 * Softmax 正規化(Softmax Normalization):將分數轉為機率分佈的函式。 * 溫度取樣(Temperature Sampling):以溫度縮放 logits 控制隨機性與創意度。 * 前饋網路(Feed-Forward Network, FFN/MLP):對每位置獨立的非線性變換子層。 * 激活函數(Activation Function, GELU/ReLU):提供非線性的元素級函數。 * 殘差連接(Residual Connection):將輸入加回輸出以保訊息與穩定深層訓練。 * 層正規化(Layer Normalization):對特徵維度標準化以穩定數值。 * 投影層(Projection Layer):將多頭拼接結果映射回模型維度的線性層。 * 注意力頭拼接(Head Concatenation):將各頭輸出沿特徵維度串接。 * 加權和(Weighted Sum):以注意力權重對各值向量加權匯總。 * 權重矩陣 WQ(WQ Matrix):將嵌入投影為查詢向量的線性權重。 * 權重矩陣 WK(WK Matrix):將嵌入投影為鍵向量的線性權重。 * 權重矩陣 WV(WV Matrix):將嵌入投影為值向量的線性權重。 * 輸出投影矩陣 WO(Output Projection, WO):將多頭輸出映射回隱層維度的權重。 * 位置感知相似度(Position-Aware Similarity):在注意力計分中納入位置信息的機制。 * 序列平行化(Sequence Parallelization):移除循環以利 GPU 並行計算。 * 上下文視窗(Context Window):模型可處理的最大 token 長度上限。 * 序列長度外推(Sequence Length Extrapolation):在訓練長度外維持穩定推理的能力。 * Token 化(Tokenization):將文本切分並映射為詞彙表索引的過程。 * 詞彙表大小(Vocabulary Size):模型輸出機率分佈的維度數。 * 歷史上下文(Past Context):當前位置可見的先前 token 序列。 * 早期假說(Early Hypothesis):淺層注意力對下一詞的初步猜測。 * 語義聚合(Semantic Aggregation):以注意力將多來源訊息整合成單一表示。 * 修改詞依附(Modifier Attachment):注意力將形容詞/量詞與名詞對齊的現象。 * 不同面向頭(Aspect-Specific Heads):各頭專注數量、顏色、語法等不同訊息。 * 查表操作(Embedding Lookup):以索引直接讀取嵌入向量的動作。 * GPU 平行化(GPU Parallelization):利用矩陣運算加速大規模注意力計算。 * 掩碼權重(Masked Weights):被遮罩位置的注意力權重強制為零。 * 青蘋果歧義解析(Modifier Disambiguation via Attention):透過注意力將「青」對齊到「蘋果」以確定語義。 * 注意力頭(Attention Head):在多頭注意力中獨立學習的一組 Q/K/V 投影與計算單元,用於擷取不同子空間的關聯。 * 多頭注意力(Multi-Head Attention):並行多個注意力頭後再拼接與投影,提升模型表徵多樣性。 * 查詢向量(Query, Q):用來對序列其他位置提問以計算注意力權重的向量。 * 鍵向量(Key, K):與查詢做相似度(如點積)以產生注意力分佈的向量。 * 值向量(Value, V):依注意力權重加權求和後輸出的內容向量。 * 輸出投影矩陣(Output Projection, (W_O)):將多頭注意力拼接結果線性映射回隱層維度的矩陣。 * 殘差連接(Residual Connection):將層輸入加回層輸出以穩定訓練與促進梯度流動的結構。 * 自注意力(Self-Attention):同一序列內位置彼此做注意力,擷取全域上下文關係。 * 因果注意力(Causal Attention):只允許關注當前位置左側(過去)token,符合自回歸生成。 * 非因果注意力(Non-Causal/Bidirectional Attention):可同時關注左右文,常見於編碼器或掩碼任務。 * 自回歸生成(Autoregressive Generation):逐步依賴前綴條件分佈產生下一個 token 的生成方式。 * 前饋神經網路(Feed-Forward Network, FFN/MLP):位置獨立的逐位置非線性變換,常用兩層線性+激活。 * 激活函數(Activation Function):引入非線性以提高表徵能力的函數族。 * 修正線性單元(ReLU):將負值截斷為 0、正值保持不變的簡單激活函數。 * 高斯誤差線性單元(GeLU):依輸入經高斯分佈平滑門控的激活,LLM 中常見。 * 層正規化(LayerNorm):沿特徵維做標準化與仿射變換,穩定深層訓練。 * 詞嵌入表(Token Embedding Table):將 token ID 映射到連續向量空間的大矩陣。 * 詞嵌入向量(Token Embedding):單一 token 在嵌入表對應的稠密向量表示。 * 位置編碼/旋轉位置編碼(Positional Encoding/RoPE):為序列位置提供可學或解析式位置資訊的方法。 * 點積注意力(Dot-Product Attention):以 (QK^\top) 的縮放點積估計相似度並經 Softmax 得權重。 * Softmax 正規化(Softmax Normalization):將分數轉為機率分佈以加權值向量。 * 分組查詢注意力(Grouped-Query Attention, GQA):多查詢共享較少的鍵/值頭,降低參數與記憶。 * 門控投影(Gate Projection):在 FFN 中以門控機制(如 SwiGLU)調節通道流量的線性層。 * 上投影(Up-Projection):FFN 第一層將隱層維度擴張到更高維的線性映射。 * 下投影(Down-Projection):FFN 第二層將擴張後通道壓回原隱層維度的映射。 * 隱狀態(Hidden States):每層對每個位置輸出的中間表徵張量。 * 潛在表徵(Latent Representation):模型內部未直接可觀測但承載語義與結構的向量表示。 * Transformer 區塊(Transformer Block):包含多頭注意力、FFN、殘差與正規化的堆疊單元。 * 解碼器式語言模型(Decoder-Only LM):僅由解碼器堆疊構成、使用因果遮罩的生成模型。 * 詞彙表大小(Vocabulary Size):模型可處理的離散 token 類別總數。 * 張量(Tensor):向量與矩陣在更高維度的泛化,為深度學習基礎資料結構。 * 矩陣乘法(Matrix Multiplication):線性層與注意力計算的核心算子。 * 偏置向量(Bias Vector):線性變換後加成的可學參數,用以平移激活分佈。 * 參數量(Parameter Count):模型可學權重總規模,常以 B(十億)為單位。 * 模型深度(Model Depth, Layers):堆疊的 Transformer 區塊層數。 * 隱層維度(Hidden Dimension):每個位置表徵向量的特徵通道數。 * 序列長度(Sequence Length):單次前向傳播處理的 token 數量(上下文長度)。 * 注意力計算複雜度(Attention Complexity (O(n^2))):注意力隨序列長度平方成長的計算/記憶成本。 * 長上下文挑戰(Long-Context Challenge):長序列導致成本暴增與資訊衰減的難題。 * 參數命名查詢(named_parameters):程式介面,用於列舉模型參數名稱與張量。 * 參數狀態字典(state_dict):序列化的權重容器,可讀寫各層參數數值。 * 分詞器(Tokenizer):將文字切分並映射為 token ID 的模組。 * 標記 ID(Token ID):詞彙表中每個 token 的索引標號。 * 權重共享嵌入/反嵌入(Tied Embedding/Unembedding):輸入嵌入與輸出投影矩陣共享權重以節省參數。 * 鍵值記憶(Key-Value Memory):觀點認為 FFN 可作為可查詢的 KV 記憶庫以擴充檢索能力。 * KV 快取(KV Cache):在推論中緩存歷史 K/V 以避免重算、加速自回歸生成。 * 視覺塔(Vision Tower):多模態模型中處理影像的前端編碼器模組。 * 混合精度訓練(Mixed Precision Training):以較低浮點精度計算以提高吞吐與降低記憶占用。 * 正則化(Regularization):抑制過擬合與穩定訓練的技術(如 Dropout、權重衰減)。 * Mamba 狀態空間模型(Mamba State Space Model):以可擴展 SSM 結構替代注意力以高效處理長序列的競品架構。 * 語意表徵(Semantic Representation):模型對詞彙或句子意涵的高維向量化表示。 * 上下文嵌入(Contextualized Embedding):考慮前後文後得到的動態詞向量。 * 餘弦相似度(Cosine Similarity):度量兩個向量方向相似程度的指標,範圍為 -1 至 1。 * 正規化(Normalization):將數值尺度調整以利比較或穩定訓練的操作。 * 層歸一化平均(Layer-wise Normalization):對每層表徵的平均分佈進行調整以消除尺度偏差。 * 表徵變化曲線(Representation Similarity Curve):展示不同層表徵相似度變化的圖形。 * 語境歧義(Contextual Ambiguity):同一詞在不同語境下具有不同語意的現象。 * 層級語意分化(Layerwise Semantic Divergence):隨層數增長詞語語意逐漸分化的現象。 * 表徵聚合(Representation Clustering):語義相似的詞嵌入在向量空間中聚集。 * 橫層比較(Cross-Layer Comparison):在多層間分析同一詞表徵差異的技術。 * 語意收斂(Semantic Convergence):相似語意的表徵在深層逐漸靠攏的現象。 * 語意分離(Semantic Separation):不同語意的表徵在模型層中逐步遠離的過程。 * 隱層激活(Hidden Activation):特定層輸出表徵的活化值分佈。 * 表徵空間(Representation Space):模型內部隱層向量所構成的多維語意空間。 * 語意漂移(Semantic Drift):表徵隨層數或語境改變而移動的現象。 * 預測頭(LM Head):將隱層表徵轉換為詞彙分佈的線性層。 * 邏輯透鏡(Logit Lens):將中間層表徵映射回可解釋 token 機率的分析方法。 * 邏輯分數(Logit Score):softmax 前模型對每個詞的原始打分。 * 層內預測(Layerwise Prediction):以各層輸出通過 LM head 觀察模型預測傾向。 * 詞彙解碼(Token Decoding):根據 logits 選出最可能的下一個 token 的過程。 * 語言轉換現象(Language Switching):模型在中英等語間切換的潛在行為。 * 概念激活(Concept Activation):中間層向量對特定語意概念的響應強度。 * 注意力權重(Attention Weight):衡量 token 之間關聯強度的權值矩陣。 * 注意力矩陣(Attention Matrix):所有 token 之間注意力分佈的可視化表示。 * 層與頭索引(Layer/Head Index):定位特定注意力層與注意力頭的標記。 * 注意力可視化(Attention Visualization):以熱圖形式呈現 token 之間關聯程度。 * 因果遮罩(Causal Mask):防止注意力訪問未生成 token 的遮罩機制。 * 起始符號(BOS Token):句子開頭的特殊 token,用於表示序列起始。 * 注意力偏好(Attention Bias):模型注意力傾向特定位置(如起始符號)的現象。 * 預設注意力(Default Attention):無相關 token 時注意力分配到起始符號的行為。 * 注意力頭多樣性(Head Diversity):不同注意力頭學習到不同語法或語義關係。 * 注意力層級模式(Attention Pattern Across Layers):不同層間注意力分佈差異的結構。 * 語法對齊(Syntactic Alignment):注意力捕捉語法依存關係的能力。 * 語意對齊(Semantic Alignment):注意力捕捉語意相關詞之間關聯的能力。 * 長程依賴(Long-Range Dependency):模型捕捉遠距離 token 關係的能力。 * 注意力頭冗餘(Head Redundancy):多個頭學習到相似功能導致資訊重疊。 * 注意力頭專化(Head Specialization):不同頭專注於特定語法或語義角色。 * 殘差混合(Residual Mixing):每層輸出結合前層資訊的融合機制。 * 模型層深度(Model Depth):Transformer 疊加層數,影響表徵抽象程度。 * 上下文依賴性(Context Dependency):表徵隨上下文變化的程度。 * 模型內視(Model Introspection):觀察模型內部表徵與注意力行為的分析方法。 * 表徵相似度矩陣(Representation Similarity Matrix):顯示多詞多層間餘弦相似度的圖表。 * 模型語意分層(Semantic Layering in Model):不同層捕捉語法、語意、篇章等層級特徵。 * 層級相關性(Inter-Layer Correlation):各層表徵之間的相關程度。 * token 特徵動態(Token Feature Dynamics):單一 token 表徵隨層變化的軌跡。 * 預訓練語言模型(Pretrained Language Model):經大規模文本預訓練後具語言理解能力的模型。 * 模型可解釋性(Model Interpretability):理解模型內部運作與決策依據的能力。 * 表徵分析(Representation Analysis):研究模型中隱層向量特性與語義關聯的方法。 * 注意力行為分析(Attention Behavior Analysis):研究模型注意力分佈與功能差異的技術。