# 大綱
主要在講 大型語言模型(LLM)的微調與量化技巧。講者一步一步解釋了理論背景、數學直覺,以及如何在實務上用 Hugging Face、LLaMA 2、Google Gemma 等模型來做 fine-tuning。以下是重點摘要:
---
### 1. 微調 (Fine-tuning) 的必要性
* 在企業裡,生成式 AI 工程師很常需要用 自訂資料集 去微調大型模型。
* 微調可以分成:
* 全參數微調 (Full parameter fine-tuning):更新模型所有權重,但非常耗資源。
* 領域專屬微調 (Domain-specific fine-tuning):針對金融、醫療、客服等領域資料調整。
* 任務導向微調 (Task-specific fine-tuning):例如做 SQL 查詢、文件問答等特定任務。
---
### 2. 量化 (Quantization)
* 定義:把模型的數值表示從 高記憶體格式 (如 FP32) 降到 低記憶體格式 (如 INT8)。
* 目的:降低運算與記憶體需求,使模型能在一般 GPU、甚至手機、手錶等 Edge 裝置上執行。
* 缺點:會有部分資訊遺失,造成 準確率下降。
* 技術:
* Post-training quantization (PTQ):在模型訓練完後再量化,簡單但容易掉精度。
* Quantization-aware training (QAT):在訓練過程就考慮量化誤差,再做微調以彌補精度損失。
---
### 3. LoRA (Low-Rank Adaptation)
* 想解決「全參數微調」需要大量 GPU 的問題。
* 核心想法:不用更新所有權重,而是 記錄權重變化,再用 矩陣分解 將大矩陣拆成兩個小矩陣,參數量大幅減少。
* 優點:
* 訓練快、需要的 GPU 記憶體少。
* 適合在資源有限的情況下針對不同任務快速微調。
---
### 4. QLoRA (Quantized LoRA)
* 是 LoRA 的強化版,結合 量化 (Quantization)。
* 先把模型從 FP16 壓到 4-bit,再用 LoRA 方式做微調。
* 這樣能在更小的記憶體下完成微調,特別適合在 Google Colab 這類有限資源的環境使用。
---
### 5. 實作流程 (以 LLaMA 2 為例)
1. 安裝套件:`transformers`、`peft` (參數高效微調)、`bitsandbytes` (量化)。
2. 準備資料集:重新格式化成 LLaMA 所需的 prompt-response 格式。
3. 設定量化與 LoRA/QLoRA 參數(例如 rank、α 值、dropout)。
4. 使用 Hugging Face 提供的 `Trainer` 或 `SFTTrainer` 來進行 supervised fine-tuning。
5. 訓練後儲存模型,並用 pipeline 測試效果。
---
### 6. 面試常見考點
* 為什麼要做 量化?(節省記憶體與加速推理)
* PTQ vs QAT 差別?
* LoRA 如何減少參數量?
* 什麼情況下需要用 更高 rank?(當模型要學習更複雜的新任務時)
---
他是在教你如何用 量化 (Quantization)、LoRA、QLoRA 等技術,讓你在硬體資源有限的情況下,也能有效率地對大型語言模型做 微調。
----
# 課程介紹
* 內容涵蓋 LLM 微調、量化與專案實作(文中提到 Cura/Laura、Llama 2、Gradient、Google Gemma)
* 兼顧理論與實作,示範以開源模型與自訂資料集進行微調
* 強調企業生成式 AI 職缺常要求微調與自訂資料能力
# 量化直覺(Quantization Intuition)

* 針對先前程式示範中的量化、LoRA、QLoRA 等作數學與理論說明
* 面試常問微調與其背後技術,系列將分別講解量化、LoRA/QLoRA
* 本段聚焦量化的定義、精度、校準與兩種量化模式(PTQ/QAT)
## 量化:定義與動機

* 從高記憶體格式轉為低記憶體格式以減少大小與計算(如 FP32→INT8 或 FP16)
* 權重與偏置以位元儲存,參數巨大的模型在 RAM/VRAM 中難以載入
* 降位後可在較小硬體上推論、更易部署於行動與邊緣裝置
* 存在資訊損失與準確率下降的代價,後續以訓練技巧彌補
## 1. 精度與資料型別(Full Precision/ Half Precision)
* FP32:1 位號誌 + 8 位指數 + 23 位尾數(單精度)
* FP16:1 位號誌 + 5 位指數 + 10 位尾數(半精度)
* INT8:無號 0–255;有號 -128–127
* 以較低位寬(如 INT8)儲存權重可明顯降低記憶體占用並加速推論
### 量化為何能加速推論
* 權重以較少位元儲存,矩陣運算與記憶體頻寬需求下降
* 在資源受限 GPU/CPU 上更容易達成可用延遲
* 行動裝置與穿戴式裝置可載入更小的模型
### How to perform quantization
* 不僅可用框架自動化,需理解手動/數學做法
* 兩種基本型式:對稱量化(symmetric)與非對稱量化(asymmetric)
### 對稱量化(Symmetric Quantization)


* 假設分布以 0 為中心,零點為 0,常以批次正規化的零中心概念對照
* 目標把實值區間映射到整數區間(例:0–1000 映射到 0–255 的無號 INT8)


* 比例因子 scale = (x\_max − x\_min)/(q\_max − q\_min);例:1000/255 ≈ 3.92
* 量化公式 q = round(x / scale);例:x = 250 → q ≈ 64

### 非對稱量化(Asymmetric Quantization)

* 分布不以 0 為中心(例:−20 到 1000),需同時估計 scale 與 zero\_point
* scale ≈ (x\_max − x\_min)/(q\_max − q\_min);例:(1000 − (−20))/255 ≈ 4.0
* zero\_point = round(−x\_min / scale);例:round(20/4.0) ≈ 5,用以將最小值對齊到整數 0
* 量化公式 q = round(x/scale + zero\_point),可套用於無號或有號整數範圍
## 2. 校準(Calibration)
* 將浮點範圍擠壓映射到目標整數範圍的過程
* 透過比例因子(scale)與零點(zero-point)把實值對應為量化值
* 校準品質直接影響量化模型的最終精度
## 3. 量化模式(Mode of Quantization)
* 兩種主要流程:PTQ(Post-Training Quantization)與 QAT(Quantization-Aware Training)
* 共同點為先做校準把浮點權重映射到整數域,再得到量化模型
### 後訓練量化(Post-Training Quantization,PTQ)

* 使用固定權重的預訓練模型,直接對權重做校準後產生量化模型
* 優點為快速、無需再訓練;缺點是資訊壓縮造成精度可能下滑
### 量化感知訓練(Quantization-Aware Training,QAT)

* 在訓練/微調過程中模擬量化效應,加入新訓練資料微調參數
* 透過反向傳播學習補償量化誤差,通常較能維持精度
* 微調工作常採用此法以降低量化帶來的效能損失
# Lora And QLORA Indepth Intuition

* 本段聚焦 LoRA 與 QLoRA 的數學直覺與實作,作為微調系列第二部
* 目的在於理解 LoRA/QLoRA 是什麼、為何需要、怎麼做
* 強調微調在 LLM 專案與面試中的重要性
## full parameter fine tuning

* 全參數微調需更新所有權重,對大型模型(如 175B)計算與記憶體成本極高
* 受限於 GPU/RAM,推論與監控等下游任務難以部署
* 為解決資源瓶頸,引入 LoRA 與 QLoRA
## What does LoRa Do?

* 凍結預訓練權重 $W_0$,只學「變化量」$\Delta W$
* 以低秩分解近似:$\Delta W \approx BA$,推論時 $W^* = W_0 + BA$
* 大矩陣改為兩個小矩陣相乘,訓練參數顯著下降
* 秩 $r$ 決定近似能力與資源開銷,$r$ 越大表達力越強但成本增加
## Number of trainable Parameters


* 與全參數微調相比,LoRA 可將可訓練參數降至數十萬~數千萬級
* 隨 $r$ 增加參數量線性上升,但仍遠低於原模型規模
* 常把 LoRA 加在注意力層的 Q/K/V 投影等線性層
* 複雜行為或高難度任務可提高 $r$;一般情況以小 $r$(如 8)即可
# Finetuning With LLama2
* 以 Llama 2-7B-Chat 為例示範在有限 GPU(如 Colab)下的微調流程
* 採參數高效微調:4-bit 量化基座 + LoRA 旁路訓練
* 以少量指令資料做示範性微調並保存 LoRA adapter
## Step 1:Install All the Required Packages
* 安裝 accelerate、PEFT、bitsandbytes、transformers、TRL
* bitsandbytes 用於量化以節省顯存(如 4-bit/8-bit)
* 透過量化讓 7B 級模型能在中階 GPU 上進行微調
## Step 2:Import All the Required Libraries
* 匯入 transformers(AutoModelForCausalLM、tokenizer 等)、PEFT、bitsandbytes、torch
* PEFT 用於設定 LoRA 組態並凍結大部分權重,只訓練小量參數
* 準備資料集載入與基礎環境設定
### in the case of Lama 2 the following prom template is used for chat model
* Llama 2 Chat 需要固定對話模板,包含 system 說明、user 提示與 model 回覆
* 訓練與推論時須依模板格式拼接輸入
### we will reformat our instruction data set to follow Lama 2 template
* 將指令資料(人類提問/助理回答)重排為 Llama 2 Chat 所需格式
* 可僅抽取約 1K 筆樣本作為示範微調
* 轉換過程確保欄位對齊並處理多語內容
### how to find tune Lama 2
* Colab 免費資源有限,7B 權重與優化器開銷使全參數微調不可行
* 採用 PEFT(含 LoRA/QLoRA)以在有限顯存完成微調
* 以量化降低基座權重精度並保留 LoRA 分支以較高精度訓練
## Step 3
* 載入 Llama 2-7B-Chat,使用約 1K 指令樣本進行示範訓練
* QLoRA 設定示例:rank $r=64$、縮放 $\alpha=16$、適度 dropout
* 基座以 4-bit 載入,LoRA 分支以 FP16/BF16 訓練
* 指定 target modules(如注意力投影)與任務型別(Causal LM)
## Step 4:load everything and start the fine-tuning process
* 載入並預處理資料集,套用 Llama 2 模板
* 設定 bitsandbytes 4-bit 量化與對應 dtype、device map
* 載入模型與 tokenizer,建立 LoRA/QLoRA 組態
* 設定訓練參數(batch、accumulation、lr、scheduler、logging 等)
* 使用 SFT Trainer 開始訓練並保存 LoRA adapter 與權重
## Step 5:Check the plots on tensor board, as follows
* 以 TensorBoard 檢視訓練過程(loss、速度、樣本處理率等)
* 保存完成後以 transformers pipeline 依模板進行生成測試
* 觀察回應品質並確認微調成效與資源使用情況
---
# 1 bit LLM Indepth Intuition
* 主題是「1-bit LLM」研究(BitNet),說明何謂 1-bit/1.58-bit 權重與其優勢
* 與 32/16-bit 模型相比在延遲、記憶體、吞吐與能耗上更具優勢
* 需具備量化與微調背景(先前已談過 quantization、LoRA/QLoRA)
## Abstrast
* 提出 1-bit LLM 變體 BitNet,所有權重採三值化 $-1, 0, 1$
* 在相同模型大小與訓練資料量下,困惑度與端到端任務表現可比全精度 Transformer
* 在延遲、記憶體占用、吞吐量與能耗上顯著更省
### Pareto Improvement
* 將浮點權重量化為三值,計算由「乘法+加法」轉為近乎僅「整數加法」
* 乘法開銷被移除或極簡化,推訓成本與 GPU 需求下降
* 在成本四維度(延遲、記憶體、吞吐、能耗)同時改善,屬帕累托優化
* 指出需配合硬體與系統層優化以發揮 1-bit 架構效益
## 1. The Era of 1-bit LLMs
* 傳統 LLM 成本高、部署與能源影響大,常用訓後量化(16→8/4-bit)緩解
* 1-bit 架構如 BitNet 的矩陣乘法可化為整數加法,受功耗上限制約時可轉化為更高速
* 權重含「0」有助特徵過濾,增強表達能力並降低無效計算
* 實驗指出自約 3B 規模起,可在任務表現上對齊全精度基線
* 權重實際平均位寬約 1.58-bit(因三值編碼與分佈)
## 2. BitNet b1.58
* 使用「absolute mean」量化函數將浮點權重映射到 $-1, 0, 1$
* 將標準 nn.Linear 替換為 BitLinear,訓練時採 1.58-bit 權重與 8-bit 活化
* 參數量與對照模型一致,但模型記憶體占用與推論延遲顯著下降
* 報告示例顯示在多個參數規模下,記憶體從全精度顯著降低且延遲更小
* 維持可比的困惑度與下游任務表現,同時提升效能與效率
---
# Finetuning with Google Gemma Models
* 主題:以 Google 開源 LLM「Gemma」實作微調與示範(文中多以「gamma」稱呼)
* 版本:2B、7B 參數規模皆可用;示範以 2B 為主
* 動機:在有限 GPU/記憶體(如 Colab)環境下完成微調與推論
## 模型概觀與表現
* 與 Llama 2(7B/13B)對比,Gemma 在多項基準測試顯示良好準確率
* 適用研究與應用場景,提供聊天/一般語言任務能力
## 取得與存取(Hugging Face)
* 於 Hugging Face 模型頁申請授權並同意條款後取得存取權
* 於設定頁建立 Access Token,於執行環境以機密變數保存與讀取
* 後續下載模型與權重需攜帶 Token 驗證
## 安裝與匯入
* 安裝:bitsandbytes、PEFT、TRL、datasets、transformers 等
* 匯入:作業系統/torch、transformers 套件、PEFT(LoRA 組態)、SFT Trainer、Gemma 專用 tokenizer
## 量化設定與載入模型
* 量化:啟用 4-bit(load\_in\_4bit=True),量化型別 NF4
* 計算精度:量化前向為 4-bit,LoRA 分支以 BF16/FP16 訓練以降低資訊損失
* 載入:使用自動 tokenizer 與自動 Causal LM 模型,device\_map 指向 GPU
## 初步生成測試
* 輸入短句測試文本生成,解碼輸出檢查模型運作與基礎品質
* 可重複生成以觀察隨機性與知識覆蓋(如名言對應作者)
## LoRA 設定
* 目標:參數高效微調(僅訓練 LoRA 旁路)
* 主要超參數:rank(示例為 8)、alpha(可設)、dropout
* 目標模組:注意力/前饋相關投影層(如 K/V、gate\_proj、up\_proj、down\_proj)
* 任務型別:Causal LM
## 資料集與重整
* 資料集:arbitrate/english\_quotes(欄位含 quote 與 author)
* 取樣少量資料作示範(train split)
* 依訓練需求產生輸入/輸出欄位(將 quote 作為輸入、author 作為期望輸出)
## 監督式微調(SFT)流程與參數
* 組合:模型、資料集、LoRA 組態、格式化函式、訓練參數
* 參數示例:batch size、gradient accumulation、warmup steps、max steps(如 100)、learning rate、FP16
* 輸出:指定目錄保存檔案與 LoRA adapter
## 推論與結果觀察
* 以訓後模型測試輸入 quote 產生對應作者
* 觀測 loss 下降與生成品質;必要時可增加訓練步數以改善效果
* 在 4-bit 量化 + LoRA 下能以中階 GPU 迅速完成示範性微調與推論
---
# Building LLm Pipelines With No code
* 目標是在不寫程式的情況下,快速組裝可用的 LLM 應用與管線
* 以單一平台集中管理模型、外部資料來源與工具,免去多處 API 金鑰與設定分散
## 平台與目標
* 平台(Vext)整合文件問答、RAG、Google/Wikipedia/ArXiv 搜尋、向量嵌入等能力
* 以單一 API 對外提供服務,簡化 LLM Ops 與部署
## 建立帳號與專案
* 註冊/登入後進入 Dashboard,至 AI Projects 建立新專案並啟用
* 專案畫面提供可視化流程編排介面
## 管線結構:Query 與 Output
* Query 為觸發事件(使用者提問)
* Output 為最終回應
* 中間以「+」新增多個步驟節點組成完整管線
## 新增資料集(RAG/文件問答)
* 新增「Search Dataset」節點以支援文件檢索與擴充生成
* 建立資料集(如 research papers)供檢索使用
## 上傳與管理來源
* 支援純文字、檔案、PDF、Google Drive、Notion、Confluence 等
* 可一次加入多個來源檔(單檔上限 5MB),集中於資料集中
## 內部處理(向量化/向量庫)
* 平台自動完成文件嵌入與向量索引建立
* 使用者無需手動配置向量資料庫或嵌入器
## 新增 LLM 產生回應
* 新增「Generate Response」節點並選擇模型(Azure OpenAI GPT-4/3.5、Anthropic Claude、Google Gemini 等)
* 設定 Purpose(系統提示)與 Behavior(補充行為說明),儲存以生效
## Playground 測試
* 在 Playground 輸入問題,流程先檢索資料集再由 LLM 根據 context 摘要與作答
* 範例以 PEFT 與「Attention is All You Need」兩篇論文測試問答
## Smart Function(外部搜尋)
* 「Execute Function」提供基礎工具;「Smart Function」可同時啟用 Google Search、ArXiv、Wikipedia
* 可移除資料集節點改以網路搜尋作為知識來源
## 輸出與 API 介接
* Output 提供 GET/POST 請求範本與端點
* 以專案的 API Key 與 channel token 發送請求取得模型回覆
## API Key 建立與使用
* 於平台產生 API Key 並保存
* 對外呼叫時於標頭附上授權金鑰與 Content-Type,依範本發送請求
## 典型請求流程
* 準備 query(使用者問題)作為 payload
* 呼叫專案端點 → 平台依管線執行(檢索/工具/模型)→ 回傳生成結果
## 連接器與擴充
* App Directory 可連結 Google Drive、Confluence、Jira、Slack、Teams 等(部分為即將推出)
* 支援自帶模型與雲端供應商(如 AWS Bedrock、Hugging Face 等)
---
# Fine tuning With Own Custom Data
* 主題:使用 Gradient AI 平台,將自有資料快速微調成自訂 LLM
* 特色:同平台涵蓋開發、微調、部署、推論,支援多語言 SDK(JavaScript、Python、Java)
## 平台概觀(Gradient AI)
* 提供雲端訓練與推論,管理基座模型、資料與微調作業
* 能建立私有 LLM,結合企業自有資料
* 文件齊全,含 Python SDK 範例與整合指引(LangChain、LlamaIndex、MongoDB 等)
## 建立帳號與工作區
* 註冊登入後建立 Workspace,取得 Workspace ID
* 於 Access Tokens 產生 Secret Access Token,後續用於 API/SDK 驗證
* 兩項關鍵:Workspace ID、Access Token
## 可用基座模型
* 介面提供多個可選基座(示例:Bloom 560、Llama 2 7B Chat、Nous Hermes 2)
* 可從 UI 建立微調,或以 Python SDK 程式化操作
## Python SDK 與環境
* 在 Colab 安裝與載入 Gradient Python SDK
* 以環境變數設定 Workspace ID 與 Access Token
* SDK 物件初始化後可取得基座模型並執行微調流程
## 建立 Model Adapter
* 先以基座模型建立一個 Model Adapter 作為微調目標
* Adapter 具唯一 ID,後續微調、推論皆針對此 Adapter 進行
* 完成後可選擇保留或刪除 Adapter
## 微調前測試(基準)
* 準備示例查詢(instruction/response 格式)
* 使用基座模型對示例查詢進行生成,作為微調前的效能對照
* 觀察生成內容是否貼近期待知識
## 準備自訂資料(格式)
* 採 instruction/response 結構描述輸入與期望輸出
* 可針對同一主題撰寫多筆不同表述,強化模型對專屬知識的對齊
* 資料以清單形式組織,供微調 API 直接讀取
## 啟動微調(核心步驟)
* 呼叫微調方法並餵入自訂樣本(samples)
* 以迭代(epochs/steps)方式執行多次微調
* 雲端任務執行快速,示範級資料量可於數分鐘內完成
## 微調後驗證
* 使用同一查詢再次生成,比對微調前後差異
* 預期生成更貼合自有資料內容與語氣
* 可視需要增加樣本或迭代次數以強化結果
## 模型與作業管理
* 於平台工作區檢視微調任務狀態與產出
* 可保留 Adapter 供後續部署與推論,或刪除以釋放資源
* 同一 Workspace 可管理多個微調模型與版本
---
# Terminology
* 微調(Fine-tuning):在既有預訓練模型上以任務資料繼續訓練,使其適應特定場景。
* 全量微調(Full Fine-tuning):更新模型全部參數,效果佳但計算與記憶體成本高。
* 參數高效微調(PEFT):僅調整少量新增參數,顯著降低訓練成本。
* 低秩適配(LoRA):以低秩矩陣插入線性層,僅訓練增量參數以逼近全量微調。
* 量化低秩適配(QLoRA):在權重量化(多為4位)下進行LoRA微調,節省記憶體且保持效能。
* 適配器(Adapter):在層與層之間加入小模組並只訓練該模組以遷移學習。
* 前綴微調(Prefix-Tuning):學習可插入注意力機制的虛擬前綴向量以控制行為。
* 提示微調(Prompt Tuning):僅學習可訓練的提示嵌入,不改動主模型參數。
* P-Tuning v2:以深層可訓練提示結合標準架構,提升長上下文任務表現。
* 監督式微調(SFT):以標註輸入輸出對進行有監督的任務訓練。
* 直接偏好最佳化(DPO):以偏好資料直接優化生成分佈,替代傳統RL步驟。
* 從人類回饋強化學習(RLHF):用人類評分訓練獎勵模型並強化策略。
* 知識蒸餾(Knowledge Distillation):以大型教師模型指導小型學生模型學習。
* 量化(Quantization):將浮點權重/活化壓縮為低位元整數以降記憶體與加速推論。
* 後訓練量化(PTQ):不再訓練主模型,僅以校準資料進行離線量化。
* 量化感知訓練(QAT):在訓練中模擬量化效應,降低量化誤差損失。
* 權重量化(Weight-only Quantization):僅量化權重,活化維持浮點以簡化部署。
* 活化量化(Activation Quantization):同時量化活化張量,進一步降低計算負擔。
* 對稱量化(Symmetric):零點固定為0,正負範圍對稱,計算簡單。
* 非對稱量化(Asymmetric):同時學習縮放與零點,能處理偏移分佈。
* 量化位元(Bit-width):單值使用的位數,位元愈少壓縮率愈高但誤差增。
* FP32(單精度):32位浮點格式,精度高但資源消耗大。
* FP16(半精度):16位浮點,減少記憶體並加速,常用於混合精度。
* BF16(bfloat16):以較大指數範圍保留數值穩定性的16位浮點。
* INT8:8位整數格式,常見推論量化標準。
* INT4:4位整數格式,壓縮更高,需精心校準以控誤差。
* 零點(Zero-point):將實值範圍平移到整數範圍的偏移量。
* 縮放因子(Scale):將實值映射到整數刻度的比例係數。
* 校準(Calibration):以少量代表性資料估計scale/zero-point以最小化誤差。
* 假量化(Fake Quantization):訓練時以浮點模擬量化/反量化以傳遞梯度。
* 觀測器(Observer):在QAT/校準中蒐集張量統計量以決定量化參數。
* 捨入策略(Rounding Mode):如Nearest/向下/隨機捨入,影響量化誤差。
* 飽和裁切(Clipping):對極端值截斷以縮小動態範圍並降低誤差。
* 量化誤差(Quantization Error):離散化導致的近似誤差,須透過校準/訓練降低。
* 訊雜比(SQNR):衡量量化後訊號品質的指標,越高代表失真越小。
* MSE校準:以最小化均方誤差選擇最佳量化範圍。
* KLD校準:以最小化KL散度匹配量化與原分佈。
* 每通道量化(Per-channel):各通道各自scale/zero-point,精度較佳。
* 每張量量化(Per-tensor):整個張量共享一組量化參數,成本較低。
* 混合精度訓練(Mixed Precision):以FP16/BF16計算並保留FP32累加穩定梯度。
* 記憶體占用(Memory Footprint):模型與中間張量佔用的總記憶體大小。
* 推論延遲(Inference Latency):輸入至輸出所需時間,量化可顯著縮短。
* KV快取(KV Cache):在解碼器儲存注意力鍵值以加速長序列推論。
* 張量核心(Tensor Cores):GPU特殊單元,對低精度矩陣乘法加速顯著。
* GEMM(通用矩陣乘法):深度學習核心運算,量化後可使用整數GEMM。
* bitsandbytes:支援4/8位量化與高效優化的常用庫。
* GPTQ:離線最小化層級誤差的權重量化方法,精度佳速度快。
* AWQ:考量活化影響的權重量化,改善下游任務表現。
* GGUF/GGML:針對CPU/邊緣裝置的輕量模型格式,便於本地推論。
* Hugging Face PEFT/TRL:常用的參數高效微調與偏好訓練工具鏈。
* 指令資料(Instruction Data):為模型撰寫的任務與步驟示例,作為監督式微調的訓練素材。
* 合成資料(Synthetic Data):由模型自動生成或改寫的訓練資料,用於擴充與覆蓋長尾案例。
* 自我指令(Self-Instruct):以種子任務自動擴展出多樣指令與解答的資料生成流程。
* 偏好資料(Preference Data):成對或排序的回應比較資料,用於偏好學習與對齊。
* 標註手冊(Annotation Guidelines):規範標註者產出一致高品質資料的操作準則。
* 去重(Deduplication):移除重複或近重複樣本,降低資料洩漏與評測偏差。
* 資料清洗(Data Cleaning):修正錯字、移除噪聲與不一致標註以提升資料品質。
* 分層抽樣(Stratified Sampling):依類別比例抽樣,確保訓練集分佈代表性。
* 長上下文長度(Context Length):模型可處理的最大詞元數,決定長文能力與記憶體需求。
* RoPE(旋轉位置嵌入):以複數旋轉編碼相對位置,改善長距離關聯建模。
* RoPE 擴展/NTK 縮放:調整 RoPE 角頻率以延長上下文而不重訓。
* ALiBi:以線性偏置取代顯式位置嵌入,提升長序列外推性。
* 多查詢注意力(MQA):共享鍵值、僅多頭化查詢以降低記憶體占用。
* 分組查詢注意力(GQA):在 MHA 與 MQA 間折衷,兼顧效率與品質。
* FlashAttention:以塊狀計算與遮罩融合的記憶體最佳化注意力實作。
* xFormers 注意力:多種高效注意力核心集合,便於替換與加速。
* PagedAttention(vLLM):以分頁化 KV 快取支援長上下文與高吞吐推論。
* 連續批次(Continuous Batching):動態合併不同請求的解碼步以提升吞吐。
* 推測式解碼(Speculative Decoding):用草稿模型預取候選,主模型快速驗證加速生成。
* 草稿模型(Draft Model):較小模型,用於推測式解碼的先行提案者。
* 典型抽樣(Typical Sampling):根據分佈熵選擇信息量「典型」的詞,平衡多樣與穩定。
* 出現懲罰(Presence Penalty):降低已出現過之主題的再次生成機率以鼓勵新穎性。
* 頻率懲罰(Frequency Penalty):依出現次數抑制重複,減少贅述。
* 限制式解碼(Constrained Decoding):施加規則使輸出符合格式或語法約束。
* 語法驅動解碼(Grammar-based Decoding):以正式文法(如 GBNF)強制合法結構輸出。
* 正則約束解碼(Regex-constrained):以正則表達式限制輸出形態與內容。
* 日誌機率(Logprobs):輸出各詞候選的對數機率,便於解釋與後處理。
* Logit 偏置(Logit Bias):對特定詞施加加權,強化或抑制其生成。
* 參數凍結(Parameter Freezing):鎖定基座權重不更新,僅訓練新增模組。
* 梯度累積(Gradient Accumulation):累積多步梯度以在小顯存達到大批次效果。
* 有效批次大小(Effective Batch Size):微批次×累積步數×裝置數的實際更新批量。
* 梯度裁剪(Gradient Clipping):限制梯度範數以避免梯度爆炸。
* 梯度檢查點(Gradient Checkpointing):以重算換顯存,僅儲存關鍵中間態。
* 學習率預熱(Warmup):訓練初期逐步提升學習率以穩定收斂。
* 餘弦退火排程(Cosine Decay Schedule):以餘弦曲線逐步衰減學習率。
* AdamW:含權重衰退分離化的 Adam 最佳化器,收斂更穩定。
* Adafactor:省記憶體的二階近似最佳化器,適合大型模型。
* Lion 最佳化器:以符號動量更新,兼顧泛化與稀疏性。
* 分詞器:BPE:以子詞合併統計建立詞彙表,兼顧開放詞彙與效率。
* 分詞器:SentencePiece:無需空白切分的子詞模型(Unigram/WordPiece)。
* 特殊詞元(BOS/EOS/PAD/UNK):標示序列開始、結束、填充與未知詞。
* RMSNorm:以均方根正規化取代均值,減少計算開銷。
* SwiGLU:帶門控的激活函數,提升表徵能力與穩定性。
* 僅解碼器架構(Decoder-only Transformer):以自回歸生成為核心的單塔結構。
* 編碼器—解碼器(Encoder–Decoder):分離理解與生成,適合翻譯/摘要。
* 張量並行(Tensor Parallelism):分割權重矩陣至多卡同算以擴大模型。
* 管線並行(Pipeline Parallelism):切分層段依序流動小批次以疊加容量。
* 全分片資料並行(FSDP):切分參數/梯度/優化器狀態以節省顯存。
* ZeRO 優化(ZeRO-1/2/3):分片與異步卸載技術,擴展可訓練規模。
* SmoothQuant:以通道縮放平滑活化離群值,降低 INT8 誤差。
* 模型權重合併(Adapter/LoRA Merge):將適配器權重烘焙回基座以便部署。
* 低秩更新(Low-rank Update):以低秩矩陣近似權重變化ΔW,降維省參數。
* 權重增量(Delta Weights, ΔW):微調時學習的權重改動,與基座權重相加。
* 凍結基座權重(Frozen Base Weights):在微調中不更新原始權重矩陣W₀。
* LoRA A/B 矩陣:兩個可訓練小矩陣A、B,其乘積BA近似ΔW。
* 秩(Rank, r):A/B 的瓶頸維度,決定可表達能力與參數量。
* 瓶頸維度(Bottleneck Dim):低秩分解中的中間維度r,控制壓縮比。
* 縮放係數(LoRA Alpha):對BA施加比例縮放,穩定訓練。
* LoRA 丟棄(LoRA Dropout):在A或B上施加dropout以提升泛化。
* 目標模組(Target Modules):選擇施加LoRA的層,如注意力與前饋投影。
* q/k/v 投影(q\_proj/k\_proj/v\_proj):注意力中的查詢/鍵/值線性層,常用LoRA。
* o\_proj(輸出投影):注意力輸出線性層,常見LoRA注入點。
* MLP 適配(MLP LoRA):在上投影/下投影層加入LoRA。
* 權重合併(Weight Merge):將ΔW併入W₀得到W\*以便單檔部署。
* 權重解併(Unmerge):從合併後權重還原為W₀與A/B以便再訓練。
* 合併推論(Merged Inference):推論前將LoRA烘焙回基座以減少運算開銷。
* 即時注入(On-the-fly Injection):推論時保留分解形式,動態加總W₀與BA。
* 近似誤差(Approximation Error):低秩分解對原ΔW的重建誤差。
* Frobenius 範數最小化:以‖ΔW−BA‖\_F 最小化來學習A/B。
* 核范數正則(Nuclear Norm):以核范數約束促進低秩解。
* SVD 初始化:用奇異值分解初始化A/B以穩定收斂。
* Kronecker LoRA:以克羅內克分解進一步減參並保型。
* AdaLoRA(自適應秩):訓練過程動態調整各層秩r分配。
* 層級秩分配(Layer-wise Rank Allocation):依層敏感度分配不同r。
* 模組選擇策略:僅對影響大的子模組施加LoRA以提效。
* 參數效率(Parameter Efficiency):在接近效能下以更少可訓練參數達成微調。
* 記憶體足跡(Memory Footprint):LoRA/QLoRA顯著降低顯存與優化器狀態。
* 優化器狀態壓縮:因可訓練參數少,Adam等狀態佔用同步下降。
* 8-bit 優化器:以bitsandbytes將優化器狀態量化降記憶體。
* 訓練精度(Compute Dtype):常用fp16/bf16計算以兼顧穩定與速度。
* QLoRA:在4位權重量化下套用LoRA,維持品質同時極省顯存。
* NF4(NormalFloat4):QLoRA使用的4位正態化浮點量化格式。
* 雙重量化(Double Quantization):再度量化縮放因子以進一步降佔用。
* 反量化計算(Dequantize-to-Compute):計算時臨時還原為高精度運算。
* bnb\_4bit\_quant\_type:設定NF4/FP4等4bit量化型別的參數。
* bnb\_4bit\_use\_double\_quant:開啟QLoRA雙重量化的開關。
* bnb\_4bit\_compute\_dtype:指定運算精度(fp16或bf16)以控穩定性。
* Paged AdamW:分頁化優化器,降低KV/狀態常駐顯存需求。
* Paged Adafactor:以分頁策略進一步節省大型微調的記憶體。
* 目標層凍結:除指定模組外其餘層完全凍結,僅訓練A/B。
* 秩搜尋(Rank Search):以驗證集掃描r找效能/成本平衡點。
* Alpha 調參(Alpha Tuning):調整縮放係數以穩定梯度與收斂。
* 正交正則(Orthogonal Regularization):促使A/B具正交性以減少干擾。
* 適配器烘焙(Adapter Bake-in):將LoRA合併後固化為新基座權重。
* 多適配器組合(Adapter Composition):同一基座按任務切換/疊加多個LoRA。
* 任務路由(Task Routing):根據輸入標記選擇對應LoRA頭。
* 分片適配器(Sharded Adapters):在多GPU上分片存放A/B以擴展規模。
* 分散式LoRA訓練:結合FSDP/ZeRO訓練低秩參數以放大批量。
* 目標模組白名單:明確列出可注入LoRA的層名稱以避免誤插。
* DoRA(Decomposed LoRA):分解權重長度與方向,改善LoRA品質。
* 偏置微調(Bias Tuning):僅訓練偏置或小量偏置向量作為極致PEFT。
* 全參數微調(Full-Parameter Fine-Tuning):更新模型全部權重,成本高。
* 部分參數微調(Partial Fine-Tuning):僅更新選定層,減少成本。
* PEFT(Parameter-Efficient Fine-Tuning):透過小參數量微調大型模型。
* Prefix Tuning:在輸入前加可訓練向量,引導模型行為。
* Prompt Tuning:學習任務專屬提示嵌入,不改權重。
* Adapter Tuning:在每層插入小模組,僅訓練其權重。
* Compacter:壓縮後的Adapter,降低參數使用。
* HyperFormer:使用超網絡自動生成適配器權重。
* Side-Tuning:凍結基座,外接一支小網路疊加。
* BitFit:僅更新偏置參數,極小微調成本。
* Soft Prompt:將提示嵌入作為可訓練參數。
* Visual Prompt Tuning:在多模態模型上加影像提示嵌入。
* 多適配器堆疊(Stacked Adapters):多個任務適配器疊加。
* 適配器融合(Adapter Fusion):合併不同適配器的知識。
* 適配器選擇(Adapter Selection):根據輸入或任務自動挑選。
* LoRA Rank Drop:在訓練中隨機丟棄秩以正則化。
* LoRA LayerNorm:將LoRA與層正規化結合。
* LoRA+Bias:同時訓練LoRA與偏置。
* LoRA-MoE:將LoRA引入專家混合(MoE)結構。
* LoRA in Attention:專注於注意力模組的秩分解。
* LoRA in FFN:應用於前饋層投影。
* Dynamic Rank Allocation:依梯度動態調整秩。
* Rank Scaling Law:研究秩大小與效能關係的經驗規律。
* 訓練樣本效率(Sample Efficiency):少樣本即可收斂的能力。
* 正則項(Regularization Term):防止過擬合的數學限制。
* 梯度凍結(Gradient Freezing):阻止非目標層更新。
* 梯度裁剪(Gradient Clipping):防止梯度爆炸。
* 梯度累積(Gradient Accumulation):模擬大批量訓練。
* 混合精度訓練(Mixed Precision Training):fp16/bf16加速與省顯存。
* 量化感知訓練(Quantization-Aware Training):在訓練中模擬量化誤差。
* 動態量化(Dynamic Quantization):推論時臨時將權重轉低位元。
* 靜態量化(Static Quantization):校準後永久存低位元。
* SmoothQuant:正規化激活與權重分佈以利量化。
* GPTQ(Quantization):逐層最小化誤差的量化方法。
* AWQ(Activation-aware Weight Quantization):激活感知權重量化。
* LLM.int8():高效8位推論方法。
* KV Cache:儲存注意力Key/Value以加速推理。
* Flash Attention:高效注意力演算法,降低記憶體佔用。
* Rope Scaling(旋轉位置編碼延伸):讓RoPE適應長上下文。
* Paged KV Cache:將KV快取分頁,處理長序列。
* Checkpoint Sharding:模型權重分片儲存與載入。
* Zero Redundancy Optimizer(ZeRO):分散優化器狀態減少佔用。
* Fully Sharded Data Parallel(FSDP):分片參數與梯度以支撐大模型。
* DeepSpeed LoRA:結合DeepSpeed與LoRA的分散訓練。
* PEFT Library(Hugging Face):支援多種參數高效微調方法。
* bitsandbytes:提供4bit/8bit量化與優化器實作。
* Transformers Trainer:Hugging Face提供的高階訓練API。
* Accelerate:HF框架用於多GPU/TPU訓練。
* Evaluate:HF工具用於計算指標如BLEU/ROUGE。
* DPO(Direct Preference Optimization):基於偏好對齊的微調技術。
* RLHF(Reinforcement Learning with Human Feedback):結合人類反饋的強化學習。
* PPO(Proximal Policy Optimization):RLHF中常用的強化學習演算法。
* 基座模型(Base Model):預訓練完成、作為下游微調起點的原始大型模型。
* 全參數微調(Full-Parameter Fine-Tuning):更新模型全部權重以適配新任務,效能佳但資源昂貴。
* 參數高效微調(PEFT):僅訓練少量新增或低秩參數,顯著降低顯存與計算成本。
* LoRA(低秩適配):以兩個小矩陣A/B近似權重變化ΔW,凍結基座權重只訓練A/B。
* QLoRA:在4位權重量化下進行LoRA微調,兼顧品質與記憶體節省。
* 秩(Rank, r):LoRA瓶頸維度,控制表達能力與可訓練參數量。
* LoRA Alpha(縮放係數):對BA乘以比例以穩定梯度與收斂。
* LoRA Dropout:在LoRA支路加入隨機丟棄,提升泛化能力。
* 目標模組(Target Modules):指定施加LoRA的線性層,如注意力與前饋投影。
* q\_proj/k\_proj/v\_proj:注意力的查詢/鍵/值投影層,常見LoRA注入點。
* o\_proj(輸出投影):注意力輸出線性層,加入LoRA可改善表達。
* 前饋投影(FFN Projections):MLP的上/下投影層,可用LoRA適配。
* 權重凍結(Freeze Weights):微調時不更新基座權重以節省資源。
* 權重增量(Delta Weights, ΔW):微調學到的權重變化,與W₀相加形成新權重。
* 權重合併(Merge Weights):將LoRA增量烘焙回基座,生成單一可部署權重。
* NF4(NormalFloat4):QLoRA常用4位正態化浮點權重格式,量化失真較低。
* FP4:4位浮點量化格式,與NF4同屬低位元權重量化方案。
* bitsandbytes(bnb):支援4/8位量化與8-bit優化器的高效庫。
* 4位量化(INT4/FP4):將權重量化為4位以極大幅度降低顯存佔用。
* 8位量化(INT8):常用推論量化位寬,折衷精度與速度。
* 雙重量化(Double Quantization):再量化縮放因子以進一步壓縮模型。
* 反量化計算(Dequantize-to-Compute):計算時暫時還原為高精度再運算。
* 監督式微調(SFT):以標註指令—回應對進行有監督訓練。
* 指令資料集(Instruction Dataset):包含任務說明與參考答案的微調資料。
* 模板化提示(Prompt Template):統一指令/系統/答案布局以匹配聊天模型格式。
* Llama 2 聊天模板:含<System>、<User>、<Assistant>區塊的對話格式規約。
* 標記器(Tokenizer):將文字拆為詞元以便模型處理與對齊權重。
* 最大序列長度(Max Seq Length):單次輸入可容納的詞元上限。
* 打包(Packing):將多樣本拼接進固定長度序列以提升利用率。
* 損失函數(Loss):衡量模型輸出與標註差異的指標,訓練最小化之。
* 交叉熵損失(Cross-Entropy):自回歸語言建模的標準損失函數。
* 學習率(Learning Rate):控制每次更新幅度的關鍵超參數。
* 最佳化器(Optimizer):計算並應用梯度更新的演算法,如AdamW。
* Paged AdamW:分頁化優化器狀態以降低顯存常駐佔用。
* 批次大小(Batch Size):每次反向傳播處理的樣本數量。
* 梯度累積(Gradient Accumulation):累積多步小批次以模擬大批次訓練。
* 混合精度(FP16/BF16):以低精度計算、FP32累加,兼顧穩定與效率。
* 梯度檢查點(Gradient Checkpointing):重算中間結果以換取顯存節省。
* 訓練日誌與可視化(TensorBoard):追蹤損失、學習率與指標變化。
* 評估步數(Evaluation Steps):固定間隔在驗證集上度量效能。
* 檢查點儲存(Checkpointing):定期保存模型狀態以便恢復與比較。
* 裝置映射(Device Map):將模型層分配到GPU/CPU以適配記憶體。
* KV 快取(KV Cache):儲存注意力鍵值以加速自回歸解碼。
* 推論延遲(Inference Latency):單次請求從輸入到輸出所需時間。
* 部署合併(Adapter Bake-in):將適配器合併後輸出單檔模型便於上線。
* 任務特化微調(Task-specific Tuning):針對特定任務(如Text2SQL)再訓練。
* 域特化微調(Domain-specific Tuning):面向特定垂直領域(金融/醫療)調適。
* 量化感知訓練(QAT):訓練中模擬量化誤差以提升量化後精度。
* 後訓練量化(PTQ):在不再訓練基座下以校準資料完成量化。
* Transformers(HF):Hugging Face模型與訓練高階API生態。
* PEFT/TRL(HF):參數高效微調與偏好訓練工具,簡化LoRA/QLoRA流程。
* 適配器並行(Adapter Parallelism):同一層掛載多個適配器並行學習,提升多任務覆蓋。
* 適配器剪枝(Adapter Pruning):移除貢獻低的LoRA/適配器通道以減少參數。
* 適配器融合平均(Adapter Averaging):多次訓練的適配器權重做均值以穩定表現。
* 適配器組合規則(Adapter Composition Rules):定義多適配器疊加、加權或選擇策略。
* DoRA(Decomposed Rank Adaptation):將權重方向與幅度分解以改善LoRA近似。
* TIES-Merging:多微調分支的權重稀疏合併,保留共同有益更新。
* 模型去汙染(Decontamination):排除與評測集重疊樣本避免洩漏。
* 資料覆蓋率(Coverage):訓練資料對目標分佈與長尾情況的涵蓋程度。
* 指令多樣性(Instruction Diversity):提升指令形式/難度/領域的變化幅度。
* 資料混洗策略(Shuffling Strategy):控制跨來源與難度分佈的批次均衡。
* 難例挖掘(Hard Example Mining):強化對模型錯誤或高損失樣本的訓練比重。
* 損失重加權(Loss Reweighting):按樣本品質或來源調整損失權重。
* 標註一致性檢查(Inter-annotator Agreement):衡量標註者一致性以控質。
* 早停(Early Stopping):監控驗證指標於耐心步數內未提升即停止訓練。
* 權重衰退(Weight Decay):L2 正則減少過擬合與權重爆炸。
* 指數移動平均(EMA):對可訓練權重做滑動平均以改善泛化。
* 檢查點平均(Checkpoint Averaging):多個相鄰檢查點權重平均以平滑解。
* 學習率循環(LR Cyclical Policies):在高低學習率間週期切換促進跳脫局部谷。
* 餘弦退火重啟(Cosine Annealing with Restarts):周期性重啟學習率以探索更佳極值。
* 損失縮放(Loss Scaling):混合精度下放大損失避免梯度下溢。
* 梯度噪聲尺度(Gradient Noise Scale):估計批量對穩定收斂的影響以調批量/學習率。
* 分層學習率(Layer-wise LR):不同層採用差異化學習率以穩定微調。
* 冷啟層(Cold Layers):剛啟用微調的層先用較小LR以防漂移。
* Prompt Loss Weighting:提升指令區段損失權重以強化遵循。
* 長度正則(Length Penalty in Training):抑制過長輸出傾向以控生成。
* 溫度退火(Temperature Annealing):訓練或教學蒸餾中逐步降低取樣溫度。
* Top-k/Top-p 排程:隨訓練進度調整解碼多樣性參數。
* 典型性取樣(Typical Decoding):以訊息熵選詞,平衡流暢與多樣。
* 限制式解碼(Constrained Decoding):以文法/正則限制輸出格式。
* RLAIF(AI 反饋強化學習):用AI評審替代人類偏好以擴充對齊資料。
* 合成對齊資料(Synthetic Preference Pairs):以自動生成的回應對建立偏好資料。
* 安全對齊檢查(Safety Eval):紅隊、毒性、PII與越權等測試集合。
* 任務專用評測(Task-specific Eval):用TruthfulQA、MMLU、BBH等衡量能力。
* 輸出可控性測試(Controllability Tests):驗證格式、關鍵詞與風格遵循率。
* 指標聚合(Metric Aggregation):多指標(精確率/覆蓋/多樣性)加權綜合。
* 推論引擎(Inference Engine):如vLLM/TGI/llama.cpp的高效部署後端。
* vLLM PagedAttention:以分頁KV快取提升吞吐與長上下文效率。
* TGI(Text Generation Inference):HF服務端框架,支援並發與流式。
* TensorRT-LLM:NVIDIA 端到端優化與內核融合以極速推論。
* OpenVINO/ONNX Runtime:CPU/異構硬體上的最佳化推論執行。
* GGUF/GGML 格式:針對CPU/邊緣裝置的量化權重格式。
* Rope Scaling/NTK-aware:調整RoPE頻率以延長上下文不重訓。
* LlamaTokenizer 特性:空白處理與特殊詞元設定需與模型對齊。
* 動態填充(Dynamic Padding):按批次最長序列對齊,降低無效計算。
* Packed Samples:將多短樣本拼入單序列提升利用率與吞吐。
* ZeRO-1/2/3:分片參數/梯度/優化器狀態的分散式訓練方案。
* FSDP 包裝策略(Auto Wrap Policy):依層大小自動決定分片邊界。
* 1F1B 排程(Pipeline 1F1B):管線並行中正反向交錯以提升利用率。
* 張量並行切分(Tensor Parallel Sharding):沿權重維度切分以多卡矩陣乘法。
* MoE 路由損失(Router z-loss):正則化路由分佈避免塌縮。
* 專家容量因子(Capacity Factor):限制MoE每批分配到單專家的樣本量。
* 日誌與實驗追蹤(W\&B/MLflow):追蹤指標、組態與檢查點以復現結果。
* 參數(Parameter):模型中可學習的權重數值,用於決定輸入與輸出之間的映射關係。
* 權重(Weight):神經網路中的核心數值,透過訓練更新以擬合資料分布。
* 偏置(Bias):在神經元輸出中額外加入的常數項,用於調整決策邊界。
* 量化(Quantization):將高精度浮點數壓縮成低精度整數以降低計算與儲存成本。
* FP32(32位浮點數):傳統模型中使用的高精度數值表示方式。
* FP16(16位浮點數):半精度浮點格式,用於降低運算量和記憶體佔用。
* INT8(8位整數):量化後常用的低精度格式,顯著減少模型大小。
* 1-bit 表示(1-bit Representation):權重僅允許三種值(-1、0、1)的極端量化方法。
* BitNet:專為 1-bit LLM 設計的模型架構。
* 1.58-bit 表示:平均每個權重所需的資訊位元數,因加入 0 而超過 1-bit。
* 推理(Inference):使用訓練好的模型對新輸入產生預測的過程。
* 微調(Fine-tuning):在預訓練模型上針對特定任務進一步訓練。
* LoRA(Low-Rank Adaptation):低秩分解方法,用於高效微調大型模型。
* QLoRA:結合量化與 LoRA 的技術,在低資源下進行模型微調。
* 前向傳播(Forward Propagation):輸入資料經過神經網路各層計算得到輸出的過程。
* 反向傳播(Backward Propagation):利用誤差梯度更新模型參數的過程。
* 矩陣乘法(Matrix Multiplication):神經網路計算的核心操作之一。
* 整數加法(Integer Addition):1-bit LLM 核心計算方式,取代浮點數乘法。
* 延遲(Latency):從輸入到輸出結果所需的時間。
* 吞吐量(Throughput):單位時間內能處理的輸入數量。
* 能耗(Energy Consumption):模型在訓練或推理過程中所消耗的電力。
* 記憶體佔用(Memory Footprint):模型所需的儲存資源大小。
* 困惑度(Perplexity):衡量語言模型預測能力的常見指標。
* 特徵過濾(Feature Filtering):利用權重為 0 達成輸入特徵的篩選。
* 絕對平均量化(Absolute Mean Quantization):將權重映射至 -1、0、1 的量化公式。
* NN.Linear:標準全連接層運算,進行權重矩陣與輸入相乘。
* BitLinear:替代傳統 Linear 的特殊運算層,適用於 1-bit 權重。
* 訓練樣本(Training Tokens):模型在訓練中使用的文字單元數量。
* 範例複雜度(Model Capacity):模型能表達與擬合的複雜程度。
* 浮點運算(Floating Point Operation, FLOPs):以浮點數進行的基本數學運算。
* 整數運算(Integer Operation):以整數進行的運算,通常比浮點更高效。
* 硬體最佳化(Hardware Optimization):針對特定計算架構調整模型計算方式。
* 資源受限環境(Resource-Constrained Environment):計算資源不足的硬體環境。
* 訓練效率(Training Efficiency):模型訓練所需時間與資源的比值。
* 壓縮比(Compression Ratio):壓縮後模型大小與原始模型大小的比例。
* 精度損失(Accuracy Loss):模型壓縮後性能下降的幅度。
* 模型大小(Model Size):模型儲存檔案的實際容量。
* 訓練從零開始(Training from Scratch):不依賴預訓練權重,直接訓練模型。
* 全精度基準(Full Precision Baseline):未經量化的完整精度模型,用於比較。
* 硬體加速器(Hardware Accelerator):如 GPU、TPU 等專用計算裝置。
* 計算瓶頸(Computation Bottleneck):限制模型運算速度的核心因素。
* 近似計算(Approximate Computing):允許小幅精度損失以換取高效能的技術。
* 二值網路(Binary Neural Network, BNN):僅允許權重為 ±1 的神經網路。
* 三值網路(Ternary Neural Network, TNN):允許權重為 -1、0、1 的網路架構。
* 節能計算(Energy-Efficient Computing):以降低能耗為目標的計算方式。
* 規模化(Scaling):將模型應用於更大或更小數據與資源情境的能力。
* 知識蒸餾(Knowledge Distillation):利用大模型訓練小模型的方法。
* 模型壓縮(Model Compression):透過量化、剪枝等方式縮小模型。
* 剪枝(Pruning):刪除不重要的權重以減少計算量。
* 激活函數(Activation Function):決定神經元輸出非線性變化的函數。
* 可擴展性(Scalability):模型在更大規模下保持效能的能力。
* 模型部署(Model Deployment):將模型放置於生產環境中以提供服務的過程。
* 稀疏化(Sparsification):將大部分權重變為零以減少計算量與記憶體需求。
* 梯度(Gradient):損失函數對權重的偏導數,用於更新參數。
* 損失函數(Loss Function):衡量模型預測與真實標籤之間誤差的函數。
* 最佳化器(Optimizer):調整模型參數以最小化損失函數的演算法。
* 學習率(Learning Rate):控制每次梯度更新幅度的超參數。
* 遷移學習(Transfer Learning):將一個任務上學到的知識應用到新任務。
* 梯度裁剪(Gradient Clipping):限制梯度值大小以避免梯度爆炸。
* 梯度消失(Vanishing Gradient):深層網路中梯度逐漸趨近零導致學習停滯的問題。
* 激活值(Activation Value):神經元經激活函數後的輸出。
* 正規化(Regularization):防止過擬合的技巧,如 L1 或 L2。
* 批正規化(Batch Normalization):在小批次資料上標準化輸入以加快收斂。
* 層正規化(Layer Normalization):對每層輸入進行標準化的技巧。
* 權重初始化(Weight Initialization):設定模型初始權重的方法。
* 殘差連接(Residual Connection):將輸入直接加到輸出以避免梯度消失。
* 自注意力(Self-Attention):Transformer 模型的核心機制,用於建模序列中任意位置的關係。
* 注意力頭(Attention Head):多頭注意力機制中獨立計算注意力的部分。
* 多頭注意力(Multi-Head Attention):並行多組注意力計算以捕捉不同特徵。
* 前饋層(Feed-Forward Layer):Transformer 中的全連接神經網路子層。
* 位置編碼(Positional Encoding):在序列模型中加入位置信息的方法。
* 層數深度(Depth of Layers):模型包含的隱藏層數量。
* 隱藏單元(Hidden Unit):隱藏層中的神經元數量。
* 批次大小(Batch Size):每次更新參數所處理的樣本數量。
* 訓練週期(Epoch):完整使用一次訓練資料的過程。
* 小批次(Mini-Batch):將大資料集分割成小部分進行訓練。
* 過擬合(Overfitting):模型在訓練資料表現良好但在測試資料表現差的現象。
* 欠擬合(Underfitting):模型無法有效學習訓練資料的模式。
* 泛化能力(Generalization):模型在未見資料上仍表現良好的能力。
* 梯度下降(Gradient Descent):透過梯度更新權重的核心演算法。
* 隨機梯度下降(Stochastic Gradient Descent, SGD):隨機取樣更新權重的梯度下降方法。
* Adam 優化器(Adam Optimizer):自適應學習率的最佳化演算法。
* RMSProp:透過平方梯度平均調整學習率的最佳化器。
* 捨棄法(Dropout):隨機丟棄神經元以防止過擬合。
* 注意力遮罩(Attention Mask):限制注意力機制只關注特定位置。
* 預訓練(Pre-training):在大規模資料上進行初始訓練以學習通用表示。
* 微調資料集(Fine-tuning Dataset):針對特定任務的小型資料集。
* 任務特化(Task-Specific Adaptation):調整模型以應用於特定應用場景。
* 零樣本學習(Zero-Shot Learning):在未見過的任務上直接應用模型。
* 少樣本學習(Few-Shot Learning):在少量範例下快速適應新任務。
* 上下文學習(In-Context Learning):模型僅依靠輸入提示中的範例進行推理。
* 指令微調(Instruction Tuning):透過指令樣本微調模型以提升指令理解能力。
* RLHF(Reinforcement Learning with Human Feedback):結合人類回饋的強化學習訓練。
* 對齊(Alignment):讓模型的行為符合人類價值與需求。
* 記憶體頻寬(Memory Bandwidth):資料在記憶體與處理器之間傳輸的速率。
* 硬體親和性(Hardware Affinity):模型運算與硬體架構的匹配程度。
* SIMD(Single Instruction, Multiple Data):處理器一次操作多筆資料的技術。
* 矩陣分解(Matrix Decomposition):將矩陣分解以降低計算成本的方法。
* 動態範圍(Dynamic Range):數值表示可涵蓋的範圍大小。
* 參數共享(Parameter Sharing):在模型中重複使用相同參數以減少計算。
* 知識壓縮(Knowledge Compression):透過壓縮模型保留知識的過程。
* GPU 計算核心(CUDA Core):NVIDIA GPU 上的基礎計算單元。
* TPU 張量核心(Tensor Core):Google TPU 上專為矩陣運算優化的核心。
* Gemma:Google 釋出的開放權重大型語言模型系列,支援研究與微調使用。
* Gemma 2B:擁有約 20 億參數的輕量版本,適合在單張 GPU 上進行微調與推理。
* Gemma 7B:約 70 億參數的中型版本,提供更高表現但需較多資源。
* 開放權重(Open-Weights):提供已訓練權重供下載與微調,但可能附帶特定使用條款。
* 使用授權條款(License/Terms):存取與使用模型前須同意的法律條款與限制。
* Hugging Face 存取權杖(Access Token):存取受限模型與資料集時使用的認證憑證。
* Transformers 函式庫:Hugging Face 提供的 NLP/LLM 標準工具集,用於載入模型、訓練與推理。
* AutoTokenizer:根據模型名稱自動載入相容分詞器的工具。
* AutoModelForCausalLM:載入自迴歸語言模型以進行文本生成與微調的介面。
* 監督式微調(SFT):以「輸入→期望輸出」配對資料直接最小化損失的微調方法。
* TRL:Transformers Reinforcement Learning 套件,亦提供 SFTTrainer 等訓練工具。
* SFTTrainer:簡化 SFT 設定與訓練流程的高階訓練器。
* bitsandbytes(bnb):支援 8/4 位元量化與高效權重載入的加速庫。
* 4-bit 量化:將權重以 4 位元表示以降低記憶體佔用並加速訓練/推理。
* NF4(NormalFloat4):針對 4 位元權重量化的分佈對應策略,改善精度保持。
* bfloat16(BF16):16 位元浮點格式,兼顧動態範圍與效能,常作為計算精度。
* BitsAndBytesConfig:設定 bnb 量化行為(如 load\_in\_4bit、quant\_type、compute\_dtype)的物件。
* LoRA(Low-Rank Adaptation):於低秩子空間訓練少量參數以達成高效微調的技術。
* QLoRA:在 4-bit 量化基座上套用 LoRA,進一步降低記憶體需求的微調流程。
* 秩(Rank, r):LoRA 低秩分解的維度,影響可學習能力與顯存開銷。
* 目標模組(Target Modules):指定套用 LoRA 的權重張量(如 q\_proj、k\_proj、v\_proj、o\_proj 等)。
* 裝置映射(device\_map):定義模型層如何分配到可用裝置(GPU/CPU)。
* CUDA:NVIDIA GPU 上進行加速運算的平行計算平台。
* 分詞(Tokenization):將文本轉換為模型可處理的 token 序列之過程。
* 最大新標記數(max\_new\_tokens):生成時允許模型輸出的最大 token 數。
* 溫度(Temperature):調整取樣隨機性的參數,越高越具多樣性。
* Top-k 取樣:僅於最高機率的 k 個 token 中進行隨機取樣。
* Top-p(核取樣):在累積機率達到 p 的候選集合內進行取樣。
* 注意力遮罩(Attention Mask):指示模型在序列中應關注或忽略的位置。
* 輸入 ID(Input IDs):分詞後的整數化 token 序列,作為模型輸入。
* Datasets 函式庫:Hugging Face 的資料集載入與處理工具。
* 資料切分(Train/Test Split):將資料集分為訓練與評估部分的流程。
* 批次大小(per\_device\_train\_batch\_size):每個裝置在單步訓練時處理的樣本數。
* 梯度累積(gradient\_accumulation\_steps):累積多步梯度後再進行一次參數更新。
* 預熱步數(warmup\_steps):逐步提升學習率以穩定早期訓練。
* 學習率(learning\_rate):控制每次參數更新幅度的核心超參數。
* 最大步數(max\_steps):訓練總步數上限,便於快速實驗與資源控制。
* 混合精度訓練(fp16/BF16):以半精度計算降低顯存佔用並提升吞吐量。
* 檢查點(Checkpoint):保存模型與訓練狀態,便於中斷續練與回滾。
* 模型卡(Model Card):描述模型訓練資料、預期用途與限制的文件。
* 文本生成(generate):呼叫模型進行自動續寫或問答輸出的 API。
* 跳過特殊標記(skip\_special\_tokens):解碼時移除 BOS/EOS 等控制標記。
* 快取目錄(HF Cache):本地快取已下載的模型與資料以加速重複使用。
* 凍結基座權重(Freeze Base):只訓練 LoRA/適配層,基礎權重保持不變。
* PEFT(參數效率微調):總稱只調整少量參數以達成微調的技術族群。
* 評估指標(Evaluation Metrics):用於衡量微調成效的量化指標(如困惑度)。
* 損失曲線(Loss Curve):隨訓練步數變化的損失趨勢,用於監控收斂。
* 訓練日誌(Trainer Logs):自動記錄訓練過程的超參數、指標與時間。
* 推理部署(Inference Serving):將微調後模型包裝成 API/服務供應用端呼叫。
* 隨機種子(Seed):固定隨機性以利實驗可重現與結果對齊。
* Prompt 工程(Prompt Engineering):設計輸入提示以誘導模型產生期望輸出的技術。
* Few-shot 提示(Few-shot Prompting):在提示中加入少量範例以引導模型完成任務。
* Zero-shot 提示(Zero-shot Prompting):不提供範例,僅靠指令讓模型完成任務。
* In-context Learning(上下文學習):模型僅依靠提示內提供的資訊進行臨時學習。
* 指令調優(Instruction Tuning):以大量「指令-回應」資料對模型進行微調。
* RLHF(Reinforcement Learning from Human Feedback):利用人類偏好訊號進行強化學習以對齊模型行為。
* Alignment(模型對齊):使模型輸出符合人類價值觀與使用需求的過程。
* Eval 基準(Benchmark Evaluation):使用標準化測試集比較不同模型表現。
* MMLU(Massive Multitask Language Understanding):常見語言模型基準測試集合。
* TruthfulQA:評估模型在問答中真實性與正確性的基準。
* HellaSwag:測試模型在常識推理任務上的基準。
* ARC(AI2 Reasoning Challenge):檢驗模型科學推理能力的基準數據集。
* GSM8K:用於數學文字題推理能力的標準基準。
* BLEU 分數:機器翻譯與文本生成中用於比較輸出與參考答案相似度的指標。
* ROUGE 分數:評估摘要任務的常用指標。
* perplexity(困惑度):語言模型在序列預測中對資料集的擬合程度。
* Checkpoint Averaging:對多個訓練檢查點取平均以平滑性能。
* Early Stopping(提早停止):當驗證集表現不再提升時停止訓練以避免過擬合。
* Cross-Entropy 損失:常見的分類與語言模型損失函數。
* Token 限制(Context Window):模型能同時處理的最大 token 數量。
* KV Cache(Key-Value Cache):推理時儲存注意力計算結果以加速長序列生成。
* Streaming 生成(Streaming Generation):即時逐字輸出模型生成結果。
* 混合專家模型(Mixture of Experts, MoE):僅啟用部分專家子網路以提升效率。
* 分布式訓練(Distributed Training):在多 GPU 或多機環境中平行訓練模型。
* 資料並行(Data Parallelism):將資料分片並行分配到多個裝置訓練。
* 模型並行(Model Parallelism):將模型分層或分塊分配到多裝置運算。
* 張量並行(Tensor Parallelism):將矩陣運算拆分並行處理以加速計算。
* 檢索增強生成(RAG):結合外部文件檢索與生成模型回答問題。
* 向量資料庫(Vector Database):儲存並檢索文本向量嵌入以支援語意搜尋。
* Embedding(嵌入向量):將文字或符號轉換為連續向量空間的表示方式。
* 檢索器(Retriever):從外部知識庫中找出與查詢最相關的資料模組。
* 解碼策略(Decoding Strategy):控制生成文本品質與多樣性的演算法集合。
* Greedy Decoding(貪婪解碼):每步選取最高機率的 token。
* Beam Search:同時保留多條候選序列以尋找最佳生成結果。
* Contrastive Decoding:利用對比分數過濾低質輸出以提升生成品質。
* Temperature Scaling:透過調整 softmax 溫度控制輸出隨機性。
* Data Collator:將樣本批次化並轉換為訓練所需張量的工具。
* Attention Dropout:在注意力權重上隨機丟棄部分連結以防止過擬合。
* FlashAttention:高效注意力計算演算法,降低記憶體與時間消耗。
* Rotary Position Embedding(RoPE):透過旋轉矩陣方式編碼位置資訊。
* ALiBi(Attention with Linear Biases):線性偏移式位置編碼,支援長序列外推。
* 跨層共享(Layer Sharing):多層 Transformer 共用相同參數以降低模型大小。
* 檢查點合併(Checkpoint Merge):將多個 LoRA 或微調結果融合回基座模型。
* 模型壓縮(Model Compression):包含量化、剪枝與知識蒸餾的泛稱。
* 剪枝(Pruning):刪除冗餘權重或神經元以減少模型規模。
* 知識蒸餾(Knowledge Distillation):利用大模型訓練小模型模仿其輸出。
* Prompt-tuning:只調整提示向量而非全部模型參數的微調方法。
* Adapter-tuning:在模型層插入輕量適配器模組並僅訓練該部分。
* Prefix-tuning:學習序列前綴向量以引導模型生成。
* P-Tuning v2:改進版 prefix-tuning,支援更強泛化與多樣任務。
* 記憶高效微調(Memory-Efficient Finetuning):利用量化與 LoRA 等技術降低顯存需求。
* Streaming Dataset:邊下載邊訓練的大規模資料處理方法。
* Checkpoint Sharding:將模型檢查點分割存放以便在分布式訓練下載入。
* Model Hub:集中存放與分享預訓練模型的平台,如 Hugging Face Hub。
* 無程式開發(No-code):以拖拉元件與表單設定取代手寫程式,快速打造應用與流程。
* 低程式開發(Low-code):少量程式碼搭配視覺化編排,兼顧彈性與開發效率。
* 視覺化流程編排(Visual Orchestration):以畫布連接節點形成資料與控制流程的圖形化設計。
* 節點(Node):流程中的功能單元,如「查詢資料庫」「呼叫 LLM」「檢索文件」。
* 邊(Edge):串接節點的連線,定義資料與控制流的走向。
* 事件觸發(Trigger):啟動流程的事件來源,如 HTTP 請求、排程、Webhook。
* Webhook:外部系統以 HTTP 回呼通知事件,觸發管線執行。
* API 金鑰(API Key):調用外部服務的憑證字串,需妥善保護與輪替。
* 環境變數(Environment Variable):以變數方式注入密鑰與設定,避免硬編碼。
* 連接器(Connector):與外部系統(搜尋、雲端硬碟、CRM、DB)溝通的可重用介面。
* 資料來源(Data Source):流程可讀取的原始內容,如檔案、URL、知識庫。
* 資料攝取(Ingestion):將外部資料導入系統並建立索引或向量的過程。
* 文字分塊(Chunking):將長文切成較短的片段,以利嵌入與檢索。
* 向量化(Vectorization):把文本轉為高維向量表示以支援語意檢索。
* 嵌入模型(Embedding Model):產生語意向量的模型,影響檢索品質與成本。
* 向量資料庫(Vector Database):儲存與查詢向量的資料庫(如 FAISS、Pinecone、Chroma)。
* 相似度搜尋(Similarity Search):以向量距離找到與查詢最相近的文本片段。
* 檢索增強生成(RAG):先檢索相關內容,再將其餵給 LLM 生成更準確回覆。
* 檢索器(Retriever):封裝檢索邏輯的組件,輸入查詢輸出相關片段。
* 重排序(Reranking):用更強模型對初步檢索結果重排,提升相關性。
* 提示模板(Prompt Template):含佔位符的提示字串,將上下文與指令格式化注入。
* 系統提示(System Prompt):為模型設定角色與行為規則的上層指令。
* 角色指令(Role Instruction):針對不同任務角色(助理、工具、使用者)定義的提示。
* 工具調用(Function/Tool Calling):模型結構化輸出函式參數,由系統執行外部工具。
* 搜尋代理(Search Agent):能自動規劃與迭代搜尋/檢索步驟的智能代理。
* 記憶體模組(Memory Module):保存對話歷史或長期事實以供後續輪次引用。
* 對話狀態(Conversation State):對話中的暫存資料,如使用者目標、先前答案。
* 管道(Pipeline):由多個步驟組成的處理鏈,定義資料從輸入到輸出的全流程。
* 工作流引擎(Workflow Engine):負責排程、依賴與容錯的流程執行核心。
* 併發/並行(Concurrency/Parallelism):同時執行多個步驟或請求以提高吞吐。
* 重試策略(Retry Policy):失敗時按次數與退避時間自動重試以提高可靠性。
* 超時控制(Timeout):限制步驟最長執行時間,避免資源被長佔。
* 速率限制(Rate Limiting):限制每秒/每分鐘呼叫次數,防止爆量與封鎖。
* 觀測性(Observability):藉由日誌、追蹤、指標了解系統健康與瓶頸。
* 分散式追蹤(Distributed Tracing):跨節點標記請求路徑,定位延遲來源。
* 指標監控(Metrics):收集 QPS、延遲、錯誤率、成本等可量測指標。
* 提示評測(Prompt Evaluation):離線或線上評估提示設計的品質與穩定性。
* A/B 測試:同時運行多版本流程/提示/模型以比較效果。
* 成本估算(Cost Estimation):預估每請求的 token/計費,協助控管預算。
* 延遲剖析(Latency Profiling):量測各步驟耗時,找出最慢段落並優化。
* 快取(Caching):重複查詢與生成結果緩存,降低成本與延遲。
* 結果去重(Deduplication):移除重複檢索片段或答案,提升可讀性。
* 上下文管理(Context Management):控制注入模型的片段數量與長度以避免溢出。
* 安全護欄(Safety Guardrails):在輸出前過濾敏感/違規內容或遮蔽機密。
* 紅隊測試(Red Teaming):以對抗性測試檢驗安全與魯棒性。
* 憑證保管(Secrets Vault):集中加密保存 API 金鑰與密碼的服務。
* 權限最小化(Least Privilege):只授與所需最低權限,降低憑證外洩風險。
* 多租戶(Multi-tenancy):同平台隔離多客戶/專案的資料與資源。
* 版本控管(Versioning):對流程、提示、設定與模型版本化,支援回滾。
* 部署端點(Inference Endpoint):對外提供 HTTP/WS 介面的可擴展推理服務。
* 編排(Orchestration):將多個 LLM、工具與資料源組合成完整應用的過程。
* Chain(鏈):一系列順序執行的步驟,每一步使用前一步的輸出。
* Agent(智能代理):能根據任務動態選擇工具、規劃步驟的 LLM 應用模式。
* ReAct(Reason + Act):結合推理與動作的代理框架,常用於工具呼叫。
* Toolformer:Meta 提出的讓模型自學工具使用的方法。
* Guardrails AI:一種加在 LLM 輸入輸出上的約束框架,確保安全與合規。
* JSON Schema 驗證:以結構化格式限制模型輸出符合特定欄位/型別。
* Few-shot Chain-of-Thought:在提示中給出少量逐步推理範例以強化邏輯。
* Self-consistency 解碼:生成多條推理路徑並投票選出最一致答案。
* Function Calling(函式調用):讓模型直接輸出函式參數,由系統執行後回填結果。
* Multi-modal Pipeline(多模態管線):同時處理文字、影像、音訊等多模態輸入輸出。
* OCR(Optical Character Recognition):影像轉文字技術,常作為文件 Q\&A 前處理。
* Speech-to-Text(STT):語音輸入轉成文字以供 LLM 使用。
* Text-to-Speech(TTS):將 LLM 生成的文字回覆轉換成語音。
* Workflow Template(流程範本):可重用的預設管線結構,加速專案啟動。
* Multi-turn Dialogue(多輪對話):LLM 保持上下文狀態以支援持續互動。
* Context Window 管理:控制能送進模型的最大 token 數。
* Sliding Window 技術:用於長文本處理的窗口滑動策略。
* Chunk Overlap(分塊重疊):切分文本時保留部分上下文以減少資訊斷裂。
* Streaming Response:LLM 逐 token 輸出,前端可即時顯示。
* Rate Limiter:限制 API 請求速率的中介模組。
* Queue(佇列):排隊執行大量請求,避免超載。
* Circuit Breaker(斷路器):在外部服務異常時暫停呼叫以防雪崩效應。
* Retries with Backoff(退避重試):每次失敗後以遞增等待時間重試。
* API Gateway:集中處理驗證、速率限制、路由的請求入口。
* Observability Stack:包含日誌、監控、追蹤的整體可觀測性工具組。
* Token Usage Tracking:記錄並統計 LLM 的 token 消耗。
* Cost Dashboard:提供即時成本分析與警報。
* Synthetic Data Generation:利用 LLM 生成額外訓練資料。
* Data Augmentation:透過改寫、翻譯、同義詞替換增加樣本多樣性。
* Evaluation Harness:一組自動化腳本測試模型/管線的品質。
* Human-in-the-loop(HITL):讓人工介入模型輸出以修正或標記。
* Active Learning:模型選出最具不確定性的樣本交由人類標註。
* Safety Classifier:在輸出前利用分類器檢測不當內容。
* Content Moderation API:檢測暴力、仇恨、敏感資訊的外部 API。
* Prompt Injection 攻擊:惡意輸入覆蓋原有指令,誘導模型外洩或越權。
* Data Leakage 風險:模型可能輸出訓練中出現的敏感資訊。
* Synthetic Monitoring:自動腳本定期測試 API 與輸出品質。
* Canary Deployment(金絲雀部署):新版本先給小部分流量測試。
* Rollback(回滾):在錯誤時迅速切回舊版本。
* SLA(Service Level Agreement):服務等級協議,規範可用性與響應時間。
* Latency SLO:針對延遲的服務目標,確保體驗穩定。
* Cloud-native Pipeline:利用雲端服務(如 AWS、GCP、Azure)構建可擴展流程。
* Serverless Function:事件驅動的輕量運算單元,用於 API 延伸。
* Containerization(容器化):將流程元件封裝於 Docker/Kubernetes 中部署。
* Horizontal Scaling(水平擴展):增加節點數量以處理更多請求。
* Vertical Scaling(垂直擴展):提升單節點硬體資源以增加處理能力。
* Multi-cloud Strategy:同時部署於多個雲供應商,提升彈性。
* Edge Deployment(邊緣部署):將推理服務放在靠近使用者的節點以減少延遲。
* Hybrid Pipeline:結合雲端與本地端元件的混合架構。
* BYOM(Bring Your Own Model):用戶可上傳自有模型至平台運行。
* Model Registry:集中管理與版本控管模型的元資料庫。
* API-first 設計:所有功能皆透過 API 對外暴露,方便整合。
* 自定義資料(Custom Data):針對特定領域或公司知識整理的專屬訓練語料,用於讓模型學會專業表達與風格。
* 指令—回應格式(Instruction–Response):將每筆樣本寫成「instruction」「response」鍵值對,便於監督式微調。
* 資料標註(Annotation):為原始文本補上目標輸出或標籤,使其可用於監督學習。
* 資料清洗(Data Cleaning):移除雜訊、錯字、HTML 標籤與格式錯亂,確保訓練品質。
* 資料去重(Deduplication):刪除重複樣本,避免過擬合與評測失真。
* 資料切分(Data Split):依比例分成訓練/驗證/測試集,保證泛化與客觀評估。
* 工作空間(Workspace):雲端平台中的資源邏輯邊界,包含模型、資料與金鑰。
* 工作空間 ID(Workspace ID):用於 API 與 SDK 鎖定目標工作空間的唯一識別碼。
* 存取權杖(Access Token):呼叫平台 API/SDK 的憑證,須妥善保管與定期輪替。
* SDK(軟體開發套件):封裝平台能力的程式庫,簡化登入、訓練與推理流程。
* Python SDK:以 Python 調用平台功能的套件,方便在 Colab/Notebook 實驗。
* 基座模型(Base Model):微調所依據的預訓練模型,如 Llama、Mistral、BLOOM 等。
* 模型別名/Slug(Model Slug):在平台或 API 中定位特定基座模型的短名稱。
* 模型適配器(Model Adapter):在基座上附加的可訓練層或權重分支,便於快速微調與版本化。
* 參數效率微調(PEFT):只訓練少量附加參數(如 LoRA),大幅降低顯存與成本。
* LoRA(Low-Rank Adaptation):以低秩分解擴充線性層,訓練少量參數達成遷移。
* QLoRA:在 4-bit 量化基座上套用 LoRA,進一步壓低資源需求。
* 迭代/訓練週期(Epoch):完整走訪一遍訓練集的次數,常與早停機制搭配。
* 批次大小(Batch Size):每步權重更新所處理的樣本數,影響穩定性與吞吐。
* 梯度累積(Gradient Accumulation):多步累積梯度再更新,等效放大批次而不爆顯存。
* 學習率(Learning Rate):控制參數更新幅度的超參數,過大易發散、過小易停滯。
* 學習率排程(LR Scheduler):隨訓練進程動態調整學習率(如線性遞減、餘弦)。
* 提前停止(Early Stopping):驗證指標不再提升即終止訓練,防止過擬合。
* 損失函數(Loss Function):衡量預測與真值差距的函數,SFT 常用交叉熵。
* 監督式微調(SFT):以(指令,標準答案)對進行有教師信號的微調方法。
* 提示模板(Prompt Template):帶佔位符的輸入格式,統一樣本樣式與系統規則。
* 系統訊息(System Prompt):描述助理角色與邊界,穩定輸出風格與安全行為。
* 上下文長度(Context Window):模型可同時處理的最大 token 數,影響檢索與提示設計。
* 最大新標記數(Max New Tokens):生成階段允許輸出的 token 上限,防止失控冗長。
* 生成 API(Completion/Generate):對外推理端點,輸入提示輸出模型續寫。
* 檢查點(Checkpoint):定期保存權重與訓練狀態,支援中斷續練與回滾。
* 模型版本(Model Versioning):為不同微調結果建立可追溯版本,便於測試與發布。
* 作業(Training Job):在平台上啟動的一次訓練任務,含狀態、日誌與資源配置。
* 佇列與排程(Queue & Scheduler):多任務排隊與資源分配機制,確保公平與穩定。
* 訓練日誌(Training Logs):記錄損失/指標/錯誤,支援除錯與觀測性。
* 事件回呼(Callback/Webhook):在特定里程碑(開始/完成/失敗)通知外部系統。
* 成本追蹤(Cost Tracking):統計訓練與推理花費,便於預算控管與優化。
* 指標儀表板(Metrics Dashboard):可視化延遲、吞吐、錯誤率與 PPL 等指標。
* 部署端點(Inference Endpoint):將微調模型封裝為可水平擴展的 HTTP/WS 服務。
* Bring Your Own Data(BYOD):使用者上傳內部文件與知識,打造專屬能力。
* 金鑰輪替(Key Rotation):定期更新 API 金鑰,降低憑證外洩風險。
* 權限最小化(Least Privilege):僅給必要權限,限制工作空間與資料存取範圍。
* 機密管理(Secrets Vault):集中加密保存權杖與密碼,統一存取與稽核。
* 速率限制(Rate Limiting):限制每秒請求數,保護服務穩定與成本。
* 錯誤處理/重試(Retry with Backoff):失敗自動重試並退避,提升健壯性。
* 效能剖析(Profiling):量測瓶頸(資料讀取、前處理、前向/反向)並針對優化。
* 數據治理(Data Governance):規範來源、血緣、版控與存取審計,確保可追溯。
* 隱私與合規(PII/Compliance):處理個資與敏感內容時遵循法規與遮罩策略。
* RAG 整合(Retrieval-Augmented Generation):微調外,也可結合檢索以降低幻覺。
* 線上評測/AB 測試(Online Evaluation):多版本同時上線對比品質、成本與轉換率。
* 推理快取(Inference Cache):重複查詢直接回應快取結果,降低延遲與花費。
* Few-shot 微調(Few-shot Fine-tuning):只需少量標註樣本即可讓模型學習特定任務。
* Zero-shot 泛化(Zero-shot Generalization):未經微調也能處理新任務,常作為微調對照。
* 指令微調(Instruction Tuning):讓模型學會遵循自然語言指令輸出預期格式。
* 多任務微調(Multi-task Fine-tuning):同時在多種任務資料上訓練,提升泛化能力。
* 多輪對話微調(Dialogue Fine-tuning):針對聊天場景的上下文連貫性訓練。
* 知識蒸餾(Knowledge Distillation):將大型模型知識壓縮轉移至小型模型。
* 蒸餾學生模型(Student Model):透過模仿教師模型學習分布的小模型。
* 教師模型(Teacher Model):提供輸出分布與中間層特徵的基座模型。
* 指標函數(Metric Function):衡量輸出品質的計算方式,如 BLEU、ROUGE、F1。
* 困惑度(Perplexity, PPL):衡量語言模型預測分布不確定性的標準。
* BLEU 分數(Bilingual Evaluation Understudy):翻譯/生成品質評估指標。
* ROUGE 分數(Recall-Oriented Understudy for Gisting Evaluation):摘要與生成品質衡量。
* F1 分數(F1 Score):分類/序列標註的精確率與召回率調和平均。
* Macro vs Micro Averaging:多類別指標計算方式,Macro 均等權重,Micro 加權總體。
* Cross-validation(交叉驗證):多折分割數據重複訓練,檢驗穩定性。
* 遷移學習(Transfer Learning):將一任務學到的知識應用於另一任務。
* 多語言微調(Multilingual Fine-tuning):在多語言語料上調整,提升跨語言表現。
* 分層學習率(Layer-wise Learning Rate Decay):淺層低 LR,深層高 LR。
* 混合精度訓練(Mixed Precision Training):結合 FP16/FP32 計算,加速並節省顯存。
* 梯度裁剪(Gradient Clipping):限制梯度範圍,避免梯度爆炸。
* 權重凍結(Weight Freezing):固定部分參數不更新,專注於新層微調。
* Prompt-tuning:在輸入前附加可訓練提示向量,不改動主模型。
* Prefix-tuning:只訓練加在注意力前綴的參數,高效低成本。
* Adapter-tuning:在每層插入小型瓶頸模塊,僅訓練此部分。
* 模型壓縮(Model Compression):縮小模型以便於邊緣或低資源部署。
* 知識剪枝(Pruning):刪除冗餘權重或節點以減小模型。
* 量化感知訓練(QAT, Quantization Aware Training):在訓練過程中模擬低位元操作。
* 動態量化(Dynamic Quantization):推理階段才將權重轉換為低位元。
* 靜態量化(Static Quantization):需蒐集校正數據,提前映射到低位元表示。
* 混合專家模型(Mixture of Experts, MoE):不同專家子網路負責不同樣本或 token。
* 路由機制(Routing Mechanism):MoE 中選擇哪些專家參與推理的規則。
* 正則化(Regularization):如 L2、Dropout,用於防止過擬合。
* Dropout:隨機屏蔽神經元,提升泛化能力。
* Label Smoothing:在目標分布上加平滑,避免過度自信。
* Temperature Scaling(溫度縮放):控制 softmax 輸出分布平滑度。
* Beam Search:在生成任務中保留多路候選,提升序列品質。
* Top-k 抽樣:僅從機率最高的 k 個 token 中隨機取樣。
* Top-p 抽樣(Nucleus Sampling):在累積機率 p 內的 token 中隨機取樣。
* Repetition Penalty:降低模型重複生成相同序列的傾向。
* 停用詞過濾(Stop-word Filtering):防止輸出無意義或冗餘的詞彙。
* 線上學習(Online Learning):模型隨著新數據持續更新。
* 增量學習(Incremental Learning):逐步擴充知識而不忘舊任務。
* 避免災難性遺忘(Catastrophic Forgetting):設計策略讓模型保留舊知識。
* 知識混合(Knowledge Fusion):將來自不同資料源的知識整合進模型。
* 知識更新(Knowledge Refresh):週期性重新微調以引入最新知識。
* 專領域語料(Domain-specific Corpus):如法律、醫療、金融領域資料。
* Few-shot Prompting:在推理時給少量示例,模擬小樣本學習。
* In-context Learning(上下文學習):模型僅憑提示內資訊完成任務。