[Youtube] freeCodeCamp.org - Fine Tuning LLM Models

# 大綱主要在講大型語言模型（LLM）的微調與量化技巧。講者一步一步解釋了理論背景、數學直覺，以及如何在實務上用 Hugging Face、LLaMA 2、Google Gemma 等模型來做 fine-tuning。以下是重點摘要： --- ### 1. 微調 (Fine-tuning) 的必要性 * 在企業裡，生成式 AI 工程師很常需要用自訂資料集去微調大型模型。 * 微調可以分成： * 全參數微調 (Full parameter fine-tuning)：更新模型所有權重，但非常耗資源。 * 領域專屬微調 (Domain-specific fine-tuning)：針對金融、醫療、客服等領域資料調整。 * 任務導向微調 (Task-specific fine-tuning)：例如做 SQL 查詢、文件問答等特定任務。 --- ### 2. 量化 (Quantization) * 定義：把模型的數值表示從高記憶體格式 (如 FP32) 降到低記憶體格式 (如 INT8)。 * 目的：降低運算與記憶體需求，使模型能在一般 GPU、甚至手機、手錶等 Edge 裝置上執行。 * 缺點：會有部分資訊遺失，造成準確率下降。 * 技術： * Post-training quantization (PTQ)：在模型訓練完後再量化，簡單但容易掉精度。 * Quantization-aware training (QAT)：在訓練過程就考慮量化誤差，再做微調以彌補精度損失。 --- ### 3. LoRA (Low-Rank Adaptation) * 想解決「全參數微調」需要大量 GPU 的問題。 * 核心想法：不用更新所有權重，而是記錄權重變化，再用矩陣分解將大矩陣拆成兩個小矩陣，參數量大幅減少。 * 優點： * 訓練快、需要的 GPU 記憶體少。 * 適合在資源有限的情況下針對不同任務快速微調。 --- ### 4. QLoRA (Quantized LoRA) * 是 LoRA 的強化版，結合量化 (Quantization)。 * 先把模型從 FP16 壓到 4-bit，再用 LoRA 方式做微調。 * 這樣能在更小的記憶體下完成微調，特別適合在 Google Colab 這類有限資源的環境使用。 --- ### 5. 實作流程 (以 LLaMA 2 為例) 1. 安裝套件：`transformers`、`peft` (參數高效微調)、`bitsandbytes` (量化)。 2. 準備資料集：重新格式化成 LLaMA 所需的 prompt-response 格式。 3. 設定量化與 LoRA/QLoRA 參數（例如 rank、α 值、dropout）。 4. 使用 Hugging Face 提供的 `Trainer` 或 `SFTTrainer` 來進行 supervised fine-tuning。 5. 訓練後儲存模型，並用 pipeline 測試效果。 --- ### 6. 面試常見考點 * 為什麼要做量化？（節省記憶體與加速推理） * PTQ vs QAT 差別？ * LoRA 如何減少參數量？ * 什麼情況下需要用更高 rank？（當模型要學習更複雜的新任務時） --- 他是在教你如何用量化 (Quantization)、LoRA、QLoRA 等技術，讓你在硬體資源有限的情況下，也能有效率地對大型語言模型做微調。 ---- # 課程介紹 * 內容涵蓋 LLM 微調、量化與專案實作（文中提到 Cura/Laura、Llama 2、Gradient、Google Gemma） * 兼顧理論與實作，示範以開源模型與自訂資料集進行微調 * 強調企業生成式 AI 職缺常要求微調與自訂資料能力 # 量化直覺（Quantization Intuition） ![image](https://hackmd.io/_uploads/HyEQgZhqgx.png) * 針對先前程式示範中的量化、LoRA、QLoRA 等作數學與理論說明 * 面試常問微調與其背後技術，系列將分別講解量化、LoRA/QLoRA * 本段聚焦量化的定義、精度、校準與兩種量化模式（PTQ/QAT） ## 量化：定義與動機 ![截圖 2025-09-08 下午3.11.11](https://hackmd.io/_uploads/B1Njbb3cel.png) * 從高記憶體格式轉為低記憶體格式以減少大小與計算（如 FP32→INT8 或 FP16） * 權重與偏置以位元儲存，參數巨大的模型在 RAM/VRAM 中難以載入 * 降位後可在較小硬體上推論、更易部署於行動與邊緣裝置 * 存在資訊損失與準確率下降的代價，後續以訓練技巧彌補 ## 1. 精度與資料型別（Full Precision/ Half Precision） * FP32：1 位號誌 + 8 位指數 + 23 位尾數（單精度） * FP16：1 位號誌 + 5 位指數 + 10 位尾數（半精度） * INT8：無號 0–255；有號 -128–127 * 以較低位寬（如 INT8）儲存權重可明顯降低記憶體占用並加速推論 ### 量化為何能加速推論 * 權重以較少位元儲存，矩陣運算與記憶體頻寬需求下降 * 在資源受限 GPU/CPU 上更容易達成可用延遲 * 行動裝置與穿戴式裝置可載入更小的模型 ### How to perform quantization * 不僅可用框架自動化，需理解手動/數學做法 * 兩種基本型式：對稱量化（symmetric）與非對稱量化（asymmetric） ### 對稱量化（Symmetric Quantization） ![截圖 2025-09-08 下午3.14.37](https://hackmd.io/_uploads/SJLdfbh5ll.png) ![截圖 2025-09-08 下午3.16.59](https://hackmd.io/_uploads/SJNZ7b3cee.png) * 假設分布以 0 為中心，零點為 0，常以批次正規化的零中心概念對照 * 目標把實值區間映射到整數區間（例：0–1000 映射到 0–255 的無號 INT8） ![截圖 2025-09-08 下午3.18.02](https://hackmd.io/_uploads/BkCEmW3cxe.png) ![截圖 2025-09-08 下午3.18.40](https://hackmd.io/_uploads/BJgM_mbh9gg.png) * 比例因子 scale = (x\_max − x\_min)/(q\_max − q\_min)；例：1000/255 ≈ 3.92 * 量化公式 q = round(x / scale)；例：x = 250 → q ≈ 64 ![截圖 2025-09-08 下午3.18.53](https://hackmd.io/_uploads/HyJ5Xb35xg.png) ### 非對稱量化（Asymmetric Quantization） ![截圖 2025-09-08 下午3.20.55](https://hackmd.io/_uploads/H1NlVW35xg.png) * 分布不以 0 為中心（例：−20 到 1000），需同時估計 scale 與 zero\_point * scale ≈ (x\_max − x\_min)/(q\_max − q\_min)；例：(1000 − (−20))/255 ≈ 4.0 * zero\_point = round(−x\_min / scale)；例：round(20/4.0) ≈ 5，用以將最小值對齊到整數 0 * 量化公式 q = round(x/scale + zero\_point)，可套用於無號或有號整數範圍 ## 2. 校準（Calibration） * 將浮點範圍擠壓映射到目標整數範圍的過程 * 透過比例因子（scale）與零點（zero-point）把實值對應為量化值 * 校準品質直接影響量化模型的最終精度 ## 3. 量化模式（Mode of Quantization） * 兩種主要流程：PTQ（Post-Training Quantization）與 QAT（Quantization-Aware Training） * 共同點為先做校準把浮點權重映射到整數域，再得到量化模型 ### 後訓練量化（Post-Training Quantization，PTQ） ![截圖 2025-09-08 下午3.22.19](https://hackmd.io/_uploads/rkdn4W2qee.png) * 使用固定權重的預訓練模型，直接對權重做校準後產生量化模型 * 優點為快速、無需再訓練；缺點是資訊壓縮造成精度可能下滑 ### 量化感知訓練（Quantization-Aware Training，QAT） ![截圖 2025-09-08 下午3.23.59](https://hackmd.io/_uploads/BJA3E-hqxl.png) * 在訓練/微調過程中模擬量化效應，加入新訓練資料微調參數 * 透過反向傳播學習補償量化誤差，通常較能維持精度 * 微調工作常採用此法以降低量化帶來的效能損失 # Lora And QLORA Indepth Intuition ![截圖 2025-09-08 下午3.31.08](https://hackmd.io/_uploads/ByU_8b3qeg.png) * 本段聚焦 LoRA 與 QLoRA 的數學直覺與實作，作為微調系列第二部 * 目的在於理解 LoRA/QLoRA 是什麼、為何需要、怎麼做 * 強調微調在 LLM 專案與面試中的重要性 ## full parameter fine tuning ![截圖 2025-09-08 下午3.32.24](https://hackmd.io/_uploads/SyKoLbnqlx.png) * 全參數微調需更新所有權重，對大型模型（如 175B）計算與記憶體成本極高 * 受限於 GPU/RAM，推論與監控等下游任務難以部署 * 為解決資源瓶頸，引入 LoRA 與 QLoRA ## What does LoRa Do? ![截圖 2025-09-08 下午3.34.06](https://hackmd.io/_uploads/ryEZv-hqle.png) * 凍結預訓練權重 $W_0$，只學「變化量」$\Delta W$ * 以低秩分解近似：$\Delta W \approx BA$，推論時 $W^* = W_0 + BA$ * 大矩陣改為兩個小矩陣相乘，訓練參數顯著下降 * 秩 $r$ 決定近似能力與資源開銷，$r$ 越大表達力越強但成本增加 ## Number of trainable Parameters ![image](https://hackmd.io/_uploads/rJKrvZ35xg.png) ![image](https://hackmd.io/_uploads/B1awwZ2cll.png) * 與全參數微調相比，LoRA 可將可訓練參數降至數十萬～數千萬級 * 隨 $r$ 增加參數量線性上升，但仍遠低於原模型規模 * 常把 LoRA 加在注意力層的 Q/K/V 投影等線性層 * 複雜行為或高難度任務可提高 $r$；一般情況以小 $r$（如 8）即可 # Finetuning With LLama2 * 以 Llama 2-7B-Chat 為例示範在有限 GPU（如 Colab）下的微調流程 * 採參數高效微調：4-bit 量化基座 + LoRA 旁路訓練 * 以少量指令資料做示範性微調並保存 LoRA adapter ## Step 1：Install All the Required Packages * 安裝 accelerate、PEFT、bitsandbytes、transformers、TRL * bitsandbytes 用於量化以節省顯存（如 4-bit/8-bit） * 透過量化讓 7B 級模型能在中階 GPU 上進行微調 ## Step 2：Import All the Required Libraries * 匯入 transformers（AutoModelForCausalLM、tokenizer 等）、PEFT、bitsandbytes、torch * PEFT 用於設定 LoRA 組態並凍結大部分權重，只訓練小量參數 * 準備資料集載入與基礎環境設定 ### in the case of Lama 2 the following prom template is used for chat model * Llama 2 Chat 需要固定對話模板，包含 system 說明、user 提示與 model 回覆 * 訓練與推論時須依模板格式拼接輸入 ### we will reformat our instruction data set to follow Lama 2 template * 將指令資料（人類提問／助理回答）重排為 Llama 2 Chat 所需格式 * 可僅抽取約 1K 筆樣本作為示範微調 * 轉換過程確保欄位對齊並處理多語內容 ### how to find tune Lama 2 * Colab 免費資源有限，7B 權重與優化器開銷使全參數微調不可行 * 採用 PEFT（含 LoRA/QLoRA）以在有限顯存完成微調 * 以量化降低基座權重精度並保留 LoRA 分支以較高精度訓練 ## Step 3 * 載入 Llama 2-7B-Chat，使用約 1K 指令樣本進行示範訓練 * QLoRA 設定示例：rank $r=64$、縮放 $\alpha=16$、適度 dropout * 基座以 4-bit 載入，LoRA 分支以 FP16/BF16 訓練 * 指定 target modules（如注意力投影）與任務型別（Causal LM） ## Step 4：load everything and start the fine-tuning process * 載入並預處理資料集，套用 Llama 2 模板 * 設定 bitsandbytes 4-bit 量化與對應 dtype、device map * 載入模型與 tokenizer，建立 LoRA/QLoRA 組態 * 設定訓練參數（batch、accumulation、lr、scheduler、logging 等） * 使用 SFT Trainer 開始訓練並保存 LoRA adapter 與權重 ## Step 5：Check the plots on tensor board, as follows * 以 TensorBoard 檢視訓練過程（loss、速度、樣本處理率等） * 保存完成後以 transformers pipeline 依模板進行生成測試 * 觀察回應品質並確認微調成效與資源使用情況 --- # 1 bit LLM Indepth Intuition * 主題是「1-bit LLM」研究（BitNet），說明何謂 1-bit/1.58-bit 權重與其優勢 * 與 32/16-bit 模型相比在延遲、記憶體、吞吐與能耗上更具優勢 * 需具備量化與微調背景（先前已談過 quantization、LoRA/QLoRA） ## Abstrast * 提出 1-bit LLM 變體 BitNet，所有權重採三值化 $-1, 0, 1$ * 在相同模型大小與訓練資料量下，困惑度與端到端任務表現可比全精度 Transformer * 在延遲、記憶體占用、吞吐量與能耗上顯著更省 ### Pareto Improvement * 將浮點權重量化為三值，計算由「乘法＋加法」轉為近乎僅「整數加法」 * 乘法開銷被移除或極簡化，推訓成本與 GPU 需求下降 * 在成本四維度（延遲、記憶體、吞吐、能耗）同時改善，屬帕累托優化 * 指出需配合硬體與系統層優化以發揮 1-bit 架構效益 ## 1. The Era of 1-bit LLMs * 傳統 LLM 成本高、部署與能源影響大，常用訓後量化（16→8/4-bit）緩解 * 1-bit 架構如 BitNet 的矩陣乘法可化為整數加法，受功耗上限制約時可轉化為更高速 * 權重含「0」有助特徵過濾，增強表達能力並降低無效計算 * 實驗指出自約 3B 規模起，可在任務表現上對齊全精度基線 * 權重實際平均位寬約 1.58-bit（因三值編碼與分佈） ## 2. BitNet b1.58 * 使用「absolute mean」量化函數將浮點權重映射到 $-1, 0, 1$ * 將標準 nn.Linear 替換為 BitLinear，訓練時採 1.58-bit 權重與 8-bit 活化 * 參數量與對照模型一致，但模型記憶體占用與推論延遲顯著下降 * 報告示例顯示在多個參數規模下，記憶體從全精度顯著降低且延遲更小 * 維持可比的困惑度與下游任務表現，同時提升效能與效率 --- # Finetuning with Google Gemma Models * 主題：以 Google 開源 LLM「Gemma」實作微調與示範（文中多以「gamma」稱呼） * 版本：2B、7B 參數規模皆可用；示範以 2B 為主 * 動機：在有限 GPU/記憶體（如 Colab）環境下完成微調與推論 ## 模型概觀與表現 * 與 Llama 2（7B/13B）對比，Gemma 在多項基準測試顯示良好準確率 * 適用研究與應用場景，提供聊天/一般語言任務能力 ## 取得與存取（Hugging Face） * 於 Hugging Face 模型頁申請授權並同意條款後取得存取權 * 於設定頁建立 Access Token，於執行環境以機密變數保存與讀取 * 後續下載模型與權重需攜帶 Token 驗證 ## 安裝與匯入 * 安裝：bitsandbytes、PEFT、TRL、datasets、transformers 等 * 匯入：作業系統/torch、transformers 套件、PEFT（LoRA 組態）、SFT Trainer、Gemma 專用 tokenizer ## 量化設定與載入模型 * 量化：啟用 4-bit（load\_in\_4bit=True），量化型別 NF4 * 計算精度：量化前向為 4-bit，LoRA 分支以 BF16/FP16 訓練以降低資訊損失 * 載入：使用自動 tokenizer 與自動 Causal LM 模型，device\_map 指向 GPU ## 初步生成測試 * 輸入短句測試文本生成，解碼輸出檢查模型運作與基礎品質 * 可重複生成以觀察隨機性與知識覆蓋（如名言對應作者） ## LoRA 設定 * 目標：參數高效微調（僅訓練 LoRA 旁路） * 主要超參數：rank（示例為 8）、alpha（可設）、dropout * 目標模組：注意力/前饋相關投影層（如 K/V、gate\_proj、up\_proj、down\_proj） * 任務型別：Causal LM ## 資料集與重整 * 資料集：arbitrate/english\_quotes（欄位含 quote 與 author） * 取樣少量資料作示範（train split） * 依訓練需求產生輸入/輸出欄位（將 quote 作為輸入、author 作為期望輸出） ## 監督式微調（SFT）流程與參數 * 組合：模型、資料集、LoRA 組態、格式化函式、訓練參數 * 參數示例：batch size、gradient accumulation、warmup steps、max steps（如 100）、learning rate、FP16 * 輸出：指定目錄保存檔案與 LoRA adapter ## 推論與結果觀察 * 以訓後模型測試輸入 quote 產生對應作者 * 觀測 loss 下降與生成品質；必要時可增加訓練步數以改善效果 * 在 4-bit 量化 + LoRA 下能以中階 GPU 迅速完成示範性微調與推論 --- # Building LLm Pipelines With No code * 目標是在不寫程式的情況下，快速組裝可用的 LLM 應用與管線 * 以單一平台集中管理模型、外部資料來源與工具，免去多處 API 金鑰與設定分散 ## 平台與目標 * 平台（Vext）整合文件問答、RAG、Google/Wikipedia/ArXiv 搜尋、向量嵌入等能力 * 以單一 API 對外提供服務，簡化 LLM Ops 與部署 ## 建立帳號與專案 * 註冊/登入後進入 Dashboard，至 AI Projects 建立新專案並啟用 * 專案畫面提供可視化流程編排介面 ## 管線結構：Query 與 Output * Query 為觸發事件（使用者提問） * Output 為最終回應 * 中間以「＋」新增多個步驟節點組成完整管線 ## 新增資料集（RAG／文件問答） * 新增「Search Dataset」節點以支援文件檢索與擴充生成 * 建立資料集（如 research papers）供檢索使用 ## 上傳與管理來源 * 支援純文字、檔案、PDF、Google Drive、Notion、Confluence 等 * 可一次加入多個來源檔（單檔上限 5MB），集中於資料集中 ## 內部處理（向量化／向量庫） * 平台自動完成文件嵌入與向量索引建立 * 使用者無需手動配置向量資料庫或嵌入器 ## 新增 LLM 產生回應 * 新增「Generate Response」節點並選擇模型（Azure OpenAI GPT-4/3.5、Anthropic Claude、Google Gemini 等） * 設定 Purpose（系統提示）與 Behavior（補充行為說明），儲存以生效 ## Playground 測試 * 在 Playground 輸入問題，流程先檢索資料集再由 LLM 根據 context 摘要與作答 * 範例以 PEFT 與「Attention is All You Need」兩篇論文測試問答 ## Smart Function（外部搜尋） * 「Execute Function」提供基礎工具；「Smart Function」可同時啟用 Google Search、ArXiv、Wikipedia * 可移除資料集節點改以網路搜尋作為知識來源 ## 輸出與 API 介接 * Output 提供 GET/POST 請求範本與端點 * 以專案的 API Key 與 channel token 發送請求取得模型回覆 ## API Key 建立與使用 * 於平台產生 API Key 並保存 * 對外呼叫時於標頭附上授權金鑰與 Content-Type，依範本發送請求 ## 典型請求流程 * 準備 query（使用者問題）作為 payload * 呼叫專案端點 → 平台依管線執行（檢索／工具／模型）→ 回傳生成結果 ## 連接器與擴充 * App Directory 可連結 Google Drive、Confluence、Jira、Slack、Teams 等（部分為即將推出） * 支援自帶模型與雲端供應商（如 AWS Bedrock、Hugging Face 等） --- # Fine tuning With Own Custom Data * 主題：使用 Gradient AI 平台，將自有資料快速微調成自訂 LLM * 特色：同平台涵蓋開發、微調、部署、推論，支援多語言 SDK（JavaScript、Python、Java） ## 平台概觀（Gradient AI） * 提供雲端訓練與推論，管理基座模型、資料與微調作業 * 能建立私有 LLM，結合企業自有資料 * 文件齊全，含 Python SDK 範例與整合指引（LangChain、LlamaIndex、MongoDB 等） ## 建立帳號與工作區 * 註冊登入後建立 Workspace，取得 Workspace ID * 於 Access Tokens 產生 Secret Access Token，後續用於 API/SDK 驗證 * 兩項關鍵：Workspace ID、Access Token ## 可用基座模型 * 介面提供多個可選基座（示例：Bloom 560、Llama 2 7B Chat、Nous Hermes 2） * 可從 UI 建立微調，或以 Python SDK 程式化操作 ## Python SDK 與環境 * 在 Colab 安裝與載入 Gradient Python SDK * 以環境變數設定 Workspace ID 與 Access Token * SDK 物件初始化後可取得基座模型並執行微調流程 ## 建立 Model Adapter * 先以基座模型建立一個 Model Adapter 作為微調目標 * Adapter 具唯一 ID，後續微調、推論皆針對此 Adapter 進行 * 完成後可選擇保留或刪除 Adapter ## 微調前測試（基準） * 準備示例查詢（instruction/response 格式） * 使用基座模型對示例查詢進行生成，作為微調前的效能對照 * 觀察生成內容是否貼近期待知識 ## 準備自訂資料（格式） * 採 instruction/response 結構描述輸入與期望輸出 * 可針對同一主題撰寫多筆不同表述，強化模型對專屬知識的對齊 * 資料以清單形式組織，供微調 API 直接讀取 ## 啟動微調（核心步驟） * 呼叫微調方法並餵入自訂樣本（samples） * 以迭代（epochs/steps）方式執行多次微調 * 雲端任務執行快速，示範級資料量可於數分鐘內完成 ## 微調後驗證 * 使用同一查詢再次生成，比對微調前後差異 * 預期生成更貼合自有資料內容與語氣 * 可視需要增加樣本或迭代次數以強化結果 ## 模型與作業管理 * 於平台工作區檢視微調任務狀態與產出 * 可保留 Adapter 供後續部署與推論，或刪除以釋放資源 * 同一 Workspace 可管理多個微調模型與版本 --- # Terminology * 微調（Fine-tuning）：在既有預訓練模型上以任務資料繼續訓練，使其適應特定場景。 * 全量微調（Full Fine-tuning）：更新模型全部參數，效果佳但計算與記憶體成本高。 * 參數高效微調（PEFT）：僅調整少量新增參數，顯著降低訓練成本。 * 低秩適配（LoRA）：以低秩矩陣插入線性層，僅訓練增量參數以逼近全量微調。 * 量化低秩適配（QLoRA）：在權重量化（多為4位）下進行LoRA微調，節省記憶體且保持效能。 * 適配器（Adapter）：在層與層之間加入小模組並只訓練該模組以遷移學習。 * 前綴微調（Prefix-Tuning）：學習可插入注意力機制的虛擬前綴向量以控制行為。 * 提示微調（Prompt Tuning）：僅學習可訓練的提示嵌入，不改動主模型參數。 * P-Tuning v2：以深層可訓練提示結合標準架構，提升長上下文任務表現。 * 監督式微調（SFT）：以標註輸入輸出對進行有監督的任務訓練。 * 直接偏好最佳化（DPO）：以偏好資料直接優化生成分佈，替代傳統RL步驟。 * 從人類回饋強化學習（RLHF）：用人類評分訓練獎勵模型並強化策略。 * 知識蒸餾（Knowledge Distillation）：以大型教師模型指導小型學生模型學習。 * 量化（Quantization）：將浮點權重/活化壓縮為低位元整數以降記憶體與加速推論。 * 後訓練量化（PTQ）：不再訓練主模型，僅以校準資料進行離線量化。 * 量化感知訓練（QAT）：在訓練中模擬量化效應，降低量化誤差損失。 * 權重量化（Weight-only Quantization）：僅量化權重，活化維持浮點以簡化部署。 * 活化量化（Activation Quantization）：同時量化活化張量，進一步降低計算負擔。 * 對稱量化（Symmetric）：零點固定為0，正負範圍對稱，計算簡單。 * 非對稱量化（Asymmetric）：同時學習縮放與零點，能處理偏移分佈。 * 量化位元（Bit-width）：單值使用的位數，位元愈少壓縮率愈高但誤差增。 * FP32（單精度）：32位浮點格式，精度高但資源消耗大。 * FP16（半精度）：16位浮點，減少記憶體並加速，常用於混合精度。 * BF16（bfloat16）：以較大指數範圍保留數值穩定性的16位浮點。 * INT8：8位整數格式，常見推論量化標準。 * INT4：4位整數格式，壓縮更高，需精心校準以控誤差。 * 零點（Zero-point）：將實值範圍平移到整數範圍的偏移量。 * 縮放因子（Scale）：將實值映射到整數刻度的比例係數。 * 校準（Calibration）：以少量代表性資料估計scale/zero-point以最小化誤差。 * 假量化（Fake Quantization）：訓練時以浮點模擬量化/反量化以傳遞梯度。 * 觀測器（Observer）：在QAT/校準中蒐集張量統計量以決定量化參數。 * 捨入策略（Rounding Mode）：如Nearest/向下/隨機捨入，影響量化誤差。 * 飽和裁切（Clipping）：對極端值截斷以縮小動態範圍並降低誤差。 * 量化誤差（Quantization Error）：離散化導致的近似誤差，須透過校準/訓練降低。 * 訊雜比（SQNR）：衡量量化後訊號品質的指標，越高代表失真越小。 * MSE校準：以最小化均方誤差選擇最佳量化範圍。 * KLD校準：以最小化KL散度匹配量化與原分佈。 * 每通道量化（Per-channel）：各通道各自scale/zero-point，精度較佳。 * 每張量量化（Per-tensor）：整個張量共享一組量化參數，成本較低。 * 混合精度訓練（Mixed Precision）：以FP16/BF16計算並保留FP32累加穩定梯度。 * 記憶體占用（Memory Footprint）：模型與中間張量佔用的總記憶體大小。 * 推論延遲（Inference Latency）：輸入至輸出所需時間，量化可顯著縮短。 * KV快取（KV Cache）：在解碼器儲存注意力鍵值以加速長序列推論。 * 張量核心（Tensor Cores）：GPU特殊單元，對低精度矩陣乘法加速顯著。 * GEMM（通用矩陣乘法）：深度學習核心運算，量化後可使用整數GEMM。 * bitsandbytes：支援4/8位量化與高效優化的常用庫。 * GPTQ：離線最小化層級誤差的權重量化方法，精度佳速度快。 * AWQ：考量活化影響的權重量化，改善下游任務表現。 * GGUF/GGML：針對CPU/邊緣裝置的輕量模型格式，便於本地推論。 * Hugging Face PEFT/TRL：常用的參數高效微調與偏好訓練工具鏈。 * 指令資料（Instruction Data）：為模型撰寫的任務與步驟示例，作為監督式微調的訓練素材。 * 合成資料（Synthetic Data）：由模型自動生成或改寫的訓練資料，用於擴充與覆蓋長尾案例。 * 自我指令（Self-Instruct）：以種子任務自動擴展出多樣指令與解答的資料生成流程。 * 偏好資料（Preference Data）：成對或排序的回應比較資料，用於偏好學習與對齊。 * 標註手冊（Annotation Guidelines）：規範標註者產出一致高品質資料的操作準則。 * 去重（Deduplication）：移除重複或近重複樣本，降低資料洩漏與評測偏差。 * 資料清洗（Data Cleaning）：修正錯字、移除噪聲與不一致標註以提升資料品質。 * 分層抽樣（Stratified Sampling）：依類別比例抽樣，確保訓練集分佈代表性。 * 長上下文長度（Context Length）：模型可處理的最大詞元數，決定長文能力與記憶體需求。 * RoPE（旋轉位置嵌入）：以複數旋轉編碼相對位置，改善長距離關聯建模。 * RoPE 擴展／NTK 縮放：調整 RoPE 角頻率以延長上下文而不重訓。 * ALiBi：以線性偏置取代顯式位置嵌入，提升長序列外推性。 * 多查詢注意力（MQA）：共享鍵值、僅多頭化查詢以降低記憶體占用。 * 分組查詢注意力（GQA）：在 MHA 與 MQA 間折衷，兼顧效率與品質。 * FlashAttention：以塊狀計算與遮罩融合的記憶體最佳化注意力實作。 * xFormers 注意力：多種高效注意力核心集合，便於替換與加速。 * PagedAttention（vLLM）：以分頁化 KV 快取支援長上下文與高吞吐推論。 * 連續批次（Continuous Batching）：動態合併不同請求的解碼步以提升吞吐。 * 推測式解碼（Speculative Decoding）：用草稿模型預取候選，主模型快速驗證加速生成。 * 草稿模型（Draft Model）：較小模型，用於推測式解碼的先行提案者。 * 典型抽樣（Typical Sampling）：根據分佈熵選擇信息量「典型」的詞，平衡多樣與穩定。 * 出現懲罰（Presence Penalty）：降低已出現過之主題的再次生成機率以鼓勵新穎性。 * 頻率懲罰（Frequency Penalty）：依出現次數抑制重複，減少贅述。 * 限制式解碼（Constrained Decoding）：施加規則使輸出符合格式或語法約束。 * 語法驅動解碼（Grammar-based Decoding）：以正式文法（如 GBNF）強制合法結構輸出。 * 正則約束解碼（Regex-constrained）：以正則表達式限制輸出形態與內容。 * 日誌機率（Logprobs）：輸出各詞候選的對數機率，便於解釋與後處理。 * Logit 偏置（Logit Bias）：對特定詞施加加權，強化或抑制其生成。 * 參數凍結（Parameter Freezing）：鎖定基座權重不更新，僅訓練新增模組。 * 梯度累積（Gradient Accumulation）：累積多步梯度以在小顯存達到大批次效果。 * 有效批次大小（Effective Batch Size）：微批次×累積步數×裝置數的實際更新批量。 * 梯度裁剪（Gradient Clipping）：限制梯度範數以避免梯度爆炸。 * 梯度檢查點（Gradient Checkpointing）：以重算換顯存，僅儲存關鍵中間態。 * 學習率預熱（Warmup）：訓練初期逐步提升學習率以穩定收斂。 * 餘弦退火排程（Cosine Decay Schedule）：以餘弦曲線逐步衰減學習率。 * AdamW：含權重衰退分離化的 Adam 最佳化器，收斂更穩定。 * Adafactor：省記憶體的二階近似最佳化器，適合大型模型。 * Lion 最佳化器：以符號動量更新，兼顧泛化與稀疏性。 * 分詞器：BPE：以子詞合併統計建立詞彙表，兼顧開放詞彙與效率。 * 分詞器：SentencePiece：無需空白切分的子詞模型（Unigram／WordPiece）。 * 特殊詞元（BOS／EOS／PAD／UNK）：標示序列開始、結束、填充與未知詞。 * RMSNorm：以均方根正規化取代均值，減少計算開銷。 * SwiGLU：帶門控的激活函數，提升表徵能力與穩定性。 * 僅解碼器架構（Decoder-only Transformer）：以自回歸生成為核心的單塔結構。 * 編碼器—解碼器（Encoder–Decoder）：分離理解與生成，適合翻譯／摘要。 * 張量並行（Tensor Parallelism）：分割權重矩陣至多卡同算以擴大模型。 * 管線並行（Pipeline Parallelism）：切分層段依序流動小批次以疊加容量。 * 全分片資料並行（FSDP）：切分參數／梯度／優化器狀態以節省顯存。 * ZeRO 優化（ZeRO-1/2/3）：分片與異步卸載技術，擴展可訓練規模。 * SmoothQuant：以通道縮放平滑活化離群值，降低 INT8 誤差。 * 模型權重合併（Adapter／LoRA Merge）：將適配器權重烘焙回基座以便部署。 * 低秩更新（Low-rank Update）：以低秩矩陣近似權重變化ΔW，降維省參數。 * 權重增量（Delta Weights, ΔW）：微調時學習的權重改動，與基座權重相加。 * 凍結基座權重（Frozen Base Weights）：在微調中不更新原始權重矩陣W₀。 * LoRA A/B 矩陣：兩個可訓練小矩陣A、B，其乘積BA近似ΔW。 * 秩（Rank, r）：A/B 的瓶頸維度，決定可表達能力與參數量。 * 瓶頸維度（Bottleneck Dim）：低秩分解中的中間維度r，控制壓縮比。 * 縮放係數（LoRA Alpha）：對BA施加比例縮放，穩定訓練。 * LoRA 丟棄（LoRA Dropout）：在A或B上施加dropout以提升泛化。 * 目標模組（Target Modules）：選擇施加LoRA的層，如注意力與前饋投影。 * q/k/v 投影（q\_proj/k\_proj/v\_proj）：注意力中的查詢/鍵/值線性層，常用LoRA。 * o\_proj（輸出投影）：注意力輸出線性層，常見LoRA注入點。 * MLP 適配（MLP LoRA）：在上投影/下投影層加入LoRA。 * 權重合併（Weight Merge）：將ΔW併入W₀得到W\*以便單檔部署。 * 權重解併（Unmerge）：從合併後權重還原為W₀與A/B以便再訓練。 * 合併推論（Merged Inference）：推論前將LoRA烘焙回基座以減少運算開銷。 * 即時注入（On-the-fly Injection）：推論時保留分解形式，動態加總W₀與BA。 * 近似誤差（Approximation Error）：低秩分解對原ΔW的重建誤差。 * Frobenius 範數最小化：以‖ΔW−BA‖\_F 最小化來學習A/B。 * 核范數正則（Nuclear Norm）：以核范數約束促進低秩解。 * SVD 初始化：用奇異值分解初始化A/B以穩定收斂。 * Kronecker LoRA：以克羅內克分解進一步減參並保型。 * AdaLoRA（自適應秩）：訓練過程動態調整各層秩r分配。 * 層級秩分配（Layer-wise Rank Allocation）：依層敏感度分配不同r。 * 模組選擇策略：僅對影響大的子模組施加LoRA以提效。 * 參數效率（Parameter Efficiency）：在接近效能下以更少可訓練參數達成微調。 * 記憶體足跡（Memory Footprint）：LoRA/QLoRA顯著降低顯存與優化器狀態。 * 優化器狀態壓縮：因可訓練參數少，Adam等狀態佔用同步下降。 * 8-bit 優化器：以bitsandbytes將優化器狀態量化降記憶體。 * 訓練精度（Compute Dtype）：常用fp16/bf16計算以兼顧穩定與速度。 * QLoRA：在4位權重量化下套用LoRA，維持品質同時極省顯存。 * NF4（NormalFloat4）：QLoRA使用的4位正態化浮點量化格式。 * 雙重量化（Double Quantization）：再度量化縮放因子以進一步降佔用。 * 反量化計算（Dequantize-to-Compute）：計算時臨時還原為高精度運算。 * bnb\_4bit\_quant\_type：設定NF4/FP4等4bit量化型別的參數。 * bnb\_4bit\_use\_double\_quant：開啟QLoRA雙重量化的開關。 * bnb\_4bit\_compute\_dtype：指定運算精度（fp16或bf16）以控穩定性。 * Paged AdamW：分頁化優化器，降低KV/狀態常駐顯存需求。 * Paged Adafactor：以分頁策略進一步節省大型微調的記憶體。 * 目標層凍結：除指定模組外其餘層完全凍結，僅訓練A/B。 * 秩搜尋（Rank Search）：以驗證集掃描r找效能/成本平衡點。 * Alpha 調參（Alpha Tuning）：調整縮放係數以穩定梯度與收斂。 * 正交正則（Orthogonal Regularization）：促使A/B具正交性以減少干擾。 * 適配器烘焙（Adapter Bake-in）：將LoRA合併後固化為新基座權重。 * 多適配器組合（Adapter Composition）：同一基座按任務切換/疊加多個LoRA。 * 任務路由（Task Routing）：根據輸入標記選擇對應LoRA頭。 * 分片適配器（Sharded Adapters）：在多GPU上分片存放A/B以擴展規模。 * 分散式LoRA訓練：結合FSDP/ZeRO訓練低秩參數以放大批量。 * 目標模組白名單：明確列出可注入LoRA的層名稱以避免誤插。 * DoRA（Decomposed LoRA）：分解權重長度與方向，改善LoRA品質。 * 偏置微調（Bias Tuning）：僅訓練偏置或小量偏置向量作為極致PEFT。 * 全參數微調（Full-Parameter Fine-Tuning）：更新模型全部權重，成本高。 * 部分參數微調（Partial Fine-Tuning）：僅更新選定層，減少成本。 * PEFT（Parameter-Efficient Fine-Tuning）：透過小參數量微調大型模型。 * Prefix Tuning：在輸入前加可訓練向量，引導模型行為。 * Prompt Tuning：學習任務專屬提示嵌入，不改權重。 * Adapter Tuning：在每層插入小模組，僅訓練其權重。 * Compacter：壓縮後的Adapter，降低參數使用。 * HyperFormer：使用超網絡自動生成適配器權重。 * Side-Tuning：凍結基座，外接一支小網路疊加。 * BitFit：僅更新偏置參數，極小微調成本。 * Soft Prompt：將提示嵌入作為可訓練參數。 * Visual Prompt Tuning：在多模態模型上加影像提示嵌入。 * 多適配器堆疊（Stacked Adapters）：多個任務適配器疊加。 * 適配器融合（Adapter Fusion）：合併不同適配器的知識。 * 適配器選擇（Adapter Selection）：根據輸入或任務自動挑選。 * LoRA Rank Drop：在訓練中隨機丟棄秩以正則化。 * LoRA LayerNorm：將LoRA與層正規化結合。 * LoRA+Bias：同時訓練LoRA與偏置。 * LoRA-MoE：將LoRA引入專家混合（MoE）結構。 * LoRA in Attention：專注於注意力模組的秩分解。 * LoRA in FFN：應用於前饋層投影。 * Dynamic Rank Allocation：依梯度動態調整秩。 * Rank Scaling Law：研究秩大小與效能關係的經驗規律。 * 訓練樣本效率（Sample Efficiency）：少樣本即可收斂的能力。 * 正則項（Regularization Term）：防止過擬合的數學限制。 * 梯度凍結（Gradient Freezing）：阻止非目標層更新。 * 梯度裁剪（Gradient Clipping）：防止梯度爆炸。 * 梯度累積（Gradient Accumulation）：模擬大批量訓練。 * 混合精度訓練（Mixed Precision Training）：fp16/bf16加速與省顯存。 * 量化感知訓練（Quantization-Aware Training）：在訓練中模擬量化誤差。 * 動態量化（Dynamic Quantization）：推論時臨時將權重轉低位元。 * 靜態量化（Static Quantization）：校準後永久存低位元。 * SmoothQuant：正規化激活與權重分佈以利量化。 * GPTQ（Quantization）：逐層最小化誤差的量化方法。 * AWQ（Activation-aware Weight Quantization）：激活感知權重量化。 * LLM.int8()：高效8位推論方法。 * KV Cache：儲存注意力Key/Value以加速推理。 * Flash Attention：高效注意力演算法，降低記憶體佔用。 * Rope Scaling（旋轉位置編碼延伸）：讓RoPE適應長上下文。 * Paged KV Cache：將KV快取分頁，處理長序列。 * Checkpoint Sharding：模型權重分片儲存與載入。 * Zero Redundancy Optimizer（ZeRO）：分散優化器狀態減少佔用。 * Fully Sharded Data Parallel（FSDP）：分片參數與梯度以支撐大模型。 * DeepSpeed LoRA：結合DeepSpeed與LoRA的分散訓練。 * PEFT Library（Hugging Face）：支援多種參數高效微調方法。 * bitsandbytes：提供4bit/8bit量化與優化器實作。 * Transformers Trainer：Hugging Face提供的高階訓練API。 * Accelerate：HF框架用於多GPU/TPU訓練。 * Evaluate：HF工具用於計算指標如BLEU/ROUGE。 * DPO（Direct Preference Optimization）：基於偏好對齊的微調技術。 * RLHF（Reinforcement Learning with Human Feedback）：結合人類反饋的強化學習。 * PPO（Proximal Policy Optimization）：RLHF中常用的強化學習演算法。 * 基座模型（Base Model）：預訓練完成、作為下游微調起點的原始大型模型。 * 全參數微調（Full-Parameter Fine-Tuning）：更新模型全部權重以適配新任務，效能佳但資源昂貴。 * 參數高效微調（PEFT）：僅訓練少量新增或低秩參數，顯著降低顯存與計算成本。 * LoRA（低秩適配）：以兩個小矩陣A/B近似權重變化ΔW，凍結基座權重只訓練A/B。 * QLoRA：在4位權重量化下進行LoRA微調，兼顧品質與記憶體節省。 * 秩（Rank, r）：LoRA瓶頸維度，控制表達能力與可訓練參數量。 * LoRA Alpha（縮放係數）：對BA乘以比例以穩定梯度與收斂。 * LoRA Dropout：在LoRA支路加入隨機丟棄，提升泛化能力。 * 目標模組（Target Modules）：指定施加LoRA的線性層，如注意力與前饋投影。 * q\_proj／k\_proj／v\_proj：注意力的查詢／鍵／值投影層，常見LoRA注入點。 * o\_proj（輸出投影）：注意力輸出線性層，加入LoRA可改善表達。 * 前饋投影（FFN Projections）：MLP的上／下投影層，可用LoRA適配。 * 權重凍結（Freeze Weights）：微調時不更新基座權重以節省資源。 * 權重增量（Delta Weights, ΔW）：微調學到的權重變化，與W₀相加形成新權重。 * 權重合併（Merge Weights）：將LoRA增量烘焙回基座，生成單一可部署權重。 * NF4（NormalFloat4）：QLoRA常用4位正態化浮點權重格式，量化失真較低。 * FP4：4位浮點量化格式，與NF4同屬低位元權重量化方案。 * bitsandbytes（bnb）：支援4/8位量化與8-bit優化器的高效庫。 * 4位量化（INT4／FP4）：將權重量化為4位以極大幅度降低顯存佔用。 * 8位量化（INT8）：常用推論量化位寬，折衷精度與速度。 * 雙重量化（Double Quantization）：再量化縮放因子以進一步壓縮模型。 * 反量化計算（Dequantize-to-Compute）：計算時暫時還原為高精度再運算。 * 監督式微調（SFT）：以標註指令—回應對進行有監督訓練。 * 指令資料集（Instruction Dataset）：包含任務說明與參考答案的微調資料。 * 模板化提示（Prompt Template）：統一指令／系統／答案布局以匹配聊天模型格式。 * Llama 2 聊天模板：含<System>、<User>、<Assistant>區塊的對話格式規約。 * 標記器（Tokenizer）：將文字拆為詞元以便模型處理與對齊權重。 * 最大序列長度（Max Seq Length）：單次輸入可容納的詞元上限。 * 打包（Packing）：將多樣本拼接進固定長度序列以提升利用率。 * 損失函數（Loss）：衡量模型輸出與標註差異的指標，訓練最小化之。 * 交叉熵損失（Cross-Entropy）：自回歸語言建模的標準損失函數。 * 學習率（Learning Rate）：控制每次更新幅度的關鍵超參數。 * 最佳化器（Optimizer）：計算並應用梯度更新的演算法，如AdamW。 * Paged AdamW：分頁化優化器狀態以降低顯存常駐佔用。 * 批次大小（Batch Size）：每次反向傳播處理的樣本數量。 * 梯度累積（Gradient Accumulation）：累積多步小批次以模擬大批次訓練。 * 混合精度（FP16／BF16）：以低精度計算、FP32累加，兼顧穩定與效率。 * 梯度檢查點（Gradient Checkpointing）：重算中間結果以換取顯存節省。 * 訓練日誌與可視化（TensorBoard）：追蹤損失、學習率與指標變化。 * 評估步數（Evaluation Steps）：固定間隔在驗證集上度量效能。 * 檢查點儲存（Checkpointing）：定期保存模型狀態以便恢復與比較。 * 裝置映射（Device Map）：將模型層分配到GPU／CPU以適配記憶體。 * KV 快取（KV Cache）：儲存注意力鍵值以加速自回歸解碼。 * 推論延遲（Inference Latency）：單次請求從輸入到輸出所需時間。 * 部署合併（Adapter Bake-in）：將適配器合併後輸出單檔模型便於上線。 * 任務特化微調（Task-specific Tuning）：針對特定任務（如Text2SQL）再訓練。 * 域特化微調（Domain-specific Tuning）：面向特定垂直領域（金融／醫療）調適。 * 量化感知訓練（QAT）：訓練中模擬量化誤差以提升量化後精度。 * 後訓練量化（PTQ）：在不再訓練基座下以校準資料完成量化。 * Transformers（HF）：Hugging Face模型與訓練高階API生態。 * PEFT／TRL（HF）：參數高效微調與偏好訓練工具，簡化LoRA／QLoRA流程。 * 適配器並行（Adapter Parallelism）：同一層掛載多個適配器並行學習，提升多任務覆蓋。 * 適配器剪枝（Adapter Pruning）：移除貢獻低的LoRA/適配器通道以減少參數。 * 適配器融合平均（Adapter Averaging）：多次訓練的適配器權重做均值以穩定表現。 * 適配器組合規則（Adapter Composition Rules）：定義多適配器疊加、加權或選擇策略。 * DoRA（Decomposed Rank Adaptation）：將權重方向與幅度分解以改善LoRA近似。 * TIES-Merging：多微調分支的權重稀疏合併，保留共同有益更新。 * 模型去汙染（Decontamination）：排除與評測集重疊樣本避免洩漏。 * 資料覆蓋率（Coverage）：訓練資料對目標分佈與長尾情況的涵蓋程度。 * 指令多樣性（Instruction Diversity）：提升指令形式/難度/領域的變化幅度。 * 資料混洗策略（Shuffling Strategy）：控制跨來源與難度分佈的批次均衡。 * 難例挖掘（Hard Example Mining）：強化對模型錯誤或高損失樣本的訓練比重。 * 損失重加權（Loss Reweighting）：按樣本品質或來源調整損失權重。 * 標註一致性檢查（Inter-annotator Agreement）：衡量標註者一致性以控質。 * 早停（Early Stopping）：監控驗證指標於耐心步數內未提升即停止訓練。 * 權重衰退（Weight Decay）：L2 正則減少過擬合與權重爆炸。 * 指數移動平均（EMA）：對可訓練權重做滑動平均以改善泛化。 * 檢查點平均（Checkpoint Averaging）：多個相鄰檢查點權重平均以平滑解。 * 學習率循環（LR Cyclical Policies）：在高低學習率間週期切換促進跳脫局部谷。 * 餘弦退火重啟（Cosine Annealing with Restarts）：周期性重啟學習率以探索更佳極值。 * 損失縮放（Loss Scaling）：混合精度下放大損失避免梯度下溢。 * 梯度噪聲尺度（Gradient Noise Scale）：估計批量對穩定收斂的影響以調批量/學習率。 * 分層學習率（Layer-wise LR）：不同層採用差異化學習率以穩定微調。 * 冷啟層（Cold Layers）：剛啟用微調的層先用較小LR以防漂移。 * Prompt Loss Weighting：提升指令區段損失權重以強化遵循。 * 長度正則（Length Penalty in Training）：抑制過長輸出傾向以控生成。 * 溫度退火（Temperature Annealing）：訓練或教學蒸餾中逐步降低取樣溫度。 * Top-k/Top-p 排程：隨訓練進度調整解碼多樣性參數。 * 典型性取樣（Typical Decoding）：以訊息熵選詞，平衡流暢與多樣。 * 限制式解碼（Constrained Decoding）：以文法/正則限制輸出格式。 * RLAIF（AI 反饋強化學習）：用AI評審替代人類偏好以擴充對齊資料。 * 合成對齊資料（Synthetic Preference Pairs）：以自動生成的回應對建立偏好資料。 * 安全對齊檢查（Safety Eval）：紅隊、毒性、PII與越權等測試集合。 * 任務專用評測（Task-specific Eval）：用TruthfulQA、MMLU、BBH等衡量能力。 * 輸出可控性測試（Controllability Tests）：驗證格式、關鍵詞與風格遵循率。 * 指標聚合（Metric Aggregation）：多指標（精確率/覆蓋/多樣性）加權綜合。 * 推論引擎（Inference Engine）：如vLLM/TGI/llama.cpp的高效部署後端。 * vLLM PagedAttention：以分頁KV快取提升吞吐與長上下文效率。 * TGI（Text Generation Inference）：HF服務端框架，支援並發與流式。 * TensorRT-LLM：NVIDIA 端到端優化與內核融合以極速推論。 * OpenVINO/ONNX Runtime：CPU/異構硬體上的最佳化推論執行。 * GGUF/GGML 格式：針對CPU/邊緣裝置的量化權重格式。 * Rope Scaling/NTK-aware：調整RoPE頻率以延長上下文不重訓。 * LlamaTokenizer 特性：空白處理與特殊詞元設定需與模型對齊。 * 動態填充（Dynamic Padding）：按批次最長序列對齊，降低無效計算。 * Packed Samples：將多短樣本拼入單序列提升利用率與吞吐。 * ZeRO-1/2/3：分片參數/梯度/優化器狀態的分散式訓練方案。 * FSDP 包裝策略（Auto Wrap Policy）：依層大小自動決定分片邊界。 * 1F1B 排程（Pipeline 1F1B）：管線並行中正反向交錯以提升利用率。 * 張量並行切分（Tensor Parallel Sharding）：沿權重維度切分以多卡矩陣乘法。 * MoE 路由損失（Router z-loss）：正則化路由分佈避免塌縮。 * 專家容量因子（Capacity Factor）：限制MoE每批分配到單專家的樣本量。 * 日誌與實驗追蹤（W\&B/MLflow）：追蹤指標、組態與檢查點以復現結果。 * 參數（Parameter）：模型中可學習的權重數值，用於決定輸入與輸出之間的映射關係。 * 權重（Weight）：神經網路中的核心數值，透過訓練更新以擬合資料分布。 * 偏置（Bias）：在神經元輸出中額外加入的常數項，用於調整決策邊界。 * 量化（Quantization）：將高精度浮點數壓縮成低精度整數以降低計算與儲存成本。 * FP32（32位浮點數）：傳統模型中使用的高精度數值表示方式。 * FP16（16位浮點數）：半精度浮點格式，用於降低運算量和記憶體佔用。 * INT8（8位整數）：量化後常用的低精度格式，顯著減少模型大小。 * 1-bit 表示（1-bit Representation）：權重僅允許三種值（-1、0、1）的極端量化方法。 * BitNet：專為 1-bit LLM 設計的模型架構。 * 1.58-bit 表示：平均每個權重所需的資訊位元數，因加入 0 而超過 1-bit。 * 推理（Inference）：使用訓練好的模型對新輸入產生預測的過程。 * 微調（Fine-tuning）：在預訓練模型上針對特定任務進一步訓練。 * LoRA（Low-Rank Adaptation）：低秩分解方法，用於高效微調大型模型。 * QLoRA：結合量化與 LoRA 的技術，在低資源下進行模型微調。 * 前向傳播（Forward Propagation）：輸入資料經過神經網路各層計算得到輸出的過程。 * 反向傳播（Backward Propagation）：利用誤差梯度更新模型參數的過程。 * 矩陣乘法（Matrix Multiplication）：神經網路計算的核心操作之一。 * 整數加法（Integer Addition）：1-bit LLM 核心計算方式，取代浮點數乘法。 * 延遲（Latency）：從輸入到輸出結果所需的時間。 * 吞吐量（Throughput）：單位時間內能處理的輸入數量。 * 能耗（Energy Consumption）：模型在訓練或推理過程中所消耗的電力。 * 記憶體佔用（Memory Footprint）：模型所需的儲存資源大小。 * 困惑度（Perplexity）：衡量語言模型預測能力的常見指標。 * 特徵過濾（Feature Filtering）：利用權重為 0 達成輸入特徵的篩選。 * 絕對平均量化（Absolute Mean Quantization）：將權重映射至 -1、0、1 的量化公式。 * NN.Linear：標準全連接層運算，進行權重矩陣與輸入相乘。 * BitLinear：替代傳統 Linear 的特殊運算層，適用於 1-bit 權重。 * 訓練樣本（Training Tokens）：模型在訓練中使用的文字單元數量。 * 範例複雜度（Model Capacity）：模型能表達與擬合的複雜程度。 * 浮點運算（Floating Point Operation, FLOPs）：以浮點數進行的基本數學運算。 * 整數運算（Integer Operation）：以整數進行的運算，通常比浮點更高效。 * 硬體最佳化（Hardware Optimization）：針對特定計算架構調整模型計算方式。 * 資源受限環境（Resource-Constrained Environment）：計算資源不足的硬體環境。 * 訓練效率（Training Efficiency）：模型訓練所需時間與資源的比值。 * 壓縮比（Compression Ratio）：壓縮後模型大小與原始模型大小的比例。 * 精度損失（Accuracy Loss）：模型壓縮後性能下降的幅度。 * 模型大小（Model Size）：模型儲存檔案的實際容量。 * 訓練從零開始（Training from Scratch）：不依賴預訓練權重，直接訓練模型。 * 全精度基準（Full Precision Baseline）：未經量化的完整精度模型，用於比較。 * 硬體加速器（Hardware Accelerator）：如 GPU、TPU 等專用計算裝置。 * 計算瓶頸（Computation Bottleneck）：限制模型運算速度的核心因素。 * 近似計算（Approximate Computing）：允許小幅精度損失以換取高效能的技術。 * 二值網路（Binary Neural Network, BNN）：僅允許權重為 ±1 的神經網路。 * 三值網路（Ternary Neural Network, TNN）：允許權重為 -1、0、1 的網路架構。 * 節能計算（Energy-Efficient Computing）：以降低能耗為目標的計算方式。 * 規模化（Scaling）：將模型應用於更大或更小數據與資源情境的能力。 * 知識蒸餾（Knowledge Distillation）：利用大模型訓練小模型的方法。 * 模型壓縮（Model Compression）：透過量化、剪枝等方式縮小模型。 * 剪枝（Pruning）：刪除不重要的權重以減少計算量。 * 激活函數（Activation Function）：決定神經元輸出非線性變化的函數。 * 可擴展性（Scalability）：模型在更大規模下保持效能的能力。 * 模型部署（Model Deployment）：將模型放置於生產環境中以提供服務的過程。 * 稀疏化（Sparsification）：將大部分權重變為零以減少計算量與記憶體需求。 * 梯度（Gradient）：損失函數對權重的偏導數，用於更新參數。 * 損失函數（Loss Function）：衡量模型預測與真實標籤之間誤差的函數。 * 最佳化器（Optimizer）：調整模型參數以最小化損失函數的演算法。 * 學習率（Learning Rate）：控制每次梯度更新幅度的超參數。 * 遷移學習（Transfer Learning）：將一個任務上學到的知識應用到新任務。 * 梯度裁剪（Gradient Clipping）：限制梯度值大小以避免梯度爆炸。 * 梯度消失（Vanishing Gradient）：深層網路中梯度逐漸趨近零導致學習停滯的問題。 * 激活值（Activation Value）：神經元經激活函數後的輸出。 * 正規化（Regularization）：防止過擬合的技巧，如 L1 或 L2。 * 批正規化（Batch Normalization）：在小批次資料上標準化輸入以加快收斂。 * 層正規化（Layer Normalization）：對每層輸入進行標準化的技巧。 * 權重初始化（Weight Initialization）：設定模型初始權重的方法。 * 殘差連接（Residual Connection）：將輸入直接加到輸出以避免梯度消失。 * 自注意力（Self-Attention）：Transformer 模型的核心機制，用於建模序列中任意位置的關係。 * 注意力頭（Attention Head）：多頭注意力機制中獨立計算注意力的部分。 * 多頭注意力（Multi-Head Attention）：並行多組注意力計算以捕捉不同特徵。 * 前饋層（Feed-Forward Layer）：Transformer 中的全連接神經網路子層。 * 位置編碼（Positional Encoding）：在序列模型中加入位置信息的方法。 * 層數深度（Depth of Layers）：模型包含的隱藏層數量。 * 隱藏單元（Hidden Unit）：隱藏層中的神經元數量。 * 批次大小（Batch Size）：每次更新參數所處理的樣本數量。 * 訓練週期（Epoch）：完整使用一次訓練資料的過程。 * 小批次（Mini-Batch）：將大資料集分割成小部分進行訓練。 * 過擬合（Overfitting）：模型在訓練資料表現良好但在測試資料表現差的現象。 * 欠擬合（Underfitting）：模型無法有效學習訓練資料的模式。 * 泛化能力（Generalization）：模型在未見資料上仍表現良好的能力。 * 梯度下降（Gradient Descent）：透過梯度更新權重的核心演算法。 * 隨機梯度下降（Stochastic Gradient Descent, SGD）：隨機取樣更新權重的梯度下降方法。 * Adam 優化器（Adam Optimizer）：自適應學習率的最佳化演算法。 * RMSProp：透過平方梯度平均調整學習率的最佳化器。 * 捨棄法（Dropout）：隨機丟棄神經元以防止過擬合。 * 注意力遮罩（Attention Mask）：限制注意力機制只關注特定位置。 * 預訓練（Pre-training）：在大規模資料上進行初始訓練以學習通用表示。 * 微調資料集（Fine-tuning Dataset）：針對特定任務的小型資料集。 * 任務特化（Task-Specific Adaptation）：調整模型以應用於特定應用場景。 * 零樣本學習（Zero-Shot Learning）：在未見過的任務上直接應用模型。 * 少樣本學習（Few-Shot Learning）：在少量範例下快速適應新任務。 * 上下文學習（In-Context Learning）：模型僅依靠輸入提示中的範例進行推理。 * 指令微調（Instruction Tuning）：透過指令樣本微調模型以提升指令理解能力。 * RLHF（Reinforcement Learning with Human Feedback）：結合人類回饋的強化學習訓練。 * 對齊（Alignment）：讓模型的行為符合人類價值與需求。 * 記憶體頻寬（Memory Bandwidth）：資料在記憶體與處理器之間傳輸的速率。 * 硬體親和性（Hardware Affinity）：模型運算與硬體架構的匹配程度。 * SIMD（Single Instruction, Multiple Data）：處理器一次操作多筆資料的技術。 * 矩陣分解（Matrix Decomposition）：將矩陣分解以降低計算成本的方法。 * 動態範圍（Dynamic Range）：數值表示可涵蓋的範圍大小。 * 參數共享（Parameter Sharing）：在模型中重複使用相同參數以減少計算。 * 知識壓縮（Knowledge Compression）：透過壓縮模型保留知識的過程。 * GPU 計算核心（CUDA Core）：NVIDIA GPU 上的基礎計算單元。 * TPU 張量核心（Tensor Core）：Google TPU 上專為矩陣運算優化的核心。 * Gemma：Google 釋出的開放權重大型語言模型系列，支援研究與微調使用。 * Gemma 2B：擁有約 20 億參數的輕量版本，適合在單張 GPU 上進行微調與推理。 * Gemma 7B：約 70 億參數的中型版本，提供更高表現但需較多資源。 * 開放權重（Open-Weights）：提供已訓練權重供下載與微調，但可能附帶特定使用條款。 * 使用授權條款（License/Terms）：存取與使用模型前須同意的法律條款與限制。 * Hugging Face 存取權杖（Access Token）：存取受限模型與資料集時使用的認證憑證。 * Transformers 函式庫：Hugging Face 提供的 NLP/LLM 標準工具集，用於載入模型、訓練與推理。 * AutoTokenizer：根據模型名稱自動載入相容分詞器的工具。 * AutoModelForCausalLM：載入自迴歸語言模型以進行文本生成與微調的介面。 * 監督式微調（SFT）：以「輸入→期望輸出」配對資料直接最小化損失的微調方法。 * TRL：Transformers Reinforcement Learning 套件，亦提供 SFTTrainer 等訓練工具。 * SFTTrainer：簡化 SFT 設定與訓練流程的高階訓練器。 * bitsandbytes（bnb）：支援 8/4 位元量化與高效權重載入的加速庫。 * 4-bit 量化：將權重以 4 位元表示以降低記憶體佔用並加速訓練/推理。 * NF4（NormalFloat4）：針對 4 位元權重量化的分佈對應策略，改善精度保持。 * bfloat16（BF16）：16 位元浮點格式，兼顧動態範圍與效能，常作為計算精度。 * BitsAndBytesConfig：設定 bnb 量化行為（如 load\_in\_4bit、quant\_type、compute\_dtype）的物件。 * LoRA（Low-Rank Adaptation）：於低秩子空間訓練少量參數以達成高效微調的技術。 * QLoRA：在 4-bit 量化基座上套用 LoRA，進一步降低記憶體需求的微調流程。 * 秩（Rank, r）：LoRA 低秩分解的維度，影響可學習能力與顯存開銷。 * 目標模組（Target Modules）：指定套用 LoRA 的權重張量（如 q\_proj、k\_proj、v\_proj、o\_proj 等）。 * 裝置映射（device\_map）：定義模型層如何分配到可用裝置（GPU/CPU）。 * CUDA：NVIDIA GPU 上進行加速運算的平行計算平台。 * 分詞（Tokenization）：將文本轉換為模型可處理的 token 序列之過程。 * 最大新標記數（max\_new\_tokens）：生成時允許模型輸出的最大 token 數。 * 溫度（Temperature）：調整取樣隨機性的參數，越高越具多樣性。 * Top-k 取樣：僅於最高機率的 k 個 token 中進行隨機取樣。 * Top-p（核取樣）：在累積機率達到 p 的候選集合內進行取樣。 * 注意力遮罩（Attention Mask）：指示模型在序列中應關注或忽略的位置。 * 輸入 ID（Input IDs）：分詞後的整數化 token 序列，作為模型輸入。 * Datasets 函式庫：Hugging Face 的資料集載入與處理工具。 * 資料切分（Train/Test Split）：將資料集分為訓練與評估部分的流程。 * 批次大小（per\_device\_train\_batch\_size）：每個裝置在單步訓練時處理的樣本數。 * 梯度累積（gradient\_accumulation\_steps）：累積多步梯度後再進行一次參數更新。 * 預熱步數（warmup\_steps）：逐步提升學習率以穩定早期訓練。 * 學習率（learning\_rate）：控制每次參數更新幅度的核心超參數。 * 最大步數（max\_steps）：訓練總步數上限，便於快速實驗與資源控制。 * 混合精度訓練（fp16/BF16）：以半精度計算降低顯存佔用並提升吞吐量。 * 檢查點（Checkpoint）：保存模型與訓練狀態，便於中斷續練與回滾。 * 模型卡（Model Card）：描述模型訓練資料、預期用途與限制的文件。 * 文本生成（generate）：呼叫模型進行自動續寫或問答輸出的 API。 * 跳過特殊標記（skip\_special\_tokens）：解碼時移除 BOS/EOS 等控制標記。 * 快取目錄（HF Cache）：本地快取已下載的模型與資料以加速重複使用。 * 凍結基座權重（Freeze Base）：只訓練 LoRA/適配層，基礎權重保持不變。 * PEFT（參數效率微調）：總稱只調整少量參數以達成微調的技術族群。 * 評估指標（Evaluation Metrics）：用於衡量微調成效的量化指標（如困惑度）。 * 損失曲線（Loss Curve）：隨訓練步數變化的損失趨勢，用於監控收斂。 * 訓練日誌（Trainer Logs）：自動記錄訓練過程的超參數、指標與時間。 * 推理部署（Inference Serving）：將微調後模型包裝成 API/服務供應用端呼叫。 * 隨機種子（Seed）：固定隨機性以利實驗可重現與結果對齊。 * Prompt 工程（Prompt Engineering）：設計輸入提示以誘導模型產生期望輸出的技術。 * Few-shot 提示（Few-shot Prompting）：在提示中加入少量範例以引導模型完成任務。 * Zero-shot 提示（Zero-shot Prompting）：不提供範例，僅靠指令讓模型完成任務。 * In-context Learning（上下文學習）：模型僅依靠提示內提供的資訊進行臨時學習。 * 指令調優（Instruction Tuning）：以大量「指令-回應」資料對模型進行微調。 * RLHF（Reinforcement Learning from Human Feedback）：利用人類偏好訊號進行強化學習以對齊模型行為。 * Alignment（模型對齊）：使模型輸出符合人類價值觀與使用需求的過程。 * Eval 基準（Benchmark Evaluation）：使用標準化測試集比較不同模型表現。 * MMLU（Massive Multitask Language Understanding）：常見語言模型基準測試集合。 * TruthfulQA：評估模型在問答中真實性與正確性的基準。 * HellaSwag：測試模型在常識推理任務上的基準。 * ARC（AI2 Reasoning Challenge）：檢驗模型科學推理能力的基準數據集。 * GSM8K：用於數學文字題推理能力的標準基準。 * BLEU 分數：機器翻譯與文本生成中用於比較輸出與參考答案相似度的指標。 * ROUGE 分數：評估摘要任務的常用指標。 * perplexity（困惑度）：語言模型在序列預測中對資料集的擬合程度。 * Checkpoint Averaging：對多個訓練檢查點取平均以平滑性能。 * Early Stopping（提早停止）：當驗證集表現不再提升時停止訓練以避免過擬合。 * Cross-Entropy 損失：常見的分類與語言模型損失函數。 * Token 限制（Context Window）：模型能同時處理的最大 token 數量。 * KV Cache（Key-Value Cache）：推理時儲存注意力計算結果以加速長序列生成。 * Streaming 生成（Streaming Generation）：即時逐字輸出模型生成結果。 * 混合專家模型（Mixture of Experts, MoE）：僅啟用部分專家子網路以提升效率。 * 分布式訓練（Distributed Training）：在多 GPU 或多機環境中平行訓練模型。 * 資料並行（Data Parallelism）：將資料分片並行分配到多個裝置訓練。 * 模型並行（Model Parallelism）：將模型分層或分塊分配到多裝置運算。 * 張量並行（Tensor Parallelism）：將矩陣運算拆分並行處理以加速計算。 * 檢索增強生成（RAG）：結合外部文件檢索與生成模型回答問題。 * 向量資料庫（Vector Database）：儲存並檢索文本向量嵌入以支援語意搜尋。 * Embedding（嵌入向量）：將文字或符號轉換為連續向量空間的表示方式。 * 檢索器（Retriever）：從外部知識庫中找出與查詢最相關的資料模組。 * 解碼策略（Decoding Strategy）：控制生成文本品質與多樣性的演算法集合。 * Greedy Decoding（貪婪解碼）：每步選取最高機率的 token。 * Beam Search：同時保留多條候選序列以尋找最佳生成結果。 * Contrastive Decoding：利用對比分數過濾低質輸出以提升生成品質。 * Temperature Scaling：透過調整 softmax 溫度控制輸出隨機性。 * Data Collator：將樣本批次化並轉換為訓練所需張量的工具。 * Attention Dropout：在注意力權重上隨機丟棄部分連結以防止過擬合。 * FlashAttention：高效注意力計算演算法，降低記憶體與時間消耗。 * Rotary Position Embedding（RoPE）：透過旋轉矩陣方式編碼位置資訊。 * ALiBi（Attention with Linear Biases）：線性偏移式位置編碼，支援長序列外推。 * 跨層共享（Layer Sharing）：多層 Transformer 共用相同參數以降低模型大小。 * 檢查點合併（Checkpoint Merge）：將多個 LoRA 或微調結果融合回基座模型。 * 模型壓縮（Model Compression）：包含量化、剪枝與知識蒸餾的泛稱。 * 剪枝（Pruning）：刪除冗餘權重或神經元以減少模型規模。 * 知識蒸餾（Knowledge Distillation）：利用大模型訓練小模型模仿其輸出。 * Prompt-tuning：只調整提示向量而非全部模型參數的微調方法。 * Adapter-tuning：在模型層插入輕量適配器模組並僅訓練該部分。 * Prefix-tuning：學習序列前綴向量以引導模型生成。 * P-Tuning v2：改進版 prefix-tuning，支援更強泛化與多樣任務。 * 記憶高效微調（Memory-Efficient Finetuning）：利用量化與 LoRA 等技術降低顯存需求。 * Streaming Dataset：邊下載邊訓練的大規模資料處理方法。 * Checkpoint Sharding：將模型檢查點分割存放以便在分布式訓練下載入。 * Model Hub：集中存放與分享預訓練模型的平台，如 Hugging Face Hub。 * 無程式開發（No-code）：以拖拉元件與表單設定取代手寫程式，快速打造應用與流程。 * 低程式開發（Low-code）：少量程式碼搭配視覺化編排，兼顧彈性與開發效率。 * 視覺化流程編排（Visual Orchestration）：以畫布連接節點形成資料與控制流程的圖形化設計。 * 節點（Node）：流程中的功能單元，如「查詢資料庫」「呼叫 LLM」「檢索文件」。 * 邊（Edge）：串接節點的連線，定義資料與控制流的走向。 * 事件觸發（Trigger）：啟動流程的事件來源，如 HTTP 請求、排程、Webhook。 * Webhook：外部系統以 HTTP 回呼通知事件，觸發管線執行。 * API 金鑰（API Key）：調用外部服務的憑證字串，需妥善保護與輪替。 * 環境變數（Environment Variable）：以變數方式注入密鑰與設定，避免硬編碼。 * 連接器（Connector）：與外部系統（搜尋、雲端硬碟、CRM、DB）溝通的可重用介面。 * 資料來源（Data Source）：流程可讀取的原始內容，如檔案、URL、知識庫。 * 資料攝取（Ingestion）：將外部資料導入系統並建立索引或向量的過程。 * 文字分塊（Chunking）：將長文切成較短的片段，以利嵌入與檢索。 * 向量化（Vectorization）：把文本轉為高維向量表示以支援語意檢索。 * 嵌入模型（Embedding Model）：產生語意向量的模型，影響檢索品質與成本。 * 向量資料庫（Vector Database）：儲存與查詢向量的資料庫（如 FAISS、Pinecone、Chroma）。 * 相似度搜尋（Similarity Search）：以向量距離找到與查詢最相近的文本片段。 * 檢索增強生成（RAG）：先檢索相關內容，再將其餵給 LLM 生成更準確回覆。 * 檢索器（Retriever）：封裝檢索邏輯的組件，輸入查詢輸出相關片段。 * 重排序（Reranking）：用更強模型對初步檢索結果重排，提升相關性。 * 提示模板（Prompt Template）：含佔位符的提示字串，將上下文與指令格式化注入。 * 系統提示（System Prompt）：為模型設定角色與行為規則的上層指令。 * 角色指令（Role Instruction）：針對不同任務角色（助理、工具、使用者）定義的提示。 * 工具調用（Function/Tool Calling）：模型結構化輸出函式參數，由系統執行外部工具。 * 搜尋代理（Search Agent）：能自動規劃與迭代搜尋/檢索步驟的智能代理。 * 記憶體模組（Memory Module）：保存對話歷史或長期事實以供後續輪次引用。 * 對話狀態（Conversation State）：對話中的暫存資料，如使用者目標、先前答案。 * 管道（Pipeline）：由多個步驟組成的處理鏈，定義資料從輸入到輸出的全流程。 * 工作流引擎（Workflow Engine）：負責排程、依賴與容錯的流程執行核心。 * 併發/並行（Concurrency/Parallelism）：同時執行多個步驟或請求以提高吞吐。 * 重試策略（Retry Policy）：失敗時按次數與退避時間自動重試以提高可靠性。 * 超時控制（Timeout）：限制步驟最長執行時間，避免資源被長佔。 * 速率限制（Rate Limiting）：限制每秒/每分鐘呼叫次數，防止爆量與封鎖。 * 觀測性（Observability）：藉由日誌、追蹤、指標了解系統健康與瓶頸。 * 分散式追蹤（Distributed Tracing）：跨節點標記請求路徑，定位延遲來源。 * 指標監控（Metrics）：收集 QPS、延遲、錯誤率、成本等可量測指標。 * 提示評測（Prompt Evaluation）：離線或線上評估提示設計的品質與穩定性。 * A/B 測試：同時運行多版本流程/提示/模型以比較效果。 * 成本估算（Cost Estimation）：預估每請求的 token/計費，協助控管預算。 * 延遲剖析（Latency Profiling）：量測各步驟耗時，找出最慢段落並優化。 * 快取（Caching）：重複查詢與生成結果緩存，降低成本與延遲。 * 結果去重（Deduplication）：移除重複檢索片段或答案，提升可讀性。 * 上下文管理（Context Management）：控制注入模型的片段數量與長度以避免溢出。 * 安全護欄（Safety Guardrails）：在輸出前過濾敏感/違規內容或遮蔽機密。 * 紅隊測試（Red Teaming）：以對抗性測試檢驗安全與魯棒性。 * 憑證保管（Secrets Vault）：集中加密保存 API 金鑰與密碼的服務。 * 權限最小化（Least Privilege）：只授與所需最低權限，降低憑證外洩風險。 * 多租戶（Multi-tenancy）：同平台隔離多客戶/專案的資料與資源。 * 版本控管（Versioning）：對流程、提示、設定與模型版本化，支援回滾。 * 部署端點（Inference Endpoint）：對外提供 HTTP/WS 介面的可擴展推理服務。 * 編排（Orchestration）：將多個 LLM、工具與資料源組合成完整應用的過程。 * Chain（鏈）：一系列順序執行的步驟，每一步使用前一步的輸出。 * Agent（智能代理）：能根據任務動態選擇工具、規劃步驟的 LLM 應用模式。 * ReAct（Reason + Act）：結合推理與動作的代理框架，常用於工具呼叫。 * Toolformer：Meta 提出的讓模型自學工具使用的方法。 * Guardrails AI：一種加在 LLM 輸入輸出上的約束框架，確保安全與合規。 * JSON Schema 驗證：以結構化格式限制模型輸出符合特定欄位/型別。 * Few-shot Chain-of-Thought：在提示中給出少量逐步推理範例以強化邏輯。 * Self-consistency 解碼：生成多條推理路徑並投票選出最一致答案。 * Function Calling（函式調用）：讓模型直接輸出函式參數，由系統執行後回填結果。 * Multi-modal Pipeline（多模態管線）：同時處理文字、影像、音訊等多模態輸入輸出。 * OCR（Optical Character Recognition）：影像轉文字技術，常作為文件 Q\&A 前處理。 * Speech-to-Text（STT）：語音輸入轉成文字以供 LLM 使用。 * Text-to-Speech（TTS）：將 LLM 生成的文字回覆轉換成語音。 * Workflow Template（流程範本）：可重用的預設管線結構，加速專案啟動。 * Multi-turn Dialogue（多輪對話）：LLM 保持上下文狀態以支援持續互動。 * Context Window 管理：控制能送進模型的最大 token 數。 * Sliding Window 技術：用於長文本處理的窗口滑動策略。 * Chunk Overlap（分塊重疊）：切分文本時保留部分上下文以減少資訊斷裂。 * Streaming Response：LLM 逐 token 輸出，前端可即時顯示。 * Rate Limiter：限制 API 請求速率的中介模組。 * Queue（佇列）：排隊執行大量請求，避免超載。 * Circuit Breaker（斷路器）：在外部服務異常時暫停呼叫以防雪崩效應。 * Retries with Backoff（退避重試）：每次失敗後以遞增等待時間重試。 * API Gateway：集中處理驗證、速率限制、路由的請求入口。 * Observability Stack：包含日誌、監控、追蹤的整體可觀測性工具組。 * Token Usage Tracking：記錄並統計 LLM 的 token 消耗。 * Cost Dashboard：提供即時成本分析與警報。 * Synthetic Data Generation：利用 LLM 生成額外訓練資料。 * Data Augmentation：透過改寫、翻譯、同義詞替換增加樣本多樣性。 * Evaluation Harness：一組自動化腳本測試模型/管線的品質。 * Human-in-the-loop（HITL）：讓人工介入模型輸出以修正或標記。 * Active Learning：模型選出最具不確定性的樣本交由人類標註。 * Safety Classifier：在輸出前利用分類器檢測不當內容。 * Content Moderation API：檢測暴力、仇恨、敏感資訊的外部 API。 * Prompt Injection 攻擊：惡意輸入覆蓋原有指令，誘導模型外洩或越權。 * Data Leakage 風險：模型可能輸出訓練中出現的敏感資訊。 * Synthetic Monitoring：自動腳本定期測試 API 與輸出品質。 * Canary Deployment（金絲雀部署）：新版本先給小部分流量測試。 * Rollback（回滾）：在錯誤時迅速切回舊版本。 * SLA（Service Level Agreement）：服務等級協議，規範可用性與響應時間。 * Latency SLO：針對延遲的服務目標，確保體驗穩定。 * Cloud-native Pipeline：利用雲端服務（如 AWS、GCP、Azure）構建可擴展流程。 * Serverless Function：事件驅動的輕量運算單元，用於 API 延伸。 * Containerization（容器化）：將流程元件封裝於 Docker/Kubernetes 中部署。 * Horizontal Scaling（水平擴展）：增加節點數量以處理更多請求。 * Vertical Scaling（垂直擴展）：提升單節點硬體資源以增加處理能力。 * Multi-cloud Strategy：同時部署於多個雲供應商，提升彈性。 * Edge Deployment（邊緣部署）：將推理服務放在靠近使用者的節點以減少延遲。 * Hybrid Pipeline：結合雲端與本地端元件的混合架構。 * BYOM（Bring Your Own Model）：用戶可上傳自有模型至平台運行。 * Model Registry：集中管理與版本控管模型的元資料庫。 * API-first 設計：所有功能皆透過 API 對外暴露，方便整合。 * 自定義資料（Custom Data）：針對特定領域或公司知識整理的專屬訓練語料，用於讓模型學會專業表達與風格。 * 指令—回應格式（Instruction–Response）：將每筆樣本寫成「instruction」「response」鍵值對，便於監督式微調。 * 資料標註（Annotation）：為原始文本補上目標輸出或標籤，使其可用於監督學習。 * 資料清洗（Data Cleaning）：移除雜訊、錯字、HTML 標籤與格式錯亂，確保訓練品質。 * 資料去重（Deduplication）：刪除重複樣本，避免過擬合與評測失真。 * 資料切分（Data Split）：依比例分成訓練/驗證/測試集，保證泛化與客觀評估。 * 工作空間（Workspace）：雲端平台中的資源邏輯邊界，包含模型、資料與金鑰。 * 工作空間 ID（Workspace ID）：用於 API 與 SDK 鎖定目標工作空間的唯一識別碼。 * 存取權杖（Access Token）：呼叫平台 API/SDK 的憑證，須妥善保管與定期輪替。 * SDK（軟體開發套件）：封裝平台能力的程式庫，簡化登入、訓練與推理流程。 * Python SDK：以 Python 調用平台功能的套件，方便在 Colab/Notebook 實驗。 * 基座模型（Base Model）：微調所依據的預訓練模型，如 Llama、Mistral、BLOOM 等。 * 模型別名/Slug（Model Slug）：在平台或 API 中定位特定基座模型的短名稱。 * 模型適配器（Model Adapter）：在基座上附加的可訓練層或權重分支，便於快速微調與版本化。 * 參數效率微調（PEFT）：只訓練少量附加參數（如 LoRA），大幅降低顯存與成本。 * LoRA（Low-Rank Adaptation）：以低秩分解擴充線性層，訓練少量參數達成遷移。 * QLoRA：在 4-bit 量化基座上套用 LoRA，進一步壓低資源需求。 * 迭代/訓練週期（Epoch）：完整走訪一遍訓練集的次數，常與早停機制搭配。 * 批次大小（Batch Size）：每步權重更新所處理的樣本數，影響穩定性與吞吐。 * 梯度累積（Gradient Accumulation）：多步累積梯度再更新，等效放大批次而不爆顯存。 * 學習率（Learning Rate）：控制參數更新幅度的超參數，過大易發散、過小易停滯。 * 學習率排程（LR Scheduler）：隨訓練進程動態調整學習率（如線性遞減、餘弦）。 * 提前停止（Early Stopping）：驗證指標不再提升即終止訓練，防止過擬合。 * 損失函數（Loss Function）：衡量預測與真值差距的函數，SFT 常用交叉熵。 * 監督式微調（SFT）：以（指令，標準答案）對進行有教師信號的微調方法。 * 提示模板（Prompt Template）：帶佔位符的輸入格式，統一樣本樣式與系統規則。 * 系統訊息（System Prompt）：描述助理角色與邊界，穩定輸出風格與安全行為。 * 上下文長度（Context Window）：模型可同時處理的最大 token 數，影響檢索與提示設計。 * 最大新標記數（Max New Tokens）：生成階段允許輸出的 token 上限，防止失控冗長。 * 生成 API（Completion/Generate）：對外推理端點，輸入提示輸出模型續寫。 * 檢查點（Checkpoint）：定期保存權重與訓練狀態，支援中斷續練與回滾。 * 模型版本（Model Versioning）：為不同微調結果建立可追溯版本，便於測試與發布。 * 作業（Training Job）：在平台上啟動的一次訓練任務，含狀態、日誌與資源配置。 * 佇列與排程（Queue & Scheduler）：多任務排隊與資源分配機制，確保公平與穩定。 * 訓練日誌（Training Logs）：記錄損失/指標/錯誤，支援除錯與觀測性。 * 事件回呼（Callback/Webhook）：在特定里程碑（開始/完成/失敗）通知外部系統。 * 成本追蹤（Cost Tracking）：統計訓練與推理花費，便於預算控管與優化。 * 指標儀表板（Metrics Dashboard）：可視化延遲、吞吐、錯誤率與 PPL 等指標。 * 部署端點（Inference Endpoint）：將微調模型封裝為可水平擴展的 HTTP/WS 服務。 * Bring Your Own Data（BYOD）：使用者上傳內部文件與知識，打造專屬能力。 * 金鑰輪替（Key Rotation）：定期更新 API 金鑰，降低憑證外洩風險。 * 權限最小化（Least Privilege）：僅給必要權限，限制工作空間與資料存取範圍。 * 機密管理（Secrets Vault）：集中加密保存權杖與密碼，統一存取與稽核。 * 速率限制（Rate Limiting）：限制每秒請求數，保護服務穩定與成本。 * 錯誤處理/重試（Retry with Backoff）：失敗自動重試並退避，提升健壯性。 * 效能剖析（Profiling）：量測瓶頸（資料讀取、前處理、前向/反向）並針對優化。 * 數據治理（Data Governance）：規範來源、血緣、版控與存取審計，確保可追溯。 * 隱私與合規（PII/Compliance）：處理個資與敏感內容時遵循法規與遮罩策略。 * RAG 整合（Retrieval-Augmented Generation）：微調外，也可結合檢索以降低幻覺。 * 線上評測/AB 測試（Online Evaluation）：多版本同時上線對比品質、成本與轉換率。 * 推理快取（Inference Cache）：重複查詢直接回應快取結果，降低延遲與花費。 * Few-shot 微調（Few-shot Fine-tuning）：只需少量標註樣本即可讓模型學習特定任務。 * Zero-shot 泛化（Zero-shot Generalization）：未經微調也能處理新任務，常作為微調對照。 * 指令微調（Instruction Tuning）：讓模型學會遵循自然語言指令輸出預期格式。 * 多任務微調（Multi-task Fine-tuning）：同時在多種任務資料上訓練，提升泛化能力。 * 多輪對話微調（Dialogue Fine-tuning）：針對聊天場景的上下文連貫性訓練。 * 知識蒸餾（Knowledge Distillation）：將大型模型知識壓縮轉移至小型模型。 * 蒸餾學生模型（Student Model）：透過模仿教師模型學習分布的小模型。 * 教師模型（Teacher Model）：提供輸出分布與中間層特徵的基座模型。 * 指標函數（Metric Function）：衡量輸出品質的計算方式，如 BLEU、ROUGE、F1。 * 困惑度（Perplexity, PPL）：衡量語言模型預測分布不確定性的標準。 * BLEU 分數（Bilingual Evaluation Understudy）：翻譯/生成品質評估指標。 * ROUGE 分數（Recall-Oriented Understudy for Gisting Evaluation）：摘要與生成品質衡量。 * F1 分數（F1 Score）：分類/序列標註的精確率與召回率調和平均。 * Macro vs Micro Averaging：多類別指標計算方式，Macro 均等權重，Micro 加權總體。 * Cross-validation（交叉驗證）：多折分割數據重複訓練，檢驗穩定性。 * 遷移學習（Transfer Learning）：將一任務學到的知識應用於另一任務。 * 多語言微調（Multilingual Fine-tuning）：在多語言語料上調整，提升跨語言表現。 * 分層學習率（Layer-wise Learning Rate Decay）：淺層低 LR，深層高 LR。 * 混合精度訓練（Mixed Precision Training）：結合 FP16/FP32 計算，加速並節省顯存。 * 梯度裁剪（Gradient Clipping）：限制梯度範圍，避免梯度爆炸。 * 權重凍結（Weight Freezing）：固定部分參數不更新，專注於新層微調。 * Prompt-tuning：在輸入前附加可訓練提示向量，不改動主模型。 * Prefix-tuning：只訓練加在注意力前綴的參數，高效低成本。 * Adapter-tuning：在每層插入小型瓶頸模塊，僅訓練此部分。 * 模型壓縮（Model Compression）：縮小模型以便於邊緣或低資源部署。 * 知識剪枝（Pruning）：刪除冗餘權重或節點以減小模型。 * 量化感知訓練（QAT, Quantization Aware Training）：在訓練過程中模擬低位元操作。 * 動態量化（Dynamic Quantization）：推理階段才將權重轉換為低位元。 * 靜態量化（Static Quantization）：需蒐集校正數據，提前映射到低位元表示。 * 混合專家模型（Mixture of Experts, MoE）：不同專家子網路負責不同樣本或 token。 * 路由機制（Routing Mechanism）：MoE 中選擇哪些專家參與推理的規則。 * 正則化（Regularization）：如 L2、Dropout，用於防止過擬合。 * Dropout：隨機屏蔽神經元，提升泛化能力。 * Label Smoothing：在目標分布上加平滑，避免過度自信。 * Temperature Scaling（溫度縮放）：控制 softmax 輸出分布平滑度。 * Beam Search：在生成任務中保留多路候選，提升序列品質。 * Top-k 抽樣：僅從機率最高的 k 個 token 中隨機取樣。 * Top-p 抽樣（Nucleus Sampling）：在累積機率 p 內的 token 中隨機取樣。 * Repetition Penalty：降低模型重複生成相同序列的傾向。 * 停用詞過濾（Stop-word Filtering）：防止輸出無意義或冗餘的詞彙。 * 線上學習（Online Learning）：模型隨著新數據持續更新。 * 增量學習（Incremental Learning）：逐步擴充知識而不忘舊任務。 * 避免災難性遺忘（Catastrophic Forgetting）：設計策略讓模型保留舊知識。 * 知識混合（Knowledge Fusion）：將來自不同資料源的知識整合進模型。 * 知識更新（Knowledge Refresh）：週期性重新微調以引入最新知識。 * 專領域語料（Domain-specific Corpus）：如法律、醫療、金融領域資料。 * Few-shot Prompting：在推理時給少量示例，模擬小樣本學習。 * In-context Learning（上下文學習）：模型僅憑提示內資訊完成任務。