📌 Parameter‑Efficient Fine‑Tuning（PEFT）技術總整理

# 📌 Parameter‑Efficient Fine‑Tuning（PEFT）技術總整理以下整理幾種主流的 PEFT 方法，適合只更新少量參數快速微調大型模型： --- ### 🔹 LoRA（Low‑Rank Adaptation） - **核心理念**：保持預訓練參數不動，於 Transformer 層中注入低秩矩陣 \(A, B\)，僅更新這些矩陣 - **效能**：參數效率高（<1%），在 GPT‑3 等模型上能減少多達 10,000 倍的可訓練參數，提速 3 倍，且不影響推論延遲 --- ### 🔹 Adapter（適配器） - **核心理念**：於每層 Transformer 內加入瓶頸結構（down → up projection），只訓練這些瓶頸層 {index=3}。 - **效能**：更新約 0.5–8% 參數，表現接近 full‐tuning，支援多任務切換 --- ### 🔹 Prefix / Prompt Tuning - **Prefix Tuning**： - 訓練時將可學習前綴向量加在每層 hidden state 前 - 只需 ~0.1% 參數，生成任務中效果佳，但在大型 LLM 上略弱於 LoRA - **Prompt Tuning**： - 僅訓練輸入層的 soft‑prompt tokens，在 SuperGLUE 等任務表現可與 full‑tuning 近似 --- ### 🔹 BitFit（只微調偏置） - **核心理念**：僅更新 Transformer 的 bias 參數（≈0.05–0.1%），其餘全部凍結 - **效能**：訓練速度快且表現可接近 full‑tuning，適合小資料與 on-device 使用 --- ### 🔹 IA³（Inner‑layer Scaling） - **核心理念**：在 attention / FFN 中引入可訓練縮放向量，保持原參數不動 - **效能**：參數極少，功能與 LoRA 相似，推論速度不受影響。 --- ### 🔹 QLoRA（Quantized LoRA） - **核心理念**：在 4‑bit 量化模型上使用 LoRA，進一步節省記憶體 - **效能**：可於單 GPU 微調 7B+ 模型，略有精度妥協，但實用性高。 --- ### 🔹 KronA、ReFT、DoRA…（其他進階） - **KronA**：利用 Kronecker 乘積提升 LoRA 有效秩比 - **ReFT（Representation Fine‑Tuning）**：微調表徵而非參數，效率更高，可視為低階 ReFT（LoReFT） - **DoRA**：將 LoRA 更新拆為方向＋大小，提升穩定性且推論性能優化 --- ### 📋 PEFT 方法比較表 | 方法 | 更新比例 | 核心思路 | 優勢 | 限制／注意事項 | |-----------------|------------------|-------------------------------------|----------------------------------|----------------| | **LoRA** | <1% | 注入低秩矩陣更新權重 | 高效、接近 full‑tune，無推論延遲 | 需設 rank、初始值；推論需矩陣融合 | | **Adapter** | 0.5–8% | 插入瓶頸子網路 | 模組化強、多任務支援 | 增加延遲；需設 lake 結構設計 | | **Prefix Tuning**| ≈0.1% | 訓練前綴向量 | 生成任務效果佳；記憶低 | 生成以外任務表現略差 | | **Prompt Tuning**| ≈0.01% | 訓練 soft‑prompt tokens | extremely 低資源；few-shot 支援 | 難訓練，非生成任務收斂慢 | | **BitFit** | <0.1% | 僅訓練 bias | 超輕量；適用 on-device | 表現略限；複雜任務弱一些 | | **IA³** | <0.1% | 層內縮放向量 | 輕；類 LoRA 效能 | 還在研究中 | | **QLoRA** | LoRA on quantized| 4-bit + LoRA | 可在單 GPU 微 7B 模型 | 量化精度會掉一些 | | **ReFT, DoRA** | <1% | 表徵微調 / 拆解 LoRA 更新 | 更高效 / 更穩定 | 較新，工具成熟度差 | --- ### 🧭 選擇建議 - **想快速上手且兼顧效能** → LoRA 或 Adapter - **資源極度受限 / on-device 使用** → BitFit 或 IA³ - **生成任務 / prompt-based** → Prefix Tuning（或 Prompt Tuning 少參數版） - **單 GPU 微 7B+ 模型** → QLoRA - **追求 SOTA / 養成混合策略** → 可嘗試 DoRA、ReFT、KronA --- ### 🧠 趨勢觀察 - 混合式 PEFT（如 UniPELT、MAM Adapter）整合多種方法，多樣策略提升效能 - 最新 survey（2025）指出 PEFT 可結合理論、可解釋性與聯邦學習，往可持續與多模態演進 --- ### 參考 {%preview https://link.springer.com/article/10.1007/s10462-025-11236-4?utm_source=chatgpt.com %} {%preview https://erhwenkuo.github.io/huggingface/finetune/peft/adapter/understanding-llama-adapters/?utm_source=chatgpt.com#adapters %} {%preview https://medium.com/%40meghavalgi/a-survey-of-parameter-efficient-fine-tuning-peft-techniques-721a5b77d204 %}