【Hung-yi Lee Machine Learning L7】自監督式模型：以SUPERB為例

# 1. 語音處理基準（SUPERB） Speech processing Universal PERformance Benchmark（SUPERB）是一套用於評估自監督語音表示學習模型的統一基準。該基準涵蓋多種語音任務，並依據任務性質分類，有助於全面分析模型於不同應用場景下的效能。官方網站：https://superbbenchmark.org/ SUPERB 發表資訊： SUPERB 原始版本：發表於 INTERSPEECH 2021 論文連結：arXiv:2105.01051 SUPERB-SG（Semantic & Generative 擴充）：發表於 ACL 2022 論文連結：arXiv:2203.06849 SUPERB 將語音任務分為五大類，涵蓋從基礎內容理解到生成合成等不同層面： | 類別 | 任務名稱 | | ------------------ | ----------------------------------------------------------------- | | **Content** | Phoneme Recognition, Keyword Spotting, ASR, QbyE | | **Speaker** | Speaker Identification, Speaker Verification, Speaker Diarization | | **Paralinguistic** | Emotion Recognition | | **Semantic** | Intent Classification, Spoken Slot Filling, Speech Translation | | **Synthesis** | Voice Conversion, Speech Enhancement, Speaker Separation | # 2. 自我監督學習的五大方法 ## 2.1. Generative Approach（生成式） Generative Approach 透過遮蔽輸入的一部分，學習重建被遮蔽區域的內容。 ### 2.1.1. 語音代表模型 1.Mockingjay（模仿鳥模型）：架構類似 BERT。輸入聲學特徵向量，隨機遮蔽一部分，再訓練模型預測該部分。論文連結：arXiv:1910.12638。 2.APC（Autoregressive Predictive Coding）：類 GPT 結構，透過自回歸方式預測未來的語音表示。預測未來 $n > 3$ 的時間步（比文字預測更遠）。論文連結：arXiv:1910.12607。 ### 2.1.2. 圖像應用 1.GPT for image：使用像素作為離散單位，進行自回歸或遮蔽預測。官網參考：https://openai.com/blog/image-gpt/。 ## 2.2. Predictive Approach（預測式）不產生內容，而是預測變化、上下文或旋轉角度。 ### 2.2.1. 圖像代表模型 1.Rotation Prediction：給定旋轉角度（0°/90°/180°/270°），訓練模型辨識旋轉角度。論文連結：arXiv:1803.07728。 2.Context Prediction（Patch-based Prediction）：預測影像局部區塊的上下文或相對位置。論文連結：arXiv:1505.05192。 ### 2.2.2. 語音代表模型 1.HuBERT（Hidden-unit BERT）：將語音片段聚類為離散標籤，進行遮蔽預測。結合了生成與預測元素，並逐階段精化表示。論文連結：IEEE DOI: 10.1109/TASLP.2021.3139981。 ## 2.3. Contrastive Learning（對比式學習）拉近正樣本（positive pair），推遠負樣本（negative pair）的表示空間距離。 ### 2.3.1. 圖像代表模型 1.SimCLR：資料增強（顏色扭曲、模糊）後產生正樣本。使用投影頭（projection head）提升學習效果。論文連結：arXiv:2002.05709。 2.MoCo / MoCo v2：引入 memory bank 或 momentum encoder 改進負樣本管理。論文連結：MoCo: arXiv:1911.05722。MoCo v2: arXiv:2003.04297。 ### 2.3.2. 語音代表模型 1.CPC（Contrastive Predictive Coding）：使用 GRU 預測未來片段，與正負樣本進行對比。論文連結：arXiv:1807.03748。 2.Wav2vec 系列：Wav2vec 使用 CNN 編碼器。VQ-wav2vec 加入量化處理。論文連結：Wav2vec: arXiv:1904.05862。VQ-wav2vec: arXiv:1910.05453。 3.Wav2vec 2.0：結合 BERT 結構與量化標籤。同時學習連續表示與離散標籤。論文連結：arXiv:2006.11477。 ## 2.4. Bootstrapping（自我增強式）無需負樣本，透過對比自己的不同版本進行學習。 ### 2.4.1. 圖像代表模型 1.BYOL（Bootstrap Your Own Latent）：雙路徑架構，學生網路模仿教師網路，教師參數為學生的滑動平均。論文連結：arXiv:2006.07733。 2.SimSiam：單路徑結構，設計避免 collapse。論文連結：arXiv:2011.10566。 ### 2.4.2 語音代表模型 1.Data2vec：學生從教師不同層學習。論文連結：arXiv:2202.03555。 ## 2.5. Regularization（正規化式）加入額外限制，避免特徵 collapse 而無需引入負樣本。 ### 2.5.1. 代表模型 1.Barlow Twins：最小化跨樣本的特徵差異，同時促進分量之間的 decorrelation。論文連結：arXiv:2103.03230。 2.VICReg（Variance-Invariance-Covariance Regularization）：三重正規化目標為Invariance：正樣本應靠近。Variance：各維度有足夠變異，避免 collapse。Covariance：鼓勵特徵間解耦。論文連結：arXiv:2105.04906。 # 3. 自我監督學習的的架構設計：以BERT、GPT、Wav2vec 為例 | 模型 | 架構形式 | 預測目標 | 適用任務 | 特殊機制 | | --------------- | --------------------- | ---------------------------- | --------- | ----------------------------------- | | **BERT** | Encoder-only | 被遮蔽 token | 分類任務 | MLM，雙向上下文 | | **GPT** | Decoder-only | 下一個 token | 生成任務 | Causal Masking，單向 | | **Wav2vec 2.0** | Encoder + Transformer | Quantized token（contrastive） | 語音辨識、表示學習 | Quantization + Contrastive Learning | ## 3.1. BERT（MLM） BERT 為 Encoder-only 架構（雙向上下文建模）。隨機遮蔽輸入的 token，再訓練模型還原它們： $\text{Loss} = \sum_{i \in \text{mask}} \text{CrossEntropy}(x_i, \hat{x}_i)$ 具有以下特點： 1.適合需要理解「上下文語意」的任務，如分類、命名實體辨識。 2.預測目標為單一 token，屬於分類型任務。 3.代表模型：BERT、Mockingjay（語音版 BERT） ## 3.2. GPT（ALM） GPT 採 Decoder-only 架構（單向上下文建模）。預測序列中下一個 token： $\text{Loss} = \sum_{t=1}^{T} \text{CrossEntropy}(x_{t+1}, \hat{x}_{t+1})$ 具有以下特點： 1.適合生成型任務，如問答、摘要、翻譯。 2.使用 causal masking 確保左至右的順序性。 3.代表模型：GPT 系列、APC（語音版自回歸模型） ## 3.3. Wav2vec 與對比學習以 Wav2vec 2.0 為例。架構由 Encoder：提取連續聲學特徵（如 CNN），Quantizer：將特徵向量轉換為離散代碼（token），Transformer Encoder：建立 contextual representation（類似 BERT），Contrastive Objective：預測未來位置的正確 token。其為非分類任務，採用對比學習損失（InfoNCE）： $\mathcal{L} = - \log \frac{\exp(sim(z, q^+))}{\sum_{q^- \in \mathcal{Q}} \exp(sim(z, q^-))}$ 其中，$z$ 為 Transformer 輸出，$q^+$ 為正樣本（quantized token），$\mathcal{Q}$ 為包括正樣本與多個負樣本。 ### 3.3.1. 進階形式 1.Discrete BERT：將 quantized token 作為類 NLP token 餵入 BERT。 2.Wav2vec 2.0 Joint Training：將 encoder + quantizer + transformer 一起訓練，提升效能。 ## 3.4. 對比學習與分類訓練目標分析 ### 3.4.1. 分類（如 BERT） 1.有固定的 label set，使用 softmax 分類。 2.適合輸出明確 token 的任務。 ### 3.4.2. 對比學習（如 Wav2vec 2.0） 1.無需標籤，僅透過相似性學習。 2.訓練穩定性受「負樣本選擇」影響。 # 4. 無需負樣本的自我監督學習（Bootstrapping Approaches）傳統的對比學習方法依賴「正負樣本對比」來學習特徵，但選取適當的負樣本（hard negatives）不僅困難，也容易導致模型 collapse（特徵崩潰）。為了解決這個問題，近年來興起了一類無需負樣本的自我監督學習方法，稱為 Bootstrapping Approaches，透過模型自身特徵的「自我對齊」進行學習。 | 方法 | 是否需負樣本 | 是否需教師 | 特殊結構 | 適用範疇 | | -------- | ------ | ----- | -------------------- | ------------- | | BYOL | 否 | 是 | Momentum Encoder | Image, Speech | | SimSiam | 否 | 否 | Predictor + StopGrad | Image | | Data2vec | 否 | 是 | 多層目標對齊 | Multimodal | ## 4.1. Collapse 問題與設計動機如果模型只學習讓兩個輸入的輸出彼此接近，但沒有強制性分離的樣本，模型可能學會輸出常數向量，導致 representation collapse。解法如下： 1.引入一個「教師網路（target encoder）」，提供穩定學習目標。 2.學生網路（student encoder）透過模仿教師輸出來學習，但教師本身由學生網路的歷史狀態產生，形成一種自我引導（self-bootstrap）。 ## 4.2. BYOL：Bootstrap Your Own Latent BYOL 無需負樣本、無需對比損失函數，模型能穩定收斂且產生有用表示。論文連結：arXiv:2006.07733。 ## 4.3. SimSiam：無對比、無教師的簡化架構 SimSiam 訓練極為穩定，理論簡單，無需額外樣本設計。論文連結：arXiv:2011.10566。架構如下： 1.雙分支架構，但兩邊使用同一個 encoder，不使用 moving average。 2.關鍵為一個非對稱性結構（含 predictor）。 3.損失函數為 stop-gradient 的負 cosine similarity：$\mathcal{L} = - \cos(p_1, \text{sg}(z_2))$。其中，$p_1$ 為 predictor 輸出，$z_2$ 為另一分支的投影，$\text{sg}$ 表示 stop-gradient（不回傳梯度）。 ## 4.4. Data2vec：通用表徵學習於語音 Data2vec 使用 teacher network 產生多層 contextual representation，學生模型學習模仿整個序列的語義分佈。適用於語音、影像、文字等多模態，不做分類、不做對比，單純模仿。教師為過去版本的學生，透過 momentum update 實現。論文連結：arXiv:2202.03555。 # 5. 分群式自我監督學習（Clustering-based Self-supervised Learning）分群式自我監督學習方法（Clustering-based SSL）試圖透過無監督方式為資料建立「虛擬標籤（pseudo labels）」，將表徵學習問題轉化為傳統的分類任務，進而提升表示能力。這類方法在圖像與語音領域皆有成功應用。 ## 5.1. DeepCluster：迭代式聚類與分類 DeepCluster 可結合標準分類架構（如 ResNet）進行端到端訓練。每次聚類結果會不斷演進，幫助模型精化表徵。論文連結：arXiv:1807.05520。方法流程如下： 1.特徵提取：使用 Encoder 對未標註圖像進行嵌入提取。 2.聚類（Clustering）：對嵌入結果進行 K-means 聚類。 3.虛擬標籤產生：將聚類結果作為分類標籤。 4.分類訓練：將標籤作為 supervision，反向更新 encoder。 5.重複上述步驟直到收斂。 ## 5.2. BEST-RQ：語音領域中的分群與量化 BEST-RQ 改進量化器（quantizer）將聲學特徵轉為更穩定、語意一致的離散標籤。將 clustering 概念結合 BERT-like 結構，進行 masked prediction。提出 Residual Vector Quantization (RVQ)，提升對語音中細節資訊的保持能力。論文連結：arXiv:2202.01855。架構如下： 1.Encoder：提取語音特徵。 2.Quantizer：將連續特徵轉為離散 code。 3.Contextual Transformer：學習上下文表徵。 4.Masked Prediction Head：隨機遮蔽某些 token，進行重建。 ## 5.3. 分群方法在語音上的應用邏輯語音訊號不像圖像容易明確分辨形狀或邊界，因此透過分群方式建立 pseudo label 是一種有效手段，典型流程如下： ### 5.3.1. 語音聚類流程 1.對語音訊號進行特徵提取（如 Mel-spectrogram 或 raw waveform）。 2.利用 K-means、GMM 或矢量量化（VQ）對特徵進行聚類。 3.將聚類編號視為 token，輸入至類 BERT 結構，執行 masked prediction。 ### 5.3.2. 應用模型 1.HuBERT（Hidden-Unit BERT）：以分群結果為訓練 supervision 的經典語音模型 2.VQ-wav2vec、BEST-RQ：皆為量化分群類別的代表架構 ## 5.4. 分群法優劣與應用建議 | 優點 | 缺點 | | ------------------------- | ----------------------- | | 無需人工標籤，能自動產生 pseudo label | 聚類品質決定學習效果（初始不穩） | | 可與分類任務結合進行監督訓練 | 需額外聚類演算法與記憶體開銷 | | 適合結合 BERT/Transformer 結構 | 可能學不到 fine-grained 語意變化 | # 6. 對比學習策略細節與演進（SimCLR、MoCo、Wav2vec 系列）對比學習（Contrastive Learning）是自我監督學習中影響深遠的方法之一。其核心思想為：將相同語意的資料（positive pair）映射到相似的特徵空間，並同時將不同語意的資料（negative pair）推得更遠。本章介紹對比學習的經典方法與在語音上的演化。 ## 6.1. SimCLR：純粹對比 + 增強 SimCLR 不依賴特殊架構或記憶體設計，每個 batch 須提供大量負樣本，需大批量訓練。論文連結： arXiv:2002.05709。方法流程如下： 1.同一張圖片產生兩個不同資料增強版本（如顏色扭曲、模糊等），形成正對。 2.經過 Encoder 與 Projection Head 投影到對比空間。 3.使用 NT-Xent 損失（normalized temperature-scaled cross entropy loss）進行訓練： $\mathcal{L}{i,j} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum{k=1}^{2N} \mathbb{1}_{[k \neq i]} \exp(sim(z_i, z_k)/\tau)}$ 4.最終捨棄投影層，只保留 Encoder 進行下游任務。 ## 6.2. MoCo：動態字典與穩定對比 MoCo 使用動態 queue 儲存負樣本，不需大 batch。改進穩定性與效率，支援大規模對比學習。引入 Momentum Encoder 更新 key encoder： $\theta_k \leftarrow m\theta_k + (1 - m)\theta_q$ V2 加入投影層與 MLP，使用 SimCLR 資料增強策略。論文連結：MoCo: arXiv:1911.05722。MoCo v2: arXiv:2003.04297 ## 6.3. CPC 與 Wav2vec 系列 ### 6.3.1. CPC（Contrastive Predictive Coding） CPC 以 CNN Encoder 提取特徵，以 RNN/GRU 預測未來 $n$ 步表示。對比真實未來與隨機抽樣表示。論文連結：arXiv:1807.03748。 ### 6.3.2. Wav2vec（v1） Wav2vec（v1）使用 CNN 將語音切分為 latent 表示。引入負樣本進行對比學習。論文連結：arXiv:1904.05862。 ## 6.4. VQ-wav2vec：量化離散化與對比 VQ-wav2vec 使用 encoder 預測未來 token，與正負樣本比對。將連續特徵透過 Vector Quantization（VQ）轉為 token。將語音轉換為類似文字的離散學習問題。論文連結：arXiv:1910.05453。 ## 6.5. Wav2vec 2.0：BERT 架構上的對比學習 Wav2vec 2.0 架構如下： 1.Encoder：提取連續語音特徵。 2.Quantizer：轉為離散 code。 3.Transformer：建構 contextual 表示（類 BERT 架構）。 4.Contrastive loss：預測 masked frame 的正確 token 並拉近真實 token，拉遠其他候選 token。 | 項目 | BERT | Wav2vec 2.0 | | -------- | ------------- | ------------------ | | 預測目標 | 被遮蔽 token | 被遮蔽 frame 的 token | | 損失函數 | Cross-entropy | Contrastive loss | | token 來源 | vocabulary | quantized codebook | | 是否生成目標 | 是（分類） | 否（對比） | # 7. 預測式任務的設計與變化（Rotation、Context、Spectrogram）預測式自我監督學習（Predictive SSL）強調模型不需生成完整輸出，僅需根據輸入預測結構、變化或相對關係。這種方法在圖像與語音中各自發展出具代表性的設計，如影像旋轉判別、區塊相對位置預測，以及語音頻譜遮蔽與順序推理。 | 任務形式 | 輸入類型 | 預測目標類型 | 常見應用 | | ---------- | ----- | --------- | ---- | | 旋轉分類 | 圖像 | 離散角度類別 | 結構辨識 | | 區塊關係預測 | 圖像 | 相對位置類別 | 空間理解 | | 順序預測（APC） | 語音特徵 | 未來片段之向量表示 | 語音建模 | | 遮蔽重建（TERA） | 頻譜特徵圖 | 遮蔽區域之特徵重建 | 語音表示 | ## 7.1. 圖像旋轉預測（Rotation Prediction） Rotation Prediction 隨機將圖像旋轉 0°、90°、180° 或 270°。模型需判斷圖片被旋轉的角度，形成一個 4 類分類任務，學會理解圖像的邊緣、構圖與結構資訊。Rotation Prediction 無需人類標註，即可獲得結構認知能力。論文：arXiv:1803.07728。 ## 7.2. 圖像區塊關係預測（Context Prediction） Context Prediction 從圖像中裁切出兩個區塊（patch），預測其中一塊相對於另一塊的位置（如右上、左下等 8 個方向）。Context Prediction 賦予模型空間概念與位置感知能力，將任務轉化為一個 8 類分類問題。論文：arXiv:1505.05192。 ## 7.3. 預測式學習於語音頻譜圖（Spectrogram）將語音轉為 spectrogram（時間–頻率圖），類似影像，進行區塊遮蔽或時序推理，學習語音中時間與語意的結構。 ### 7.3.1. 語音遮蔽（Masking）來自 Mockingjay、TERA： 1.遮蔽連續時間區段：強化時序關係理解。 2.遮蔽特徵維度：學習頻譜方向資訊，如說話人特徵。 ### 7.3.2. 語音順序預測（Predict Future）來自 APC（Autoregressive Predictive Coding）： 1.預測未來 $n$ 幀特徵，通常 $n > 3$。 2.類似 GPT 的順序學習方式，但針對語音資訊調整設計。 ### 7.3.3. 補充範例： Contextual Spectrogram Prediction（IEEE 9060816）：預測遮蔽區域與上下文關係，用於說話人辨識與內容重建。 # 8. 表徵學習評估方式（Linear Probe vs. Finetune）自我監督學習的主要目的是學得有用的表徵（representation），可廣泛應用於下游任務。為了客觀評估模型表徵品質，研究社群發展出兩種主要策略：Linear Probe（線性探測器）與 Finetune（微調）。 | 方法 | 是否更新 Encoder | 模型彈性 | 通用性評估效果 | 適合任務類型 | | ------------ | ------------ | ---- | -------- | ---------- | | Linear Probe | 否 | 低 | 高 | 分類、辨識任務 | | Finetune | 是 | 高 | 中等～視訓練情況 | 翻譯、語意生成任務等 | 以 SUPERB 任務為例，實際應用場景對照： | 任務名稱 | 常用評估方式 | 原因說明 | | -------------------- | ------------------------ | ---------------- | | Phoneme Recognition | Linear Probe | 評估聲學表示是否保留語音單元資訊 | | ASR | Finetune | 語音辨識需對接完整模型、解碼器等 | | Speaker Verification | Linear Probe | 僅需說話人辨識向量即可 | | Emotion Recognition | Linear Probe + Fine-tune | 情緒差異微妙，兩種方式常併用 | | Speech Translation | Finetune | 跨語言語意轉換需完整參與訓練 | ## 8.1. Linear Probe：固定 encoder，訓練線性分類器 Linear Probe 僅訓練分類器，觀察其在下游任務的表現，在其輸出表徵之上接上一層線性分類器（如 softmax 層）。將自監督模型的 Encoder 冻結（不再更新權重）。優點： 1.評估模型所學特徵的純粹性與通用性。 2.可避免過度依賴下游標註資料。缺點： 1.當任務較複雜時，單一線性層表達力有限。 2.不適用於語意強烈變形任務（如翻譯、摘要）。 ## 8.2. Finetune：整體微調（Full / Partial） Finetune 使用預訓練 encoder 初始化模型參數。聯合訓練 encoder 與下游任務模型，調整所有參數。可視情況部分凍結初層，只微調上層。優點： 1.可完全適配特定下游任務，達到最佳性能。 2.更靈活地利用預訓練知識。缺點： 1.容易過擬合下游資料。 2.若資料量太少，可能導致表徵品質劣化。 # 9. SUPERB 以外的下游任務分類與延伸應用雖然 SUPERB 為自我監督語音學習提供了系統性的評估框架，但在實務應用中，仍有許多未被SUPERB涵蓋的任務類型與延伸方向。 | 領域 | 自監督應用方式 | | ---------------------------------- | ------------------------- | | 語音搜尋（Speech Search） | 將語音表徵嵌入向量空間，進行語音片段比對 | | 聲音事件偵測（Sound Event Detection） | 利用自監督模型辨識環境音中的事件（如玻璃破、狗叫） | | 語音導向翻譯（Speech-to-Text Translation） | 將語音直接轉為外語文字，結合多語語言模型訓練 | ### 9.0.1. 進階研究方向 1.結合 Vision + Audio（如 AudioSet） 2.多語音源處理（Multisource Speech Fusion） 3.低資源語系與方言建模（Low-resource Adaptation） ### 9.0.2. 未來延伸重點 1.模型通用性提升：語音、語者、語意三重平衡 2.多任務訓練設計：需考量 representation 共享與 conflict 3.生成任務整合：需設計可微分的 waveform reconstruction 模組 4.跨模態表示融合：推進 Multimodal SSL 在語音的落地應用 ## 9.1. 多語音任務整合與跨任務遷移 ### 9.1.1. 多任務學習趨勢單一模型同時處理 ASR、Speaker ID、Emotion Recognition 等任務須兼顧： 1.語者不變性（speaker invariance） 2.情緒保留（emotion sensitivity） 3.語意穩定性（semantic consistency） ### 9.1.2. 自我監督模型優勢 1.表徵具備語音多樣性與語境理解能力，利於泛化。 2.模型如 Wav2vec 2.0、HuBERT 經常作為共享 backbone。 ## 9.2. 合成與增強任務挑戰（Synthesis / Enhancement）任務範例： | 任務名稱 | 任務目標 | 需求說明 | | ------------------ | ----------------- | ------------------- | | Voice Conversion | 改變說話人聲音而不改語意 | 需保留語意向量、轉換聲紋資訊 | | Speech Enhancement | 消除噪音與回音 | 表徵需保留原音訊內容，對噪音具辨識能力 | | Speaker Separation | 將混合語音分離成各個語者的單獨語音 | 表徵須同時捕捉語音內容與語者特徵 | ### 9.2.2. 自監督模型挑戰 1.這些任務大多需生成/修改原始波形訊號。 2.非預測式或分類式任務，難以單純用對比學習或遮蔽重建達成。 3.部分研究採用：將自監督學習表徵作為 encoder 輸入。或於 decoder 加入強化學習目標。 # 10. 技術總結自我監督學習已成為語音與多模態表示學習的核心技術，其方法不再單一依賴遮蔽或對比，而是逐步融合生成、預測、自對齊等策略： 1.對比學習強於區別性學習 2.遮蔽預測著重於語境理解 3.自舉學習則提供穩定且語意一致的表示面對多樣的下游任務與應用場景，選擇合適的 SSL 策略與架構，不僅能提升效能，也能推動模型向通用智慧邁進。 ## 10.1. 五大方法選用指南 | 方法類型 | 是否需負樣本 | 是否需生成 | 適用任務 | 訓練穩定性 | 建議用途 | | -------------- | ------ | ----- | ---------------- | ----- | ---------------- | | Generative | 否 | 是 | 重建、語意理解 | 中 | 較簡單任務、資源有限環境 | | Predictive | 否 | 否 | 結構推理、語音順序理解 | 高 | 資料無標註、結構強需求任務 | | Contrastive | 是 | 否 | 分類、語音辨識 | 中-低 | 訓練資料充足、有效負樣本可取時 | | Bootstrapping | 否 | 否 | 表徵泛化、多任務學習 | 高 | 無需負樣本，適合中大型資料訓練 | | Regularization | 否 | 否 | 避免 collapse、語音建模 | 高 | 結構簡單、可直接搭建穩定訓練流程 | ## 10.2. 架構選擇與任務對應 | 架構/模型 | 適合資料類型 | 適用任務 | 核心技術 | | ------------------- | ------ | ------------- | ---------------------------- | | **BERT/Mockingjay** | 語音序列 | 分類、意圖辨識、情緒識別 | MLM（Masked Prediction） | | **GPT/APC** | 語音波形 | 自回歸預測、語音生成 | Autoregressive Modeling | | **SimCLR/MoCo** | 圖像/語音 | 對比學習分類、語者辨識 | NT-Xent / InfoNCE | | **Wav2vec 2.0** | 語音波形 | ASR、表徵轉移學習 | BERT 架構 + 對比損失 | | **BYOL/SimSiam** | 圖像/語音 | 表徵學習、低資源任務 | Momentum Teacher / Predictor | | **Data2vec** | 多模態 | 跨模態對齊、語音+語意任務 | 跨層蒸餾式表徵學習 | ## 10.3. 未來趨勢與融合走向 1.趨勢一：Unified SSL 表徵模型：開發能同時處理語音、影像與文字的共通 backbone（如 Data2vec、UniRep） 2.趨勢二：從表徵學習走向生成學習：引入自我監督的 diffusion model / generative decoder，提升語音合成與強化學習能力 3.趨勢三：小樣本自適應（Few-shot Transfer）：自我監督預訓練結合少量標註樣本，快速適應低資源語系與語音應用