# 1. 語音處理基準(SUPERB) Speech processing Universal PERformance Benchmark(SUPERB) 是一套用於評估自監督語音表示學習模型的統一基準。該基準涵蓋多種語音任務,並依據任務性質分類,有助於全面分析模型於不同應用場景下的效能。 官方網站:https://superbbenchmark.org/ SUPERB 發表資訊: SUPERB 原始版本: 發表於 INTERSPEECH 2021 論文連結:arXiv:2105.01051 SUPERB-SG(Semantic & Generative 擴充): 發表於 ACL 2022 論文連結:arXiv:2203.06849 SUPERB 將語音任務分為五大類,涵蓋從基礎內容理解到生成合成等不同層面: | 類別 | 任務名稱 | | ------------------ | ----------------------------------------------------------------- | | **Content** | Phoneme Recognition, Keyword Spotting, ASR, QbyE | | **Speaker** | Speaker Identification, Speaker Verification, Speaker Diarization | | **Paralinguistic** | Emotion Recognition | | **Semantic** | Intent Classification, Spoken Slot Filling, Speech Translation | | **Synthesis** | Voice Conversion, Speech Enhancement, Speaker Separation | # 2. 自我監督學習的五大方法 ## 2.1. Generative Approach(生成式) Generative Approach 透過遮蔽輸入的一部分,學習重建被遮蔽區域的內容。 ### 2.1.1. 語音代表模型 1.Mockingjay(模仿鳥模型):架構類似 BERT。輸入聲學特徵向量,隨機遮蔽一部分,再訓練模型預測該部分。論文連結:arXiv:1910.12638。 2.APC(Autoregressive Predictive Coding):類 GPT 結構,透過自回歸方式預測未來的語音表示。預測未來 $n > 3$ 的時間步(比文字預測更遠)。論文連結:arXiv:1910.12607。 ### 2.1.2. 圖像應用 1.GPT for image:使用像素作為離散單位,進行自回歸或遮蔽預測。官網參考:https://openai.com/blog/image-gpt/。 ## 2.2. Predictive Approach(預測式) 不產生內容,而是預測變化、上下文或旋轉角度。 ### 2.2.1. 圖像代表模型 1.Rotation Prediction:給定旋轉角度(0°/90°/180°/270°),訓練模型辨識旋轉角度。論文連結:arXiv:1803.07728。 2.Context Prediction(Patch-based Prediction):預測影像局部區塊的上下文或相對位置。論文連結:arXiv:1505.05192。 ### 2.2.2. 語音代表模型 1.HuBERT(Hidden-unit BERT):將語音片段聚類為離散標籤,進行遮蔽預測。結合了生成與預測元素,並逐階段精化表示。論文連結:IEEE DOI: 10.1109/TASLP.2021.3139981。 ## 2.3. Contrastive Learning(對比式學習) 拉近正樣本(positive pair),推遠負樣本(negative pair)的表示空間距離。 ### 2.3.1. 圖像代表模型 1.SimCLR:資料增強(顏色扭曲、模糊)後產生正樣本。使用投影頭(projection head)提升學習效果。論文連結:arXiv:2002.05709。 2.MoCo / MoCo v2:引入 memory bank 或 momentum encoder 改進負樣本管理。論文連結:MoCo: arXiv:1911.05722。MoCo v2: arXiv:2003.04297。 ### 2.3.2. 語音代表模型 1.CPC(Contrastive Predictive Coding):使用 GRU 預測未來片段,與正負樣本進行對比。論文連結:arXiv:1807.03748。 2.Wav2vec 系列:Wav2vec 使用 CNN 編碼器。VQ-wav2vec 加入量化處理。論文連結:Wav2vec: arXiv:1904.05862。VQ-wav2vec: arXiv:1910.05453。 3.Wav2vec 2.0:結合 BERT 結構與量化標籤。同時學習連續表示與離散標籤。論文連結:arXiv:2006.11477。 ## 2.4. Bootstrapping(自我增強式) 無需負樣本,透過對比自己的不同版本進行學習。 ### 2.4.1. 圖像代表模型 1.BYOL(Bootstrap Your Own Latent):雙路徑架構,學生網路模仿教師網路,教師參數為學生的滑動平均。論文連結:arXiv:2006.07733。 2.SimSiam:單路徑結構,設計避免 collapse。論文連結:arXiv:2011.10566。 ### 2.4.2 語音代表模型 1.Data2vec:學生從教師不同層學習。論文連結:arXiv:2202.03555。 ## 2.5. Regularization(正規化式) 加入額外限制,避免特徵 collapse 而無需引入負樣本。 ### 2.5.1. 代表模型 1.Barlow Twins:最小化跨樣本的特徵差異,同時促進分量之間的 decorrelation。論文連結:arXiv:2103.03230。 2.VICReg(Variance-Invariance-Covariance Regularization):三重正規化目標為Invariance:正樣本應靠近。Variance:各維度有足夠變異,避免 collapse。Covariance:鼓勵特徵間解耦。論文連結:arXiv:2105.04906。 # 3. 自我監督學習的的架構設計:以BERT、GPT、Wav2vec 為例 | 模型 | 架構形式 | 預測目標 | 適用任務 | 特殊機制 | | --------------- | --------------------- | ---------------------------- | --------- | ----------------------------------- | | **BERT** | Encoder-only | 被遮蔽 token | 分類任務 | MLM,雙向上下文 | | **GPT** | Decoder-only | 下一個 token | 生成任務 | Causal Masking,單向 | | **Wav2vec 2.0** | Encoder + Transformer | Quantized token(contrastive) | 語音辨識、表示學習 | Quantization + Contrastive Learning | ## 3.1. BERT(MLM) BERT 為 Encoder-only 架構(雙向上下文建模)。隨機遮蔽輸入的 token,再訓練模型還原它們: $\text{Loss} = \sum_{i \in \text{mask}} \text{CrossEntropy}(x_i, \hat{x}_i)$ 具有以下特點: 1.適合需要理解「上下文語意」的任務,如分類、命名實體辨識。 2.預測目標為單一 token,屬於分類型任務。 3.代表模型:BERT、Mockingjay(語音版 BERT) ## 3.2. GPT(ALM) GPT 採 Decoder-only 架構(單向上下文建模)。預測序列中下一個 token: $\text{Loss} = \sum_{t=1}^{T} \text{CrossEntropy}(x_{t+1}, \hat{x}_{t+1})$ 具有以下特點: 1.適合生成型任務,如問答、摘要、翻譯。 2.使用 causal masking 確保左至右的順序性。 3.代表模型:GPT 系列、APC(語音版自回歸模型) ## 3.3. Wav2vec 與對比學習 以 Wav2vec 2.0 為例。架構由 Encoder:提取連續聲學特徵(如 CNN),Quantizer:將特徵向量轉換為離散代碼(token),Transformer Encoder:建立 contextual representation(類似 BERT),Contrastive Objective:預測未來位置的正確 token。 其為非分類任務,採用 對比學習損失(InfoNCE): $\mathcal{L} = - \log \frac{\exp(sim(z, q^+))}{\sum_{q^- \in \mathcal{Q}} \exp(sim(z, q^-))}$ 其中,$z$ 為 Transformer 輸出,$q^+$ 為正樣本(quantized token),$\mathcal{Q}$ 為包括正樣本與多個負樣本。 ### 3.3.1. 進階形式 1.Discrete BERT:將 quantized token 作為類 NLP token 餵入 BERT。 2.Wav2vec 2.0 Joint Training:將 encoder + quantizer + transformer 一起訓練,提升效能。 ## 3.4. 對比學習與分類訓練目標分析 ### 3.4.1. 分類(如 BERT) 1.有固定的 label set,使用 softmax 分類。 2.適合輸出明確 token 的任務。 ### 3.4.2. 對比學習(如 Wav2vec 2.0) 1.無需標籤,僅透過相似性學習。 2.訓練穩定性受「負樣本選擇」影響。 # 4. 無需負樣本的自我監督學習(Bootstrapping Approaches) 傳統的對比學習方法依賴「正負樣本對比」來學習特徵,但選取適當的負樣本(hard negatives)不僅困難,也容易導致模型 collapse(特徵崩潰)。為了解決這個問題,近年來興起了一類無需負樣本的自我監督學習方法,稱為 Bootstrapping Approaches,透過模型自身特徵的「自我對齊」進行學習。 | 方法 | 是否需負樣本 | 是否需教師 | 特殊結構 | 適用範疇 | | -------- | ------ | ----- | -------------------- | ------------- | | BYOL | 否 | 是 | Momentum Encoder | Image, Speech | | SimSiam | 否 | 否 | Predictor + StopGrad | Image | | Data2vec | 否 | 是 | 多層目標對齊 | Multimodal | ## 4.1. Collapse 問題與設計動機 如果模型只學習讓兩個輸入的輸出彼此接近,但沒有強制性分離的樣本,模型可能學會輸出常數向量,導致 representation collapse。 解法如下: 1.引入一個「教師網路(target encoder)」,提供穩定學習目標。 2.學生網路(student encoder)透過模仿教師輸出來學習,但教師本身由學生網路的歷史狀態產生,形成一種 自我引導(self-bootstrap)。 ## 4.2. BYOL:Bootstrap Your Own Latent BYOL 無需負樣本、無需對比損失函數,模型能穩定收斂且產生有用表示。論文連結:arXiv:2006.07733。 ## 4.3. SimSiam:無對比、無教師的簡化架構 SimSiam 訓練極為穩定,理論簡單,無需額外樣本設計。論文連結:arXiv:2011.10566。 架構如下: 1.雙分支架構,但 兩邊使用同一個 encoder,不使用 moving average。 2.關鍵為一個 非對稱性結構(含 predictor)。 3.損失函數為 stop-gradient 的負 cosine similarity:$\mathcal{L} = - \cos(p_1, \text{sg}(z_2))$。其中,$p_1$ 為 predictor 輸出,$z_2$ 為另一分支的投影,$\text{sg}$ 表示 stop-gradient(不回傳梯度)。 ## 4.4. Data2vec:通用表徵學習於語音 Data2vec 使用 teacher network 產生多層 contextual representation,學生模型學習模仿整個序列的語義分佈。適用於語音、影像、文字等多模態,不做分類、不做對比,單純模仿。教師為過去版本的學生,透過 momentum update 實現。論文連結:arXiv:2202.03555。 # 5. 分群式自我監督學習(Clustering-based Self-supervised Learning) 分群式自我監督學習方法(Clustering-based SSL)試圖透過無監督方式為資料建立「虛擬標籤(pseudo labels)」,將表徵學習問題轉化為傳統的分類任務,進而提升表示能力。這類方法在圖像與語音領域皆有成功應用。 ## 5.1. DeepCluster:迭代式聚類與分類 DeepCluster 可結合標準分類架構(如 ResNet)進行端到端訓練。每次聚類結果會不斷演進,幫助模型精化表徵。論文連結:arXiv:1807.05520。 方法流程如下: 1.特徵提取:使用 Encoder 對未標註圖像進行嵌入提取。 2.聚類(Clustering):對嵌入結果進行 K-means 聚類。 3.虛擬標籤產生:將聚類結果作為分類標籤。 4.分類訓練:將標籤作為 supervision,反向更新 encoder。 5.重複上述步驟直到收斂。 ## 5.2. BEST-RQ:語音領域中的分群與量化 BEST-RQ 改進量化器(quantizer)將聲學特徵轉為更穩定、語意一致的離散標籤。將 clustering 概念結合 BERT-like 結構,進行 masked prediction。提出 Residual Vector Quantization (RVQ),提升對語音中細節資訊的保持能力。論文連結:arXiv:2202.01855。 架構如下: 1.Encoder:提取語音特徵。 2.Quantizer:將連續特徵轉為離散 code。 3.Contextual Transformer:學習上下文表徵。 4.Masked Prediction Head:隨機遮蔽某些 token,進行重建。 ## 5.3. 分群方法在語音上的應用邏輯 語音訊號不像圖像容易明確分辨形狀或邊界,因此透過分群方式建立 pseudo label 是一種有效手段,典型流程如下: ### 5.3.1. 語音聚類流程 1.對語音訊號進行特徵提取(如 Mel-spectrogram 或 raw waveform)。 2.利用 K-means、GMM 或矢量量化(VQ)對特徵進行聚類。 3.將聚類編號視為 token,輸入至類 BERT 結構,執行 masked prediction。 ### 5.3.2. 應用模型 1.HuBERT(Hidden-Unit BERT):以分群結果為訓練 supervision 的經典語音模型 2.VQ-wav2vec、BEST-RQ:皆為量化分群類別的代表架構 ## 5.4. 分群法優劣與應用建議 | 優點 | 缺點 | | ------------------------- | ----------------------- | | 無需人工標籤,能自動產生 pseudo label | 聚類品質決定學習效果(初始不穩) | | 可與分類任務結合進行監督訓練 | 需額外聚類演算法與記憶體開銷 | | 適合結合 BERT/Transformer 結構 | 可能學不到 fine-grained 語意變化 | # 6. 對比學習策略細節與演進(SimCLR、MoCo、Wav2vec 系列) 對比學習(Contrastive Learning)是自我監督學習中影響深遠的方法之一。其核心思想為:將相同語意的資料(positive pair)映射到相似的特徵空間,並同時將不同語意的資料(negative pair)推得更遠。本章介紹對比學習的經典方法與在語音上的演化。 ## 6.1. SimCLR:純粹對比 + 增強 SimCLR 不依賴特殊架構或記憶體設計,每個 batch 須提供大量負樣本,需大批量訓練。論文連結: arXiv:2002.05709。 方法流程如下: 1.同一張圖片產生兩個不同資料增強版本(如顏色扭曲、模糊等),形成正對。 2.經過 Encoder 與 Projection Head 投影到對比空間。 3.使用 NT-Xent 損失(normalized temperature-scaled cross entropy loss)進行訓練: $\mathcal{L}{i,j} = -\log \frac{\exp(sim(z_i, z_j)/\tau)}{\sum{k=1}^{2N} \mathbb{1}_{[k \neq i]} \exp(sim(z_i, z_k)/\tau)}$ 4.最終捨棄投影層,只保留 Encoder 進行下游任務。 ## 6.2. MoCo:動態字典與穩定對比 MoCo 使用動態 queue 儲存負樣本,不需大 batch。改進穩定性與效率,支援大規模對比學習。引入 Momentum Encoder 更新 key encoder: $\theta_k \leftarrow m\theta_k + (1 - m)\theta_q$ V2 加入投影層與 MLP,使用 SimCLR 資料增強策略。論文連結:MoCo: arXiv:1911.05722。MoCo v2: arXiv:2003.04297 ## 6.3. CPC 與 Wav2vec 系列 ### 6.3.1. CPC(Contrastive Predictive Coding) CPC 以 CNN Encoder 提取特徵,以 RNN/GRU 預測未來 $n$ 步表示。對比真實未來與隨機抽樣表示。論文連結:arXiv:1807.03748。 ### 6.3.2. Wav2vec(v1) Wav2vec(v1)使用 CNN 將語音切分為 latent 表示。引入負樣本進行對比學習。論文連結:arXiv:1904.05862。 ## 6.4. VQ-wav2vec:量化離散化與對比 VQ-wav2vec 使用 encoder 預測未來 token,與正負樣本比對。將連續特徵透過 Vector Quantization(VQ)轉為 token。將語音轉換為類似文字的離散學習問題。論文連結:arXiv:1910.05453。 ## 6.5. Wav2vec 2.0:BERT 架構上的對比學習 Wav2vec 2.0 架構如下: 1.Encoder:提取連續語音特徵。 2.Quantizer:轉為離散 code。 3.Transformer:建構 contextual 表示(類 BERT 架構)。 4.Contrastive loss:預測 masked frame 的正確 token 並拉近真實 token,拉遠其他候選 token。 | 項目 | BERT | Wav2vec 2.0 | | -------- | ------------- | ------------------ | | 預測目標 | 被遮蔽 token | 被遮蔽 frame 的 token | | 損失函數 | Cross-entropy | Contrastive loss | | token 來源 | vocabulary | quantized codebook | | 是否生成目標 | 是(分類) | 否(對比) | # 7. 預測式任務的設計與變化(Rotation、Context、Spectrogram) 預測式自我監督學習(Predictive SSL)強調模型不需生成完整輸出,僅需根據輸入預測結構、變化或相對關係。這種方法在圖像與語音中各自發展出具代表性的設計,如影像旋轉判別、區塊相對位置預測,以及語音頻譜遮蔽與順序推理。 | 任務形式 | 輸入類型 | 預測目標類型 | 常見應用 | | ---------- | ----- | --------- | ---- | | 旋轉分類 | 圖像 | 離散角度類別 | 結構辨識 | | 區塊關係預測 | 圖像 | 相對位置類別 | 空間理解 | | 順序預測(APC) | 語音特徵 | 未來片段之向量表示 | 語音建模 | | 遮蔽重建(TERA) | 頻譜特徵圖 | 遮蔽區域之特徵重建 | 語音表示 | ## 7.1. 圖像旋轉預測(Rotation Prediction) Rotation Prediction 隨機將圖像旋轉 0°、90°、180° 或 270°。模型需判斷圖片被旋轉的角度,形成一個 4 類分類任務,學會理解圖像的邊緣、構圖與結構資訊。Rotation Prediction 無需人類標註,即可獲得結構認知能力。論文:arXiv:1803.07728。 ## 7.2. 圖像區塊關係預測(Context Prediction) Context Prediction 從圖像中裁切出兩個區塊(patch),預測其中一塊相對於另一塊的位置(如右上、左下等 8 個方向)。Context Prediction 賦予模型空間概念與位置感知能力,將任務轉化為一個 8 類分類問題。論文:arXiv:1505.05192。 ## 7.3. 預測式學習於語音頻譜圖(Spectrogram) 將語音轉為 spectrogram(時間–頻率圖),類似影像,進行區塊遮蔽或時序推理,學習語音中時間與語意的結構。 ### 7.3.1. 語音遮蔽(Masking) 來自 Mockingjay、TERA: 1.遮蔽連續時間區段:強化時序關係理解。 2.遮蔽特徵維度:學習頻譜方向資訊,如說話人特徵。 ### 7.3.2. 語音順序預測(Predict Future) 來自 APC(Autoregressive Predictive Coding): 1.預測未來 $n$ 幀特徵,通常 $n > 3$。 2.類似 GPT 的順序學習方式,但針對語音資訊調整設計。 ### 7.3.3. 補充範例: Contextual Spectrogram Prediction(IEEE 9060816):預測遮蔽區域與上下文關係,用於說話人辨識與內容重建。 # 8. 表徵學習評估方式(Linear Probe vs. Finetune) 自我監督學習的主要目的是學得有用的表徵(representation),可廣泛應用於下游任務。為了客觀評估模型表徵品質,研究社群發展出兩種主要策略:Linear Probe(線性探測器) 與 Finetune(微調)。 | 方法 | 是否更新 Encoder | 模型彈性 | 通用性評估效果 | 適合任務類型 | | ------------ | ------------ | ---- | -------- | ---------- | | Linear Probe | 否 | 低 | 高 | 分類、辨識任務 | | Finetune | 是 | 高 | 中等~視訓練情況 | 翻譯、語意生成任務等 | 以 SUPERB 任務為例,實際應用場景對照: | 任務名稱 | 常用評估方式 | 原因說明 | | -------------------- | ------------------------ | ---------------- | | Phoneme Recognition | Linear Probe | 評估聲學表示是否保留語音單元資訊 | | ASR | Finetune | 語音辨識需對接完整模型、解碼器等 | | Speaker Verification | Linear Probe | 僅需說話人辨識向量即可 | | Emotion Recognition | Linear Probe + Fine-tune | 情緒差異微妙,兩種方式常併用 | | Speech Translation | Finetune | 跨語言語意轉換需完整參與訓練 | ## 8.1. Linear Probe:固定 encoder,訓練線性分類器 Linear Probe 僅訓練分類器,觀察其在下游任務的表現,在其輸出表徵之上接上一層線性分類器(如 softmax 層)。將自監督模型的 Encoder 冻結(不再更新權重)。 優點: 1.評估模型所學特徵的純粹性與通用性。 2.可避免過度依賴下游標註資料。 缺點: 1.當任務較複雜時,單一線性層表達力有限。 2.不適用於語意強烈變形任務(如翻譯、摘要)。 ## 8.2. Finetune:整體微調(Full / Partial) Finetune 使用預訓練 encoder 初始化模型參數。聯合訓練 encoder 與下游任務模型,調整所有參數。可視情況部分凍結初層,只微調上層。 優點: 1.可完全適配特定下游任務,達到最佳性能。 2.更靈活地利用預訓練知識。 缺點: 1.容易過擬合下游資料。 2.若資料量太少,可能導致表徵品質劣化。 # 9. SUPERB 以外的下游任務分類與延伸應用 雖然 SUPERB 為自我監督語音學習提供了系統性的評估框架,但在實務應用中,仍有許多未被SUPERB涵蓋的任務類型與延伸方向。 | 領域 | 自監督應用方式 | | ---------------------------------- | ------------------------- | | 語音搜尋(Speech Search) | 將語音表徵嵌入向量空間,進行語音片段比對 | | 聲音事件偵測(Sound Event Detection) | 利用自監督模型辨識環境音中的事件(如玻璃破、狗叫) | | 語音導向翻譯(Speech-to-Text Translation) | 將語音直接轉為外語文字,結合多語語言模型訓練 | ### 9.0.1. 進階研究方向 1.結合 Vision + Audio(如 AudioSet) 2.多語音源處理(Multisource Speech Fusion) 3.低資源語系與方言建模(Low-resource Adaptation) ### 9.0.2. 未來延伸重點 1.模型通用性提升:語音、語者、語意三重平衡 2.多任務訓練設計:需考量 representation 共享與 conflict 3.生成任務整合:需設計可微分的 waveform reconstruction 模組 4.跨模態表示融合:推進 Multimodal SSL 在語音的落地應用 ## 9.1. 多語音任務整合與跨任務遷移 ### 9.1.1. 多任務學習趨勢 單一模型同時處理 ASR、Speaker ID、Emotion Recognition 等任務須兼顧: 1.語者不變性(speaker invariance) 2.情緒保留(emotion sensitivity) 3.語意穩定性(semantic consistency) ### 9.1.2. 自我監督模型優勢 1.表徵具備語音多樣性與語境理解能力,利於泛化。 2.模型如 Wav2vec 2.0、HuBERT 經常作為共享 backbone。 ## 9.2. 合成與增強任務挑戰(Synthesis / Enhancement) 任務範例: | 任務名稱 | 任務目標 | 需求說明 | | ------------------ | ----------------- | ------------------- | | Voice Conversion | 改變說話人聲音而不改語意 | 需保留語意向量、轉換聲紋資訊 | | Speech Enhancement | 消除噪音與回音 | 表徵需保留原音訊內容,對噪音具辨識能力 | | Speaker Separation | 將混合語音分離成各個語者的單獨語音 | 表徵須同時捕捉語音內容與語者特徵 | ### 9.2.2. 自監督模型挑戰 1.這些任務大多需生成/修改原始波形訊號。 2.非預測式或分類式任務,難以單純用對比學習或遮蔽重建達成。 3.部分研究採用:將自監督學習表徵作為 encoder 輸入。或於 decoder 加入強化學習目標。 # 10. 技術總結 自我監督學習已成為語音與多模態表示學習的核心技術,其方法不再單一依賴遮蔽或對比,而是逐步融合生成、預測、自對齊等策略: 1.對比學習強於區別性學習 2.遮蔽預測著重於語境理解 3.自舉學習則提供穩定且語意一致的表示 面對多樣的下游任務與應用場景,選擇合適的 SSL 策略與架構,不僅能提升效能,也能推動模型向通用智慧邁進。 ## 10.1. 五大方法選用指南 | 方法類型 | 是否需負樣本 | 是否需生成 | 適用任務 | 訓練穩定性 | 建議用途 | | -------------- | ------ | ----- | ---------------- | ----- | ---------------- | | Generative | 否 | 是 | 重建、語意理解 | 中 | 較簡單任務、資源有限環境 | | Predictive | 否 | 否 | 結構推理、語音順序理解 | 高 | 資料無標註、結構強需求任務 | | Contrastive | 是 | 否 | 分類、語音辨識 | 中-低 | 訓練資料充足、有效負樣本可取時 | | Bootstrapping | 否 | 否 | 表徵泛化、多任務學習 | 高 | 無需負樣本,適合中大型資料訓練 | | Regularization | 否 | 否 | 避免 collapse、語音建模 | 高 | 結構簡單、可直接搭建穩定訓練流程 | ## 10.2. 架構選擇與任務對應 | 架構/模型 | 適合資料類型 | 適用任務 | 核心技術 | | ------------------- | ------ | ------------- | ---------------------------- | | **BERT/Mockingjay** | 語音序列 | 分類、意圖辨識、情緒識別 | MLM(Masked Prediction) | | **GPT/APC** | 語音波形 | 自回歸預測、語音生成 | Autoregressive Modeling | | **SimCLR/MoCo** | 圖像/語音 | 對比學習分類、語者辨識 | NT-Xent / InfoNCE | | **Wav2vec 2.0** | 語音波形 | ASR、表徵轉移學習 | BERT 架構 + 對比損失 | | **BYOL/SimSiam** | 圖像/語音 | 表徵學習、低資源任務 | Momentum Teacher / Predictor | | **Data2vec** | 多模態 | 跨模態對齊、語音+語意任務 | 跨層蒸餾式表徵學習 | ## 10.3. 未來趨勢與融合走向 1.趨勢一:Unified SSL 表徵模型:開發能同時處理語音、影像與文字的共通 backbone(如 Data2vec、UniRep) 2.趨勢二:從表徵學習走向生成學習:引入自我監督的 diffusion model / generative decoder,提升語音合成與強化學習能力 3.趨勢三:小樣本自適應(Few-shot Transfer):自我監督預訓練結合少量標註樣本,快速適應低資源語系與語音應用