【Hung-yi Lee Machine Learning L12】多語言與跨模態語言模型的自我監督學習能力：以 BERT 為例

# 1. 多語言BERT的跨語言能力（Cross-lingual Capability）多語言BERT（Multilingual BERT, 簡稱mBERT）是一種同時在多種語言上訓練的語言模型，具備跨語言的泛化能力。透過在多語言文本上進行預訓練，mBERT能學習語言共通的語法與語意特徵。實驗結果比較： 1.單語訓練的QANet在中文表現佳，但無法處理跨語言。 2.多語言BERT即使在英文資料上訓練，對中文仍有一定理解。 3.中英雙語Fine-tune可提升F1分數至90.1%。 | Model | Pre-train | Fine-tune | Test | EM | F1 | | ----- | ------------- | ----------------- | ------- | ---- | ---- | | QANet | none | Chinese | Chinese | 66.1 | 78.1 | | QANet | Chinese | Chinese | Chinese | 82.0 | 89.1 | | BERT | 104 languages | Chinese | Chinese | 81.2 | 88.7 | | BERT | 104 languages | English | Chinese | 63.3 | 78.8 | | BERT | 104 languages | Chinese + English | Chinese | 82.6 | 90.1 | ## 1.1. 多語言BERT的訓練方式 1.採用 Masked Language Model（MLM）訓練任務。 2.同時輸入多種語言資料（例如英文、中文、法文等）進行訓練，不額外標註語言類型。 3.訓練目標是預測被遮蔽的詞，從而學習語言的共通性。 ## 1.2. 零樣本閱讀理解能力實驗（Zero-shot QA）在英文問答資料（SQuAD）上進行微調後，直接測試在中文資料（DRCD）上的表現。但模型從未見過中文問答資料，考驗其跨語言能力。 ## 1.3. NER與POS任務的跨語言實驗使用多語言BERT在不同語言上微調後進行命名實體辨識（NER）與詞性標記（POS）任務，展示其語言遷移能力。 NER實驗（CoNLL資料）： | Fine-tune語言 | EN | DE | NL | ES | | ----------- | -------- | -------- | -------- | -------- | | EN | **90.7** | 69.7 | 71.4 | 73.6 | | DE | 73.8 | **82.0** | 76.2 | 70.0 | | NL | 65.4 | 65.8 | **86.9** | 72.1 | | ES | 65.4 | 59.4 | 64.4 | **87.2** | POS實驗（UD語料）： | Fine-tune語言 | EN | DE | ES | IT | | ----------- | ---- | -------- | -------- | -------- | | DE | 83.9 | **93.9** | 86.3 | 88.4 | | NL | 81.6 | 88.7 | **96.7** | 93.7 | | ES | 86.8 | 87.8 | 91.3 | **98.1** | 模型具有良好的跨語言遷移性，Fine-tune 於某語言仍可對其他語言產生良好效果。 ## 1.4. XTREME跨語言評測基準 XTREME（Cross-lingual TRansfer Evaluation of Multilingual Encoders）是一套多語言模型評估框架，測試模型在語言轉移上的泛化能力。訓練資料來自英文，測試資料來自多種語言。涵蓋四大任務類型： | 任務類型 | 子任務 | | ----------------------- | ------------------- | | Sentence Classification | XNLI, PAWS-X | | Structured Prediction | POS, NER | | Sentence Retrieval | BUCC, Tatoeba | | Question Answering | XQuAD, MLQA, TyDiQA | ## 1.5. 跨語言能力的語義來源分析 ### 1.5.1. Embedding的語言資訊 1.不同語言的詞嵌入平均向量（average embedding）會呈現聚集現象。 2.即使單詞語意相同（如 rabbit/兔、fish/魚），其在向量空間中仍偏向各自語言的平均位置。 ### 1.5.2. Cosine Similarity與語言對齊透過雙語字典中已知的對應詞對，計算其cosine similarity： 2.相似度高代表模型學會了語言間的對齊。 3.MRR（Mean Reciprocal Rank）可量化這種對齊能力。 ### 1.6.3. 結論：Embedding中含有語言識別訊號 1.若embedding完全語言中立（language-agnostic），則無法正確重建語言。 2.然而實驗發現，平均embedding可有效代表語言類型。 3.因此，多語言模型在進行跨語言任務時，其內部表示仍保留語言辨識訊息。 # 2. 多語言BERT的跨領域能力（Cross-discipline Capability） BERT模型是否能從語言任務的預訓練中，學習到可轉移至非語言領域（如蛋白質、DNA、音樂分類）的泛用能力？ ## 2.1. 實驗設定領域資料表示方式：將DNA、蛋白質序列視為token序列輸入至BERT。任務如DNA分類、蛋白質穩定性預測、音樂作曲者識別等。流程如下： 1.Pre-train：在自然語言上進行預訓練（如英文Wikipedia）。 2.Fine-tune：將語言模型應用至生物序列（DNA、蛋白質）或音樂資料。 3.Testing：針對特定領域任務進行分類評估。 ## 2.2. 實驗任務與表現指標在所有任務中，語言預訓練的BERT表現最佳。即使在非語言資料上，語言預訓練仍具備明顯優勢。在音樂分類中，未經預訓練的模型表現大幅下滑，顯示預訓練的泛用性。任務列表： | 領域 | 子任務 | | ------- | ------------------------------------- | | Protein | localization, stability, fluorescence | | DNA | H3, H4, H3K9ac, Splice site | | Music | composer classification | 預訓練效果比較： | Model | Protein (localization) | DNA (Splice) | Music (composer) | | -------------------------- | ---------------------- | ------------ | ---------------- | | BERT (預訓練於語言) | 64.8 | 97.5 | 55.2 | | Re-emb (重新初始化embedding再訓練) | 63.3 | 95.6 | 55.2 | | Rand (完全隨機初始化) | 58.6 | 95.0 | 36.0 | ## 2.3. 實驗流程與結果結果： 1.沒有語言預訓練，F1幾乎為0。 2.加入語言預訓練，分類效果大幅上升，表明預訓練模型學會了泛用的序列處理技能。 ### 2.3.1. BERT如何應用於DNA序列 1.DNA字母（A, T, C, G）→ 對應至詞彙（you, he, she...）。 2.輸入序列：A G A C → 對應 we she we he。 3.將DNA視為語言序列處理，使用[CLS]做分類標記。 ### 2.3.2. 預訓練初始化的貢獻 | 模型 | 初始化方式 | F1 Score | | ---------- | ------- | -------- | | 無預訓練 | 隨機初始化 | 6.12 | | 使用語言預訓練初始化 | BERT預訓練 | 54.22 | ## 2.4. 實驗結論 1.語言模型具備泛化能力：BERT可處理任意結構化序列（如DNA字串），不只適用於自然語言。 2.預訓練提供了序列表示的強大初始化：預訓練學到的知識可遷移到完全不同的應用場景，縮短訓練時間、提升效能。 3.語言預訓練具備跨模態可轉移性：語言預訓練模型具有可泛用於非語言任務的潛力，顯示其學會了超越語言的結構學習能力。 # 3. 使用人工數據進行預訓練的效益分析（Pre-training with Artificial Data）研究者使用不同形式的人工數據進行預訓練，分析大型語言模型對下游任務的影響：模型是否需要真實語言語料，或僅需統計與結構規律即可學習？預訓練的成功來自於數據中的「統計規律」與「長程依賴」，而非語義本身。只要資料具備足夠的內部結構與可預測性，即使完全由人工生成，也能讓大型語言模型學習有用的表示。此結論對低資源語言模型訓練、資料增強策略與預訓練設計具有重要啟示。預訓練有效的關鍵來源： | 因素 | 影響力 | | ---- | ---------- | | 統計規律 | 高 | | 序列結構 | 高 | | 語義訊息 | 非必要，但有加分 | 實務建議： 1.人工數據可用作預訓練資料，只要具備結構與統計特性。 2.訓練語料不需完美語義，只需足夠規律。 3.延長序列長度可提升學習效果，尤其對Transformer架構有益。 ## 3.1. 研究問題與實驗設計問題核心： 1.探討「什麼樣的數據使預訓練有效？」 2.重點觀察語義、統計特性與序列結構的影響。實驗流程： 1.預訓練階段：以不同類型的人工數據訓練BERT模型。 2.微調階段：將預訓練模型應用於GLUE任務進行微調。 3.評估標準：與隨機初始化模型相比的平均絕對改進（%）。 ## 3.2. 不同人工數據類型的預訓練效果 | 數據類型 | 改進幅度 | 特性說明 | | ---- | ----- | ----------------- | | 英語語料 | \~20% | 真實語言，語義與結構具備 | | 配對資料 | \~13% | 統計規律清晰，有結構性 | | 打亂資料 | \~11% | 原序列隨機打亂，仍保留統計特性 | | 隨機資料 | \~0% | 無語義、無統計結構，幾乎無學習效果 | 1.結構與統計比語義更重要。 2.完全隨機的資料無法帶來任何預訓練效益。 3.即使是人造資料，只要有結構與規律，也能讓模型學習有效表徵。 ## 3.3. 序列長度對預訓練效果的影響趨勢顯示長序列更有利於模型學習「長程依賴關係」。學習跨距離的結構規律是預訓練的核心能力之一。 | 序列長度（token數） | 平均改進幅度 | | ------------ | ------ | | 4 | 4.5% | | 8 | 8.1% | | 16 | 10.2% | | 32 | 11.1% | | 64 | 12.0% | ## 3.4. 人工數據類型示意與分析 ### 3.4.1. 配對資料（Paired） 1.每組token具有明確關聯，如 A1 → B1, A2 → B2。 2.模擬語言中的結構依賴關係。 3.效果接近真實語料，顯示「結構」至關重要。 ### 3.4.2. 打亂資料（Shuffled）： 1.將有序token打亂，但仍保留頻率分布。 2.顯示即便語序破壞，統計規律仍能提供學習信號。 ### 3.4.3. 隨機資料（Random） 1.完全隨機token序列。 2.無法學習任何有意義的結構，效果幾乎為0。 ## 3.6. 局限與未來方向局限： 1.實驗以BERT為主，未涵蓋多種架構。 2.GLUE為主要測試場景，尚缺其他下游任務評估。 3.人工數據仍屬低複雜度，與真實語言仍有落差。未來方向： 1.探索更複雜的人造語料規則。 2.評估對多模態任務（如語音、視覺）的預訓練效果。 3.從訊號處理與統計理論角度深入剖析結構學習本質。 # 4. 語音問答的延伸應用（Speech Question Answering）預訓練語言模型（如 BERT）應用於語音問答任務時，尤其關注「不經文字轉錄（ASR-free）」的語音理解方式。這是一種跨模態應用的實驗，顯示語言模型能否理解語音訊號，並從中提取語意以完成問答任務： | 項目 | 傳統方法（ASR + QA） | 端到端方法（SpeechBERT / DUAL） | | ------ | -------------- | ------------------------ | | 資訊損失風險 | 高（依賴ASR品質） | 低（直接處理語音） | | 模型參數耦合 | 弱 | 強（共同訓練） | | 應用前景 | 成熟但受限 | 新穎且具潛力 | 1.語言模型所學的語意知識具備跨模態遷移能力。 2.在語音問答任務中，語言預訓練模型可透過結合語音表示，直接理解語音內容並作答。 3.為語音理解任務開啟新的研究方向：非文字中介的語音推理系統。 ## 4.1. 傳統架構：ASR + Text QA 串接系統架構流程： 1.使用語音辨識系統（Automatic Speech Recognition, ASR）將語音轉為文字。 2.將轉錄後文字餵入文字問答模型（如BERT QA）以預測答案。缺點分析： 1.語音辨識錯誤（高 WER）會造成語意扭曲，使問答結果不準確。 2.無法處理語音訊號中的語調、停頓等語用線索。 ## 4.2. SpeechBERT：語音與文字結合的端到端問答方法： 1.SpeechBERT 同時輸入：音訊的特徵（MFCC等）與文字的問題描述。 2.模型輸出為一段時間區間（start time, end time）對應答案出現在語音的區段。特點： 1.模型直接從語音訊號進行理解與預測。 2.減少語音辨識對整體準確度的干擾。 ## 4.3. HuBERT + Transformer：語音預訓練模型的語意強化初步挑戰： 1.HuBERT 雖能將語音轉為離散向量（VQ codes），但其本身不具語意。 2.若直接將 VQ code 餵入分類模型，F1 分數僅約 6.12，幾乎無法作答。解法為加入 Self-Attention 模塊： 1.在 HuBERT 輸出後加上數層 Transformer（如 BERT block）。 2.能捕捉 VQ code 序列中的語意模式。 3.成功將 F1 分數提升至 54.22。 | 模型架構 | F1 Score | | -------------------- | -------- | | HuBERT + classifier | 6.12 | | HuBERT + BERT layers | 54.22 | ## 4.4. 跨模態模型：DUAL 架構（Discrete Unit Adaptive Learning）架構特點： 1.將語音訊號編碼為離散單位（如 VQ code）。 2.不依賴ASR，模型直接學習從 VQ code 中提取問答資訊。優勢： 1.當 WER（語音錯誤率）高時仍保持穩定性能。 2.抗錯能力遠高於傳統 ASR + Text QA 架構。實驗結果: | 方法 | Word Error Rate ↑ | F1 Score ↓ | | ------------- | ----------------- | ---------- | | ASR + BERT QA | 高 | 大幅下降 | | **DUAL** | 高 | **穩定** |