# 友達課程:LLM 微調實作(四) - 知識蒸餾(Knowledge Distillation) - 課後測驗問答集 1. 關於知識蒸餾(Knowledge Distillation)的核心概念,以下哪些描述是正確的? * A:知識蒸餾的主要目標是增加教師模型的複雜性,以提升其準確率 * B:知識蒸餾是一種僅適用於小型數據集的數據增強技術 * C:知識蒸餾的核心思想是將一個大型、複雜的「教師模型」的知識遷移到一個更小、更高效能的「學生模型」中,以便於部署 * D:知識蒸餾要求學生模型和教師模型的架構必須完全相同 > 答案:C > 解說:訓練階段的模型可以為了最大化提取知識而變得複雜,然後通過「蒸餾」將其知識轉移到一個更適合部署的小模型中。其目標是解決高性能模型難以部署的矛盾,而非增加教師模型的複雜性或僅用於數據增強。 2. 在知識蒸餾中,「軟目標」(soft targets)扮演了關鍵角色。下列關於軟目標的敘述何者正確? * A:「軟目標」是指數據集中的原始、未經處理的標籤 * B:「軟目標」僅包含教師模型預測概率最高的那個正確類別 * C:「軟目標」是教師模型產生的完整概率分佈,它包含了錯誤類別之間的相對概率,深刻地揭示了模型的泛化方式 * D:「軟目標」的資訊熵總是低於「硬目標」 > 答案:C > 解說:軟目標的價值在於它不僅告訴學生「哪個答案是正確的」,還通過錯誤類別的相對概率大小,傳遞了教師模型學到的豐富的類間相似性結構,即「暗知識」(dark knowledge)。 3. 在 Softmax 函數中引入的「溫度」(Temperature,T)參數,其主要作用是什麼? * A:溫度 T 的值越高,輸出的概率分佈會變得越「尖銳」 * B:溫度 T 是一個固定的超參數,在所有情況下都應設置為 1 * C:在蒸餾過程中,使用一個較高的溫度 T 可以使教師模型的輸出概率分佈更「平滑」,從而放大那些概率值較小的負類別所包含的資訊 * D:學生模型在訓練和最終部署階段都必須使用相同的高溫 T > 答案:C > 解說:論文明確指出,提高溫度 T 會產生一個更軟的概率分佈,這使得那些在 T=1 時概率值極小的類別能夠被「放大」,從而讓學生模型能夠學習到這些細微但重要的「暗知識」。學生模型僅在訓練匹配軟目標時使用高溫,部署時會講溫度設回 1。 4. 關於在 MNIST 手寫數字數據集上的初步實驗,下列哪項結論是正確的? * A:實驗結果顯示,經過蒸餾的學生模型性能遠不如在相同數據上獨立訓練的學生模型 * B:蒸餾過程要求學生模型必須使用必教師模型更強的正則化技術 * C:實驗證明,僅通過匹配教師模型的軟目標,學生模型的性能就幾乎完全恢復了因模型規模縮小和正則化缺失而損失的性能 * D:在 MNIST 實驗中,大型教師模型的測試錯誤數高於小型學生模型 > 答案:C > 解說:MNIST 實驗室的核心發現。一個正則化的小型學生模型獨立訓練後產生了 146 個錯誤,而大型教師模型只有 67 個錯誤。通過蒸餾,學生模型的錯誤數大幅下降到 74 個,非常接近教師模型的水平,這有力地證明了軟目標能夠成功轉移複雜的泛化知識。 5. 在 MNIST 實驗中,從訓練數據中移除所有數字「3」的樣本,其實驗結果揭示了什麼? * A:該實驗證明,學生模型完全無法識別它在訓練中從未見過的數字「3」 * B:該實驗表明,知識蒸餾的成功必須依賴於對所有類別的直接監督樣本 * C:實驗結果表明,學生模型能夠從其他數字(如「2」、「5」、「8」)的軟目標中隱含的類間關係,學習到關於「3」的特徵,實現了對未知類別的「零樣本學習」 * D:為了識別數字「3」,學生模型必須在一個包含數字「3」的獨立驗證集上進行額外的微調。 > 答案:C > 解說:儘管從未見過任何標記為「3」的圖像,蒸餾後的學生模型在經過偏置校正後,對「3」的識別準確率達到了驚人的98.6%。這證明了知識可以通過類別間的關係間接地傳遞,軟目標中蘊含的豐富信息足以讓學生模型「勾勒」出從未見過的類別的樣貌。 6. 訓練學生模型的總損失函數(objective function)是如何構成的? * A:學生模型的訓練只使用與真實標籤(硬目標)計算的交叉損失 * B:學生模型的訓練只使用與教師模型軟目標計算的交叉熵損失 * C:學生模型的總損失函數通常是兩個交叉熵損失的加權和:一個是學生模型與教師軟目標之間的損失(在較高溫度 T 下計算),另一個學生模型與真實硬目標之間的損失(在 T=1 下計算) * D:在計算總損失時,與硬目標相關的損失項的權重通常遠高於與軟目標相關的損失項 > 答案:C > 解說:通過結合軟目標和硬目標,模型既能學習教師的泛化行為,又能確保其預測與真實標籤一致。論文還特別指出,通常給予硬目標損失一個相對較低的權重會取得更好的效果。 7. 論文中提到軟目標可以作為一種強大的正則化器(Regularizer),以下哪些實驗結果最能支持這一觀點? * A:實驗表明,在數據量極少(3%)的情況下,使用硬目標訓練比軟目標能取得更好泛化效果 * B:軟目標的正則化效果僅在數據量充足(100%)時才能顯現出現 * C:實驗證明,僅使用 3% 的語音數據和教師模型提供的軟目標進行訓練,學生模型的性能就能恢復到使用 100% 數據和硬目標訓練的水平,這顯示了軟目標在防止過擬合方面的強大作用 * D:使用軟目標會不可避免地倒導致模型在訓練集上表現不佳,出現欠擬合現象 > 答案:C > 解說:在僅有 3% 數據時,使用硬目標訓練的模型出現了嚴重的過擬合,而改用軟目標後,幾乎與使用全部數據訓練的基線模型持平。這證明了軟目標中包含了來自全量數據的統計規律,是一種極為有效的正則化手段。 8. 數據增強(Data Augmentation, DA)與知識蒸餾(Knowledge Distillation, KD)之間的互動關係主要作用是什麼? * A:減少教師模型產生幻覺的可能性 * B:確保學生模型與教師模型的架構完全一致 * C:透過生成更具挑戰性的數據,引導教師模型展現更深層次的知識,從而產生更高品質的教學資料 * D:直接將數據注入學生模型,繞過教師模型的指導過程 > 答案:C > 解說:數據增強的作用不僅是增加數據量,更是透過創造性的提問或數據轉換,促使教師模型輸出更豐富、更具深度的回答(例如思維鏈)。 9. 在蒸餾演算法的分類中,「離線蒸餾(Offline KD)」與「在線蒸餾(Online KD)」最主要的區別是什麼? * A:離線蒸餾只能在沒有網路連線的環境下進行 * B:在線蒸餾通常比離線蒸餾需要更少的訓練數據 * C:在離線蒸餾中,教師模型是預先訓練好且固定的;而在線蒸餾中,教師和學生模型會同步訓練並可能互相學習 * D:離線蒸餾專門用語模型壓縮,而在線蒸餾專門用於技能轉移 > 答案:C > 解說:這是兩者最根本的定義區別,離線蒸餾是單向的知識傳遞(從固定的老師到學生),而在線蒸餾則允許師生共同演進,形成一個動態的學習生態系統。 10. 「基於關係的蒸餾(Relation-based KD)」與其他蒸餾方法有何不同? * A:它只關注模型最終輸出的文字是否與教師模型完全相同 * B:它是唯一一種可以用於多模態數據的蒸餾方式 * C:它注重於讓學生模型學習教師模型如何理解不同輸入樣本之間的關係,例如語意相似度 * D:它需要比其他方法多至少一倍的計算資源 > 答案:C > 解說:這種方法的核心不在於模仿單一的輸出,而是在學習更高層次的抽象知識,即數據點之間的內在關聯。例如,教師模型認為「貓」和「虎」的關係比「貓」和「桌子」更近,學生模型也應該學到這種判斷能力。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up