---
# System prepended metadata

title: 李宏毅【生成式AI時代下的機器學習(2025)】序章
tags: [生成式AI]

---

很感謝李宏毅老師提供這麼豐富又有趣的課程，還可以順便複習我獨自升級、Mygo、小明劍魔

[李宏毅【生成式AI時代下的機器學習(2025)】Youtube 頻道](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi)


[【生成式AI時代下的機器學習(2025)】01 生成式人工智慧的技術突破與未來發展](https://hackmd.io/@JuitingChen/HySwq7fkWl)

![image](https://hackmd.io/_uploads/HybGX3MxWl.png)


### Day 39 生成式 AI 的技術突破與未來發展

我們終於到2025年啦，今天內容直接貫穿重要生成式 AI 技術和未來發展，真的佩服李宏毅老師每年都準備新內容、新解釋，還有新的動漫梗，太幸福了。
印象深刻是嘗試用AI產生投影片、講稿、語音、人臉，做出AI李宏毅講課，但做出來就很流水帳，還是比不上真正的李宏毅講解。

另外用姜子牙vs.鄧不利多來展示 AI 的推理能力和腦內小劇場。介紹現在天天在用的AI Agent，讓 AI 可以幫我們執行更複雜的任務。

之後課程包含生成式 AI 的運作機制與架構、通用模型的演化與訓練原理、賦予 AI 新能力的終身學習，分成暫時性能力賦予像是指令和 RAG，還有永久性能力賦予像是微調和模型編輯和合併，但微調可能會破壞原有的能力，微調成 AI 助教後，模型可能開始亂講話，像是把誰是肥宅回答成李宏毅。

最後印象深刻的是 AI 說: 「擴散模型其實很浪漫它告訴我們，就算人生一團亂（全是雜訊），只要一步步努力去除雜訊，也能拼湊出美麗圖像」 AI 太勵志了我們也要努力


[【生成式AI時代下的機器學習(2025)】02  AI Agent 的原理 ](https://hackmd.io/@JuitingChen/rJvGhXGyZg)

![image](https://hackmd.io/_uploads/SJoyX3fe-l.png)


### Day 40 AI Agent 的原理

在講工具的定義有個難過的比喻，對於語言模型來說，工具是指只需要知道如何使用，完全不用管內部如何運作。這就像一個肥宅，如果他一直在幫別人修電腦，就會被稱為工具人，因為別人沒有人在意肥宅的心思，只知道它能不能夠修電腦而已。

當AI Agent累積了過長的經驗記錄時，就像是有一種超憶症的人類。記憶被太多枝微末節的瑣事所佔據，難以進行抽象思考。
所以AI Agent要像人類一樣擁有長期記憶，然後用模組來篩選重要資訊。用讀取模組篩選記憶，透過寫入模組來決定記下哪些重要資訊。反思模組對記憶中的資訊進行更高層次或抽象的重新整理。

我還有學到在調整行為方面有趣的發現，負面的回饋基本上沒有幫助，與其告訴他不要做什麼，不如告訴他要做什麼，提供正面的例子給AI比較有效果。

為了避免照本宣科，AI Agent要具備真正的規劃能力。但有一些覆水難收的事情，所以模型先在模擬環境變化的虛擬空間思考。在腦內小劇場找到最佳路徑後，才在現實中執行第一步，但也有想太多的問題。

[【生成式AI時代下的機器學習(2025)】03 語言模型內部運作機制剖析 ](https://hackmd.io/@JuitingChen/B1lxpQf1bx)
![image](https://hackmd.io/_uploads/rJ6Fzhzlbx.png)


### Day 41 今天來看LM內部運作機制

這集從一個、一層、一群神經元在做什麼，還有讓LM直接說出想法，讓我們了解它的機制。怎麼看一個神經元在做什麼? 可以觀察相關性，像是神經元啟動和模型行為的關係。或是驗證因果關係 ，將神經元移除或設為平均值，觀察輸出是否改變。單一任務通常由一組神經元共同管理。

研究假設特定功能是由一組神經元特定組合啟動構成的，形成一功能向量。可以向量提取方法或是操控行為。還有提到一群神經元跨層級運作與思維透明化

殘差連線創造了殘差串流，模型運作更像是將輸入Token沿著高速公路傳輸，而每一層的作用只是加入額外資訊。
Logic Lens 將最終的Unembedding模組應用於殘差串流的每一層，即時解讀成文字，讓我們了解模型在每層的思考內容。

Logic Lens在某些模型在法文翻中文時，會先轉譯成內部思考語言英文再輸出。但這只能解析出一個Token，為了理解更複雜的表示，研究人員提出了Patch Scope。它機制是把目標概念的表示提取出來，替換掉另一個 Prompt。模型就會根據該向量輸出對這個概念的文字解釋。


[【生成式AI時代下的機器學習(2025)】04 介紹 Transformer 的競爭者們](https://hackmd.io/@JuitingChen/H1pIa7zybe)

![image](https://hackmd.io/_uploads/rJlEwM3zgWg.png)


### Day42 Mamba

Transformer的Self-Attention(SA)最大的優點是訓練時容易平行化，可以用GPU加速。但是推理時，SA的計算量和記憶體需求，會隨輸入序列長度增加會有瓶頸。

RNN是傳統上用於處理序列輸入，但訓練難以平行化，要等待前一個步驟的隱藏狀態計算完成。人們探討是否能將RNN展開來實現平行運算。Linear Attention(LA)是一種簡化的RNN架構。經過一番公式推導發現它是SA拿掉Softmax的結果。

LA的特性是在推理像RNN固定運算量，但在訓練時可以像SA一樣平行化，但是LA的缺點是記憶會永久儲存輸入資訊。
而在SA中，所有的注意力權重會互相影響，Softmax效果提供了記憶調整或遺忘的能力。

就像這集有大量我獨自升級和獵人的雷，主角的暗影軍團從早期的艾恩->尖牙->貝爾，只要有越強的出來就比較不會去叫以前比較弱的。
於是之後有RetNet，LA再加上衰減因子，讓過去的記憶能保留或逐漸淡忘。
Mamba用了複雜的機制來控制記憶更新，推論特別快。


[生成式AI時代下的機器學習(2025)】05 大型語言模型訓練方法](https://hackmd.io/@JuitingChen/B1haa7fJWx)

![image](https://hackmd.io/_uploads/H1_HMnzxbl.png)


### Day 43 預訓練和對齊

沒想到這集可以順便複習小明劍魔我爸得了MVP，李宏毅老師AI技術和迷因都追得很快。
這集也有討論到什麼樣的對齊資料才是好的，還蠻有趣的。
預訓練像是畫龍，對齊資料就像是畫龍點睛，注重品質不重數量。

這集還有出現Mygo，如何有效的預訓練?
關鍵在於資料品質與多樣性，不只是數量而已。
用高松燈和愛音的例子說明，如果預訓練資料對單一實體的介紹只有一個版本，模型就會產生巨大的誤解。模型可能將「高松燈是主唱、是學生」視為一個不可分割的整體，導致對齊後無法回答關於「誰是主唱」的單獨問題。
解決方案是確保預訓練資料中包含同一實體的多種不同版本的介紹。這樣能讓模型學到更泛用的知識。

這集還有討論到對齊難以教會新知識，讓模型學習它原本不會的東西，反而會破壞模型既有的能力，對齊的真正價值在於激發潛力與調整行為。
RLHF 不會硬逼模型，做它本來就做不到的事情，而是對它做得好的行為進行鼓勵和強化。

這讓我們學到，或許不該逼迫小孩做他不想做的事情，而是在他做得好的行為時鼓勵他。


[【生成式AI時代下的機器學習(2025)】助教課 利用多張GPU訓練大型語言模型](https://hackmd.io/@JuitingChen/HkG7CQzk-g)

![image](https://hackmd.io/_uploads/S1OQznGgZe.png)


### Day 44 如何利用多張GPU訓練大型語言模型

李宏毅老師的助教好厲害，投影片也做得太好看，口條也很好。
這集介紹在LLM訓練中會遇到的記憶體瓶頸問題，例如模型參數、梯度和優化器狀態所佔用的巨大空間。

為了克服這些挑戰，介紹蠻多重要的技術，包括微軟開發的DeepSpeed，它的精神是把訓練所需的組件切成小片，分裝到多張 GPU 中，Zero有三種等級的切法，分別切優化器狀態、梯度、和模型參數，通常用於分散式訓練時的參數與梯度分割，雖然切割會造成 GPU 之間額外的傳輸成本，但是 NVIDIA GPU 使用 NVLink 4.0，傳輸速度可達每秒 900 GB，老黃太強了又是另外一個護城河。

還有介紹Flash Attention，它把原本複雜操作壓縮成單一的核心函數，還有把大部分資料像是QKV矩陣先放在CPU RAM，在需要計算時放到GPU上。

另外還有介紹Liger Kernel，透過優化GPU核心函數來提升計算效率、減少記憶體佔用的技術。最後提到量化技術，減少模型在推論時的記憶體需求。


[【生成式AI時代下的機器學習(2025)】06 生成式人工智慧的 Post-Training 與遺忘問題](https://hackmd.io/@JuitingChen/SkuYAQGkZx)

![image](https://hackmd.io/_uploads/B1IZfnzg-g.png)

### Day 45 如何避免還在go?

Mygo和Ave Mujica是很紅的動漫，沒看過的人應該也看過梗圖。
這集教如何做出避免2025還在go的模型? 可以用三種常見的後訓練
首先是可以預訓練上網找很多跟Ave Mujica的文章，讓模型根據這個文章句子接龍。
或是監督式微調準備一問一答的資料
例如Q:睦另外一個人格是什麼?A:Mortis
還可以做 RLHF 例如Q:祥子小時候實際上受到誰鼓勵成為偶像?
答案是初音所以分數上升，初華是錯誤答案分數下降。

這集還有提到後訓練帶來的災難性遺忘問題。後訓練指的是將已具備通用能力的基礎模型進一步微調，讓它在特定領域獲得專長，可以用前面提到三種的後訓練方法，但是這集舉很多例子說明，不論採用哪種訓練方法，模型在學習新技能後都容易忘掉原有的能力，特別是安全對齊能力。為解決這一挑戰，把時光倒回到從GPT-2時代就提出的經驗重放技術，在訓練新任務時，混入少量過去任務的資料。

還有讓模型自問自答，生成過去經驗的合成資料。或利用模型自身的語言等方法避免災難性遺忘。


[【生成式AI時代下的機器學習(2025) 】07 DeepSeek-R1 這類大型語言模型是如何 Reasoning 的？](https://hackmd.io/@JuitingChen/HyfACmGybg)
![image](https://hackmd.io/_uploads/rJ7xGhMxbe.png)

### Day 46 LLM是如何深度思考的?

這集有講DeepSeek-R1是如何被訓練出來的很精彩。
現在LLM通常都有推理模式，先給出一個很長的思考過程，最後才給出答案，模型會驗證答案、探索可能性、和規劃步驟。

這集重點是四種打造具備推理能力模型
第一個是改良版的CoT，之前有提過CoT，但現在的思考過程非常長，出現 Long CoT，還有Supervised CoT，用人類的知識告訴模型如何一步一步思考。另外還有多重採樣與多數投票 ，讓模型對同一個問題回答很多次，希望它總有機會產生出正確答案，多數投票是在模型所有輸出的答案中，哪個答案出現的次數最多就是最終答案。

模仿學習假設訓練資料中不僅有問題和答案，還包含推論的過程。模型模仿這些過程來學習如何推理。但只給正確推論過程，不給錯誤推論過程，模型學不會自己問題在哪。
就像小明劍魔說你怎麼不找找自己問題?
需要故意製造中間包含錯誤過程，讓模型知錯能改，實驗結果顯示它比只走正確路徑的表現更好。

這提醒我要去享受失敗，並把失敗經驗成為自己養分成長。


[【生成式AI時代下的機器學習(2025)】08~09：大型語言模型的推理過程不用太長、大型語言模型評估](https://hackmd.io/@JuitingChen/SkWr14Gybg)

![image](https://hackmd.io/_uploads/r1uubnMlZx.png)
![image](https://hackmd.io/_uploads/ry4FW3GlWl.png)


### Day 47 推理過程不用太長、夠用就好

我們期待的人工智慧是在有限算力下，能將事情做好的模型。
這集有分享到長頸鹿演化的故事，傳達過猶不及的道理，推理長度也是如此，它需要夠用，但不需要過度冗長。

今天介紹幾個技巧避免模型想太多。
用CoD限制每一步思考的長度。或是人為設定推理流程的參數
還有選擇最短且正確的推理過程作為訓練資料。
或是Implicit CoT逐步移除推理過程的 Token，讓模型學會心算。
或是在 RL 時修改獎勵機制，加入長度限制，懲罰長度超過答對平均所需長度的推理。或是透過獎勵機制，讓模型學會依據指令輸出指定長度的推理。

在大型語言模型評估這集提到，會不會模型只是把答案背起來?
就算沒看過也可以大量創造類似題目，刷到高分。
就算是Chatbot Arena 也有可能被Hack，人類評審容易受到回答風格的影響。

最後分享這集提到很喜歡Goodhart’s law的故事
「一項指標一旦變成了目標，它將不再是個好指標。」
小明劍魔說得有道理，你這麽認這個評分系統幹什麽啊？


[【生成式AI時代下的機器學習(2025)】10~11 Model  editing 和 Model Merging 技術](https://hackmd.io/@JuitingChen/S1LBl4GJWg)

![image](https://hackmd.io/_uploads/ByTU-2GgZg.png)


### Day 48 如何幫模型打上思想鋼印?

這集有分享三體關於思想鋼印的故事，直接編輯人類信念的方法，就像這集講到模型編輯，在語言模型中植入或更新單一知識。

後訓練通常用於學習新技能，模型編輯重於單項知識點的改變。
要評估模型編輯標準可以基於三個面向：可靠性、泛化性和局部性。
還有介紹了兩大類模型編輯方法，第一類是不動參數，透過提供例子來指導模型接受新知識（像是IKE方法），另一類是修改參數，其中包括人類決定編輯位置的ROME和人工智慧決定編輯方法。

這集還有提到模型合併，我們可以直接把參數加減讓模型學會新能力嗎?舉艾爾登法環的接肢王葛瑞克的例子，雖然它砍很多手接在身上還是很弱，但類神經網路是可以加減的，可以用任務向量，它是訓練後模型參數相對於基礎模型參數的差異。目的在不需額外訓練或原始訓練資料的情況下，將多個任務向量進行加減，給予模型新能力或移除舊能力，但前提是所有要合併的模型要來自同一個基礎模型。

也許不久後的未來可以看到不需要互換資料，只需要互換任務向量，不用資料也能讓模型具備能力。


[【生成式AI時代下的機器學習(2025)】 12  語音語言模型發展歷程](https://hackmd.io/@JuitingChen/SJvmKIak-e)
![image](https://hackmd.io/_uploads/r1VeW2Mg-g.png)

### Day 49 語音語言模型的發展歷程

這集有露比醬的迷因，今年五月很紅，我最喜歡黃仁勳、陳立武、蘇姿丰的版本，和黃仁勳這就是你要的世界嗎?

這集把這幾年的語音語言模型的發展歷程與核心技術說得很完整。
處理語音訊號的挑戰比文字模型更高，因為語音包含文字內容以外的資訊，像是情緒和說話者特徵，還要面對長度限制和即時性問題。

還有討論到語音訊號的分詞化，是開發語音語言模型的關鍵，極端分詞化方法的缺點，像是純語音辨識和合成，會丟失像是語氣的非文字資訊，而純取樣點作為token太長不切實際。

語音訊號的分詞化包括使用自監督模型，和神經語音編碼器兩種主要方法，還有討論了語音與文字混合解碼策略，多層級Token的結合和從粗到細生成策略，但從粗到細的生成很難即時回覆，可以改成交錯生成但也有額外問題。
由於單純使用語音資料難以訓練出好的語言模型，現在主流做法是從文字模型開始，作為語言模型的初始化。

還有介紹混合解碼利用文字模型能力，同時生成語音和文字。新的分詞技術TAES解決語音與文字長度不一致的困擾。