李宏毅【生成式AI時代下的機器學習(2025)】序章

很感謝李宏毅老師提供這麼豐富又有趣的課程，還可以順便複習我獨自升級、Mygo、小明劍魔 [李宏毅【生成式AI時代下的機器學習(2025)】Youtube 頻道](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi) [【生成式AI時代下的機器學習(2025)】01 生成式人工智慧的技術突破與未來發展](https://hackmd.io/@JuitingChen/HySwq7fkWl) ![image](https://hackmd.io/_uploads/HybGX3MxWl.png) ### Day 39 生成式 AI 的技術突破與未來發展我們終於到2025年啦，今天內容直接貫穿重要生成式 AI 技術和未來發展，真的佩服李宏毅老師每年都準備新內容、新解釋，還有新的動漫梗，太幸福了。印象深刻是嘗試用AI產生投影片、講稿、語音、人臉，做出AI李宏毅講課，但做出來就很流水帳，還是比不上真正的李宏毅講解。另外用姜子牙vs.鄧不利多來展示 AI 的推理能力和腦內小劇場。介紹現在天天在用的AI Agent，讓 AI 可以幫我們執行更複雜的任務。之後課程包含生成式 AI 的運作機制與架構、通用模型的演化與訓練原理、賦予 AI 新能力的終身學習，分成暫時性能力賦予像是指令和 RAG，還有永久性能力賦予像是微調和模型編輯和合併，但微調可能會破壞原有的能力，微調成 AI 助教後，模型可能開始亂講話，像是把誰是肥宅回答成李宏毅。最後印象深刻的是 AI 說: 「擴散模型其實很浪漫它告訴我們，就算人生一團亂（全是雜訊），只要一步步努力去除雜訊，也能拼湊出美麗圖像」 AI 太勵志了我們也要努力 [【生成式AI時代下的機器學習(2025)】02 AI Agent 的原理 ](https://hackmd.io/@JuitingChen/rJvGhXGyZg) ![image](https://hackmd.io/_uploads/SJoyX3fe-l.png) ### Day 40 AI Agent 的原理在講工具的定義有個難過的比喻，對於語言模型來說，工具是指只需要知道如何使用，完全不用管內部如何運作。這就像一個肥宅，如果他一直在幫別人修電腦，就會被稱為工具人，因為別人沒有人在意肥宅的心思，只知道它能不能夠修電腦而已。當AI Agent累積了過長的經驗記錄時，就像是有一種超憶症的人類。記憶被太多枝微末節的瑣事所佔據，難以進行抽象思考。所以AI Agent要像人類一樣擁有長期記憶，然後用模組來篩選重要資訊。用讀取模組篩選記憶，透過寫入模組來決定記下哪些重要資訊。反思模組對記憶中的資訊進行更高層次或抽象的重新整理。我還有學到在調整行為方面有趣的發現，負面的回饋基本上沒有幫助，與其告訴他不要做什麼，不如告訴他要做什麼，提供正面的例子給AI比較有效果。為了避免照本宣科，AI Agent要具備真正的規劃能力。但有一些覆水難收的事情，所以模型先在模擬環境變化的虛擬空間思考。在腦內小劇場找到最佳路徑後，才在現實中執行第一步，但也有想太多的問題。 [【生成式AI時代下的機器學習(2025)】03 語言模型內部運作機制剖析 ](https://hackmd.io/@JuitingChen/B1lxpQf1bx) ![image](https://hackmd.io/_uploads/rJ6Fzhzlbx.png) ### Day 41 今天來看LM內部運作機制這集從一個、一層、一群神經元在做什麼，還有讓LM直接說出想法，讓我們了解它的機制。怎麼看一個神經元在做什麼? 可以觀察相關性，像是神經元啟動和模型行為的關係。或是驗證因果關係，將神經元移除或設為平均值，觀察輸出是否改變。單一任務通常由一組神經元共同管理。研究假設特定功能是由一組神經元特定組合啟動構成的，形成一功能向量。可以向量提取方法或是操控行為。還有提到一群神經元跨層級運作與思維透明化殘差連線創造了殘差串流，模型運作更像是將輸入Token沿著高速公路傳輸，而每一層的作用只是加入額外資訊。 Logic Lens 將最終的Unembedding模組應用於殘差串流的每一層，即時解讀成文字，讓我們了解模型在每層的思考內容。 Logic Lens在某些模型在法文翻中文時，會先轉譯成內部思考語言英文再輸出。但這只能解析出一個Token，為了理解更複雜的表示，研究人員提出了Patch Scope。它機制是把目標概念的表示提取出來，替換掉另一個 Prompt。模型就會根據該向量輸出對這個概念的文字解釋。 [【生成式AI時代下的機器學習(2025)】04 介紹 Transformer 的競爭者們](https://hackmd.io/@JuitingChen/H1pIa7zybe) ![image](https://hackmd.io/_uploads/rJlEwM3zgWg.png) ### Day42 Mamba Transformer的Self-Attention(SA)最大的優點是訓練時容易平行化，可以用GPU加速。但是推理時，SA的計算量和記憶體需求，會隨輸入序列長度增加會有瓶頸。 RNN是傳統上用於處理序列輸入，但訓練難以平行化，要等待前一個步驟的隱藏狀態計算完成。人們探討是否能將RNN展開來實現平行運算。Linear Attention(LA)是一種簡化的RNN架構。經過一番公式推導發現它是SA拿掉Softmax的結果。 LA的特性是在推理像RNN固定運算量，但在訓練時可以像SA一樣平行化，但是LA的缺點是記憶會永久儲存輸入資訊。而在SA中，所有的注意力權重會互相影響，Softmax效果提供了記憶調整或遺忘的能力。就像這集有大量我獨自升級和獵人的雷，主角的暗影軍團從早期的艾恩->尖牙->貝爾，只要有越強的出來就比較不會去叫以前比較弱的。於是之後有RetNet，LA再加上衰減因子，讓過去的記憶能保留或逐漸淡忘。 Mamba用了複雜的機制來控制記憶更新，推論特別快。 [生成式AI時代下的機器學習(2025)】05 大型語言模型訓練方法](https://hackmd.io/@JuitingChen/B1haa7fJWx) ![image](https://hackmd.io/_uploads/H1_HMnzxbl.png) ### Day 43 預訓練和對齊沒想到這集可以順便複習小明劍魔我爸得了MVP，李宏毅老師AI技術和迷因都追得很快。這集也有討論到什麼樣的對齊資料才是好的，還蠻有趣的。預訓練像是畫龍，對齊資料就像是畫龍點睛，注重品質不重數量。這集還有出現Mygo，如何有效的預訓練? 關鍵在於資料品質與多樣性，不只是數量而已。用高松燈和愛音的例子說明，如果預訓練資料對單一實體的介紹只有一個版本，模型就會產生巨大的誤解。模型可能將「高松燈是主唱、是學生」視為一個不可分割的整體，導致對齊後無法回答關於「誰是主唱」的單獨問題。解決方案是確保預訓練資料中包含同一實體的多種不同版本的介紹。這樣能讓模型學到更泛用的知識。這集還有討論到對齊難以教會新知識，讓模型學習它原本不會的東西，反而會破壞模型既有的能力，對齊的真正價值在於激發潛力與調整行為。 RLHF 不會硬逼模型，做它本來就做不到的事情，而是對它做得好的行為進行鼓勵和強化。這讓我們學到，或許不該逼迫小孩做他不想做的事情，而是在他做得好的行為時鼓勵他。 [【生成式AI時代下的機器學習(2025)】助教課利用多張GPU訓練大型語言模型](https://hackmd.io/@JuitingChen/HkG7CQzk-g) ![image](https://hackmd.io/_uploads/S1OQznGgZe.png) ### Day 44 如何利用多張GPU訓練大型語言模型李宏毅老師的助教好厲害，投影片也做得太好看，口條也很好。這集介紹在LLM訓練中會遇到的記憶體瓶頸問題，例如模型參數、梯度和優化器狀態所佔用的巨大空間。為了克服這些挑戰，介紹蠻多重要的技術，包括微軟開發的DeepSpeed，它的精神是把訓練所需的組件切成小片，分裝到多張 GPU 中，Zero有三種等級的切法，分別切優化器狀態、梯度、和模型參數，通常用於分散式訓練時的參數與梯度分割，雖然切割會造成 GPU 之間額外的傳輸成本，但是 NVIDIA GPU 使用 NVLink 4.0，傳輸速度可達每秒 900 GB，老黃太強了又是另外一個護城河。還有介紹Flash Attention，它把原本複雜操作壓縮成單一的核心函數，還有把大部分資料像是QKV矩陣先放在CPU RAM，在需要計算時放到GPU上。另外還有介紹Liger Kernel，透過優化GPU核心函數來提升計算效率、減少記憶體佔用的技術。最後提到量化技術，減少模型在推論時的記憶體需求。 [【生成式AI時代下的機器學習(2025)】06 生成式人工智慧的 Post-Training 與遺忘問題](https://hackmd.io/@JuitingChen/SkuYAQGkZx) ![image](https://hackmd.io/_uploads/B1IZfnzg-g.png) ### Day 45 如何避免還在go? Mygo和Ave Mujica是很紅的動漫，沒看過的人應該也看過梗圖。這集教如何做出避免2025還在go的模型? 可以用三種常見的後訓練首先是可以預訓練上網找很多跟Ave Mujica的文章，讓模型根據這個文章句子接龍。或是監督式微調準備一問一答的資料例如Q:睦另外一個人格是什麼?A:Mortis 還可以做 RLHF 例如Q:祥子小時候實際上受到誰鼓勵成為偶像? 答案是初音所以分數上升，初華是錯誤答案分數下降。這集還有提到後訓練帶來的災難性遺忘問題。後訓練指的是將已具備通用能力的基礎模型進一步微調，讓它在特定領域獲得專長，可以用前面提到三種的後訓練方法，但是這集舉很多例子說明，不論採用哪種訓練方法，模型在學習新技能後都容易忘掉原有的能力，特別是安全對齊能力。為解決這一挑戰，把時光倒回到從GPT-2時代就提出的經驗重放技術，在訓練新任務時，混入少量過去任務的資料。還有讓模型自問自答，生成過去經驗的合成資料。或利用模型自身的語言等方法避免災難性遺忘。 [【生成式AI時代下的機器學習(2025) 】07 DeepSeek-R1 這類大型語言模型是如何 Reasoning 的？](https://hackmd.io/@JuitingChen/HyfACmGybg) ![image](https://hackmd.io/_uploads/rJ7xGhMxbe.png) ### Day 46 LLM是如何深度思考的? 這集有講DeepSeek-R1是如何被訓練出來的很精彩。現在LLM通常都有推理模式，先給出一個很長的思考過程，最後才給出答案，模型會驗證答案、探索可能性、和規劃步驟。這集重點是四種打造具備推理能力模型第一個是改良版的CoT，之前有提過CoT，但現在的思考過程非常長，出現 Long CoT，還有Supervised CoT，用人類的知識告訴模型如何一步一步思考。另外還有多重採樣與多數投票，讓模型對同一個問題回答很多次，希望它總有機會產生出正確答案，多數投票是在模型所有輸出的答案中，哪個答案出現的次數最多就是最終答案。模仿學習假設訓練資料中不僅有問題和答案，還包含推論的過程。模型模仿這些過程來學習如何推理。但只給正確推論過程，不給錯誤推論過程，模型學不會自己問題在哪。就像小明劍魔說你怎麼不找找自己問題? 需要故意製造中間包含錯誤過程，讓模型知錯能改，實驗結果顯示它比只走正確路徑的表現更好。這提醒我要去享受失敗，並把失敗經驗成為自己養分成長。 [【生成式AI時代下的機器學習(2025)】08~09：大型語言模型的推理過程不用太長、大型語言模型評估](https://hackmd.io/@JuitingChen/SkWr14Gybg) ![image](https://hackmd.io/_uploads/r1uubnMlZx.png) ![image](https://hackmd.io/_uploads/ry4FW3GlWl.png) ### Day 47 推理過程不用太長、夠用就好我們期待的人工智慧是在有限算力下，能將事情做好的模型。這集有分享到長頸鹿演化的故事，傳達過猶不及的道理，推理長度也是如此，它需要夠用，但不需要過度冗長。今天介紹幾個技巧避免模型想太多。用CoD限制每一步思考的長度。或是人為設定推理流程的參數還有選擇最短且正確的推理過程作為訓練資料。或是Implicit CoT逐步移除推理過程的 Token，讓模型學會心算。或是在 RL 時修改獎勵機制，加入長度限制，懲罰長度超過答對平均所需長度的推理。或是透過獎勵機制，讓模型學會依據指令輸出指定長度的推理。在大型語言模型評估這集提到，會不會模型只是把答案背起來? 就算沒看過也可以大量創造類似題目，刷到高分。就算是Chatbot Arena 也有可能被Hack，人類評審容易受到回答風格的影響。最後分享這集提到很喜歡Goodhart’s law的故事「一項指標一旦變成了目標，它將不再是個好指標。」小明劍魔說得有道理，你這麽認這個評分系統幹什麽啊？ [【生成式AI時代下的機器學習(2025)】10~11 Model editing 和 Model Merging 技術](https://hackmd.io/@JuitingChen/S1LBl4GJWg) ![image](https://hackmd.io/_uploads/ByTU-2GgZg.png) ### Day 48 如何幫模型打上思想鋼印? 這集有分享三體關於思想鋼印的故事，直接編輯人類信念的方法，就像這集講到模型編輯，在語言模型中植入或更新單一知識。後訓練通常用於學習新技能，模型編輯重於單項知識點的改變。要評估模型編輯標準可以基於三個面向：可靠性、泛化性和局部性。還有介紹了兩大類模型編輯方法，第一類是不動參數，透過提供例子來指導模型接受新知識（像是IKE方法），另一類是修改參數，其中包括人類決定編輯位置的ROME和人工智慧決定編輯方法。這集還有提到模型合併，我們可以直接把參數加減讓模型學會新能力嗎?舉艾爾登法環的接肢王葛瑞克的例子，雖然它砍很多手接在身上還是很弱，但類神經網路是可以加減的，可以用任務向量，它是訓練後模型參數相對於基礎模型參數的差異。目的在不需額外訓練或原始訓練資料的情況下，將多個任務向量進行加減，給予模型新能力或移除舊能力，但前提是所有要合併的模型要來自同一個基礎模型。也許不久後的未來可以看到不需要互換資料，只需要互換任務向量，不用資料也能讓模型具備能力。 [【生成式AI時代下的機器學習(2025)】 12 語音語言模型發展歷程](https://hackmd.io/@JuitingChen/SJvmKIak-e) ![image](https://hackmd.io/_uploads/r1VeW2Mg-g.png) ### Day 49 語音語言模型的發展歷程這集有露比醬的迷因，今年五月很紅，我最喜歡黃仁勳、陳立武、蘇姿丰的版本，和黃仁勳這就是你要的世界嗎? 這集把這幾年的語音語言模型的發展歷程與核心技術說得很完整。處理語音訊號的挑戰比文字模型更高，因為語音包含文字內容以外的資訊，像是情緒和說話者特徵，還要面對長度限制和即時性問題。還有討論到語音訊號的分詞化，是開發語音語言模型的關鍵，極端分詞化方法的缺點，像是純語音辨識和合成，會丟失像是語氣的非文字資訊，而純取樣點作為token太長不切實際。語音訊號的分詞化包括使用自監督模型，和神經語音編碼器兩種主要方法，還有討論了語音與文字混合解碼策略，多層級Token的結合和從粗到細生成策略，但從粗到細的生成很難即時回覆，可以改成交錯生成但也有額外問題。由於單純使用語音資料難以訓練出好的語言模型，現在主流做法是從文字模型開始，作為語言模型的初始化。還有介紹混合解碼利用文字模型能力，同時生成語音和文字。新的分詞技術TAES解決語音與文字長度不一致的困擾。