很感謝李宏毅老師提供這麼豐富又有趣的課程,還可以順便複習我獨自升級、Mygo、小明劍魔 [李宏毅【生成式AI時代下的機器學習(2025)】Youtube 頻道](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi) [【生成式AI時代下的機器學習(2025)】01 生成式人工智慧的技術突破與未來發展](https://hackmd.io/@JuitingChen/HySwq7fkWl)  ### Day 39 生成式 AI 的技術突破與未來發展 我們終於到2025年啦,今天內容直接貫穿重要生成式 AI 技術和未來發展,真的佩服李宏毅老師每年都準備新內容、新解釋,還有新的動漫梗,太幸福了。 印象深刻是嘗試用AI產生投影片、講稿、語音、人臉,做出AI李宏毅講課,但做出來就很流水帳,還是比不上真正的李宏毅講解。 另外用姜子牙vs.鄧不利多來展示 AI 的推理能力和腦內小劇場。介紹現在天天在用的AI Agent,讓 AI 可以幫我們執行更複雜的任務。 之後課程包含生成式 AI 的運作機制與架構、通用模型的演化與訓練原理、賦予 AI 新能力的終身學習,分成暫時性能力賦予像是指令和 RAG,還有永久性能力賦予像是微調和模型編輯和合併,但微調可能會破壞原有的能力,微調成 AI 助教後,模型可能開始亂講話,像是把誰是肥宅回答成李宏毅。 最後印象深刻的是 AI 說: 「擴散模型其實很浪漫它告訴我們,就算人生一團亂(全是雜訊),只要一步步努力去除雜訊,也能拼湊出美麗圖像」 AI 太勵志了我們也要努力 [【生成式AI時代下的機器學習(2025)】02 AI Agent 的原理 ](https://hackmd.io/@JuitingChen/rJvGhXGyZg)  ### Day 40 AI Agent 的原理 在講工具的定義有個難過的比喻,對於語言模型來說,工具是指只需要知道如何使用,完全不用管內部如何運作。這就像一個肥宅,如果他一直在幫別人修電腦,就會被稱為工具人,因為別人沒有人在意肥宅的心思,只知道它能不能夠修電腦而已。 當AI Agent累積了過長的經驗記錄時,就像是有一種超憶症的人類。記憶被太多枝微末節的瑣事所佔據,難以進行抽象思考。 所以AI Agent要像人類一樣擁有長期記憶,然後用模組來篩選重要資訊。用讀取模組篩選記憶,透過寫入模組來決定記下哪些重要資訊。反思模組對記憶中的資訊進行更高層次或抽象的重新整理。 我還有學到在調整行為方面有趣的發現,負面的回饋基本上沒有幫助,與其告訴他不要做什麼,不如告訴他要做什麼,提供正面的例子給AI比較有效果。 為了避免照本宣科,AI Agent要具備真正的規劃能力。但有一些覆水難收的事情,所以模型先在模擬環境變化的虛擬空間思考。在腦內小劇場找到最佳路徑後,才在現實中執行第一步,但也有想太多的問題。 [【生成式AI時代下的機器學習(2025)】03 語言模型內部運作機制剖析 ](https://hackmd.io/@JuitingChen/B1lxpQf1bx)  ### Day 41 今天來看LM內部運作機制 這集從一個、一層、一群神經元在做什麼,還有讓LM直接說出想法,讓我們了解它的機制。怎麼看一個神經元在做什麼? 可以觀察相關性,像是神經元啟動和模型行為的關係。或是驗證因果關係 ,將神經元移除或設為平均值,觀察輸出是否改變。單一任務通常由一組神經元共同管理。 研究假設特定功能是由一組神經元特定組合啟動構成的,形成一功能向量。可以向量提取方法或是操控行為。還有提到一群神經元跨層級運作與思維透明化 殘差連線創造了殘差串流,模型運作更像是將輸入Token沿著高速公路傳輸,而每一層的作用只是加入額外資訊。 Logic Lens 將最終的Unembedding模組應用於殘差串流的每一層,即時解讀成文字,讓我們了解模型在每層的思考內容。 Logic Lens在某些模型在法文翻中文時,會先轉譯成內部思考語言英文再輸出。但這只能解析出一個Token,為了理解更複雜的表示,研究人員提出了Patch Scope。它機制是把目標概念的表示提取出來,替換掉另一個 Prompt。模型就會根據該向量輸出對這個概念的文字解釋。 [【生成式AI時代下的機器學習(2025)】04 介紹 Transformer 的競爭者們](https://hackmd.io/@JuitingChen/H1pIa7zybe)  ### Day42 Mamba Transformer的Self-Attention(SA)最大的優點是訓練時容易平行化,可以用GPU加速。但是推理時,SA的計算量和記憶體需求,會隨輸入序列長度增加會有瓶頸。 RNN是傳統上用於處理序列輸入,但訓練難以平行化,要等待前一個步驟的隱藏狀態計算完成。人們探討是否能將RNN展開來實現平行運算。Linear Attention(LA)是一種簡化的RNN架構。經過一番公式推導發現它是SA拿掉Softmax的結果。 LA的特性是在推理像RNN固定運算量,但在訓練時可以像SA一樣平行化,但是LA的缺點是記憶會永久儲存輸入資訊。 而在SA中,所有的注意力權重會互相影響,Softmax效果提供了記憶調整或遺忘的能力。 就像這集有大量我獨自升級和獵人的雷,主角的暗影軍團從早期的艾恩->尖牙->貝爾,只要有越強的出來就比較不會去叫以前比較弱的。 於是之後有RetNet,LA再加上衰減因子,讓過去的記憶能保留或逐漸淡忘。 Mamba用了複雜的機制來控制記憶更新,推論特別快。 [生成式AI時代下的機器學習(2025)】05 大型語言模型訓練方法](https://hackmd.io/@JuitingChen/B1haa7fJWx)  ### Day 43 預訓練和對齊 沒想到這集可以順便複習小明劍魔我爸得了MVP,李宏毅老師AI技術和迷因都追得很快。 這集也有討論到什麼樣的對齊資料才是好的,還蠻有趣的。 預訓練像是畫龍,對齊資料就像是畫龍點睛,注重品質不重數量。 這集還有出現Mygo,如何有效的預訓練? 關鍵在於資料品質與多樣性,不只是數量而已。 用高松燈和愛音的例子說明,如果預訓練資料對單一實體的介紹只有一個版本,模型就會產生巨大的誤解。模型可能將「高松燈是主唱、是學生」視為一個不可分割的整體,導致對齊後無法回答關於「誰是主唱」的單獨問題。 解決方案是確保預訓練資料中包含同一實體的多種不同版本的介紹。這樣能讓模型學到更泛用的知識。 這集還有討論到對齊難以教會新知識,讓模型學習它原本不會的東西,反而會破壞模型既有的能力,對齊的真正價值在於激發潛力與調整行為。 RLHF 不會硬逼模型,做它本來就做不到的事情,而是對它做得好的行為進行鼓勵和強化。 這讓我們學到,或許不該逼迫小孩做他不想做的事情,而是在他做得好的行為時鼓勵他。 [【生成式AI時代下的機器學習(2025)】助教課 利用多張GPU訓練大型語言模型](https://hackmd.io/@JuitingChen/HkG7CQzk-g)  ### Day 44 如何利用多張GPU訓練大型語言模型 李宏毅老師的助教好厲害,投影片也做得太好看,口條也很好。 這集介紹在LLM訓練中會遇到的記憶體瓶頸問題,例如模型參數、梯度和優化器狀態所佔用的巨大空間。 為了克服這些挑戰,介紹蠻多重要的技術,包括微軟開發的DeepSpeed,它的精神是把訓練所需的組件切成小片,分裝到多張 GPU 中,Zero有三種等級的切法,分別切優化器狀態、梯度、和模型參數,通常用於分散式訓練時的參數與梯度分割,雖然切割會造成 GPU 之間額外的傳輸成本,但是 NVIDIA GPU 使用 NVLink 4.0,傳輸速度可達每秒 900 GB,老黃太強了又是另外一個護城河。 還有介紹Flash Attention,它把原本複雜操作壓縮成單一的核心函數,還有把大部分資料像是QKV矩陣先放在CPU RAM,在需要計算時放到GPU上。 另外還有介紹Liger Kernel,透過優化GPU核心函數來提升計算效率、減少記憶體佔用的技術。最後提到量化技術,減少模型在推論時的記憶體需求。 [【生成式AI時代下的機器學習(2025)】06 生成式人工智慧的 Post-Training 與遺忘問題](https://hackmd.io/@JuitingChen/SkuYAQGkZx)  ### Day 45 如何避免還在go? Mygo和Ave Mujica是很紅的動漫,沒看過的人應該也看過梗圖。 這集教如何做出避免2025還在go的模型? 可以用三種常見的後訓練 首先是可以預訓練上網找很多跟Ave Mujica的文章,讓模型根據這個文章句子接龍。 或是監督式微調準備一問一答的資料 例如Q:睦另外一個人格是什麼?A:Mortis 還可以做 RLHF 例如Q:祥子小時候實際上受到誰鼓勵成為偶像? 答案是初音所以分數上升,初華是錯誤答案分數下降。 這集還有提到後訓練帶來的災難性遺忘問題。後訓練指的是將已具備通用能力的基礎模型進一步微調,讓它在特定領域獲得專長,可以用前面提到三種的後訓練方法,但是這集舉很多例子說明,不論採用哪種訓練方法,模型在學習新技能後都容易忘掉原有的能力,特別是安全對齊能力。為解決這一挑戰,把時光倒回到從GPT-2時代就提出的經驗重放技術,在訓練新任務時,混入少量過去任務的資料。 還有讓模型自問自答,生成過去經驗的合成資料。或利用模型自身的語言等方法避免災難性遺忘。 [【生成式AI時代下的機器學習(2025) 】07 DeepSeek-R1 這類大型語言模型是如何 Reasoning 的?](https://hackmd.io/@JuitingChen/HyfACmGybg)  ### Day 46 LLM是如何深度思考的? 這集有講DeepSeek-R1是如何被訓練出來的很精彩。 現在LLM通常都有推理模式,先給出一個很長的思考過程,最後才給出答案,模型會驗證答案、探索可能性、和規劃步驟。 這集重點是四種打造具備推理能力模型 第一個是改良版的CoT,之前有提過CoT,但現在的思考過程非常長,出現 Long CoT,還有Supervised CoT,用人類的知識告訴模型如何一步一步思考。另外還有多重採樣與多數投票 ,讓模型對同一個問題回答很多次,希望它總有機會產生出正確答案,多數投票是在模型所有輸出的答案中,哪個答案出現的次數最多就是最終答案。 模仿學習假設訓練資料中不僅有問題和答案,還包含推論的過程。模型模仿這些過程來學習如何推理。但只給正確推論過程,不給錯誤推論過程,模型學不會自己問題在哪。 就像小明劍魔說你怎麼不找找自己問題? 需要故意製造中間包含錯誤過程,讓模型知錯能改,實驗結果顯示它比只走正確路徑的表現更好。 這提醒我要去享受失敗,並把失敗經驗成為自己養分成長。 [【生成式AI時代下的機器學習(2025)】08~09:大型語言模型的推理過程不用太長、大型語言模型評估](https://hackmd.io/@JuitingChen/SkWr14Gybg)   ### Day 47 推理過程不用太長、夠用就好 我們期待的人工智慧是在有限算力下,能將事情做好的模型。 這集有分享到長頸鹿演化的故事,傳達過猶不及的道理,推理長度也是如此,它需要夠用,但不需要過度冗長。 今天介紹幾個技巧避免模型想太多。 用CoD限制每一步思考的長度。或是人為設定推理流程的參數 還有選擇最短且正確的推理過程作為訓練資料。 或是Implicit CoT逐步移除推理過程的 Token,讓模型學會心算。 或是在 RL 時修改獎勵機制,加入長度限制,懲罰長度超過答對平均所需長度的推理。或是透過獎勵機制,讓模型學會依據指令輸出指定長度的推理。 在大型語言模型評估這集提到,會不會模型只是把答案背起來? 就算沒看過也可以大量創造類似題目,刷到高分。 就算是Chatbot Arena 也有可能被Hack,人類評審容易受到回答風格的影響。 最後分享這集提到很喜歡Goodhart’s law的故事 「一項指標一旦變成了目標,它將不再是個好指標。」 小明劍魔說得有道理,你這麽認這個評分系統幹什麽啊? [【生成式AI時代下的機器學習(2025)】10~11 Model editing 和 Model Merging 技術](https://hackmd.io/@JuitingChen/S1LBl4GJWg)  ### Day 48 如何幫模型打上思想鋼印? 這集有分享三體關於思想鋼印的故事,直接編輯人類信念的方法,就像這集講到模型編輯,在語言模型中植入或更新單一知識。 後訓練通常用於學習新技能,模型編輯重於單項知識點的改變。 要評估模型編輯標準可以基於三個面向:可靠性、泛化性和局部性。 還有介紹了兩大類模型編輯方法,第一類是不動參數,透過提供例子來指導模型接受新知識(像是IKE方法),另一類是修改參數,其中包括人類決定編輯位置的ROME和人工智慧決定編輯方法。 這集還有提到模型合併,我們可以直接把參數加減讓模型學會新能力嗎?舉艾爾登法環的接肢王葛瑞克的例子,雖然它砍很多手接在身上還是很弱,但類神經網路是可以加減的,可以用任務向量,它是訓練後模型參數相對於基礎模型參數的差異。目的在不需額外訓練或原始訓練資料的情況下,將多個任務向量進行加減,給予模型新能力或移除舊能力,但前提是所有要合併的模型要來自同一個基礎模型。 也許不久後的未來可以看到不需要互換資料,只需要互換任務向量,不用資料也能讓模型具備能力。 [【生成式AI時代下的機器學習(2025)】 12 語音語言模型發展歷程](https://hackmd.io/@JuitingChen/SJvmKIak-e)  ### Day 49 語音語言模型的發展歷程 這集有露比醬的迷因,今年五月很紅,我最喜歡黃仁勳、陳立武、蘇姿丰的版本,和黃仁勳這就是你要的世界嗎? 這集把這幾年的語音語言模型的發展歷程與核心技術說得很完整。 處理語音訊號的挑戰比文字模型更高,因為語音包含文字內容以外的資訊,像是情緒和說話者特徵,還要面對長度限制和即時性問題。 還有討論到語音訊號的分詞化,是開發語音語言模型的關鍵,極端分詞化方法的缺點,像是純語音辨識和合成,會丟失像是語氣的非文字資訊,而純取樣點作為token太長不切實際。 語音訊號的分詞化包括使用自監督模型,和神經語音編碼器兩種主要方法,還有討論了語音與文字混合解碼策略,多層級Token的結合和從粗到細生成策略,但從粗到細的生成很難即時回覆,可以改成交錯生成但也有額外問題。 由於單純使用語音資料難以訓練出好的語言模型,現在主流做法是從文字模型開始,作為語言模型的初始化。 還有介紹混合解碼利用文字模型能力,同時生成語音和文字。新的分詞技術TAES解決語音與文字長度不一致的困擾。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up