【生成式AI導論 2024】序章

很感謝李宏毅老師提供這麼豐富又有趣的課程，還可以順便複習葬送的芙莉蓮 [李宏毅【生成式AI導論 2024】Youtube 頻道](https://www.youtube.com/playlist?list=PLJV_el3uVTsPz6CTopeRp2L2t4aL_KgiI) ![螢幕擷取畫面 2025-11-02 113658](https://hackmd.io/_uploads/BkFbfINkZg.png) ### Day 32 從葬送的芙莉蓮故事說起芙莉蓮在80年前曾參加勇者小隊，一起去討伐魔王。在魔王的手下有一位非常厲害的幹部，叫做庫瓦爾，庫瓦爾發明了殺人魔法，這種魔法可以穿透任何防禦，當時所有的勇士都被庫瓦爾的殺人魔法殺死，連芙莉蓮自己也沒有辦法打倒他，只能夠將庫瓦爾暫時封印起來。經過80年之後，庫瓦爾的封印開始鬆動並且復活，於是芙莉蓮帶著她的弟子費倫對付庫瓦爾。一開始，費倫感到非常緊張，因為她知道庫瓦爾的殺人魔法是沒有辦法防禦的，擔心要如何才能擊敗他。當庫瓦爾對費倫使出殺人魔法時，芙莉蓮指示費倫：「你就把防禦法陣張開就好」。費倫成功擋下攻擊後，然後說：「這什麼殺人魔法，不過就是普通攻擊而已啊」。這個故事的重點在於80 年前的殺人魔法，在 80 年後就只是一個普通攻擊而已。對於人類來說，80 年的時間實在是太長了。人類已經專研了庫瓦爾的魔法，並尋找到可以反擊或防禦的方法。 2019年的 GPT-2 就像是庫瓦爾是一個超大模型，而今天它也已經不算什麼，AI 真的進步太快了。 [【生成式AI導論 2024】00~02 生成式AI介紹](https://hackmd.io/@JuitingChen/ByiS0S_Aex) ![image](https://hackmd.io/_uploads/BkncMLVJbx.png) ### Day 33 把一個人活成一個團隊喜歡聽李宏毅老師講芙莉蓮的故事，在第25集，芙莉蓮和費倫在考一級魔法使測驗，必須通過零落的王墓。裡面有一個水鏡惡魔，它的能力是可以複製進入迷宮的人的能力，最後大家的任務，就是要去打敗芙莉蓮的複製體。芙莉蓮複製體很強，可能連芙莉蓮自己都打不贏。但芙莉蓮相信她跟費倫一起上就可以打敗。因為即使是千年魔法使，也可能有限制。當她的魔法和費倫的魔法合作時，他們可以發揮出本來沒有辦法發揮的強大力量。這個故事告訴我們合作的重要性，就像現在我們知道GPT很強大，但是GPT如果跟其他的語言模型合作會有更好效果，像之前有介紹過的FrugalGPT問不同問題使用不同語言，可以節省更多成本。今天還有提到提升模型語言能力方法，像是如何下指令、拆解複雜的任務、是各種思考技巧，讓模型檢查自己答案、多重答案並且投票，或是使用額外的工具。還有讓不同模型之間互相討論，透過裁判模型達成共識的時候停止，我覺得很有趣是不同語言模型扮演不同角色彼此合作，就像一間公司一樣，把一個人活成一個團隊。 [【生成式AI導論 2024】03~05 訓練不了人工智慧？你可以訓練你自己](https://hackmd.io/@JuitingChen/SJZdX5KAlx) ![image](https://hackmd.io/_uploads/By80z84Jbg.png) ### Day 34 如果是欣梅爾的話，也一定會這麼做的第一集欣梅爾帶領勇者小隊一起去討伐了魔王。在討伐魔王50年之後，欣梅爾就過世了。故事就從芙莉蓮帶著對欣梅爾的回憶，踏上新的旅程開始。當芙莉蓮遇到難以抉擇的事時，欣梅爾就會浮現在她的腦中。芙莉蓮經常會說:「如果是欣梅爾的話，也一定會這麼做的」。就像是語言模型在訓練過程，利用人類的回饋去創造一個虛擬人類的回饋模型，讓語言模型在需要回饋時，想像「如果是人類的話一定會這樣說的」。今天主題是大型語言模型修練三個階段預訓練、指令微調、RLHF。印象深刻是在講指令微調和RLHF，有舉天龍八部珍瓏棋局的例子，一位名叫蘇星河的人擺下了這個珍瓏棋局，邀請大家來破解。但都沒有人有辦法破解這個棋局。後來有一位叫做虛竹的少林寺和尚，他在棋盤上隨便下了一子，把自己棋子都堵死，但他最後卻贏了。過去的人之所以沒辦法破解，可能是太過糾結在每一步都要下好。最後分享覺得好有意境的一首詩「舊時王謝堂前燕，LLaMA飛入尋常百姓家」人人可以開始微調大型語言模型的時代來了。 [【生成式AI導論 2024】06~08 大型語言模型修練史](https://hackmd.io/@JuitingChen/H1vfEqYCee) ![image](https://hackmd.io/_uploads/rkFMm8Nkbx.png) ![image](https://hackmd.io/_uploads/BkVZmU41Wx.png) ### Day 35 逃脫用哥列姆和魔族女孩繼續聽李宏毅老師說芙莉蓮故事。在芙莉蓮一級魔法師考試中，有個關卡是零落的王墓，主考官發給每位考生一個逃脫用哥列姆。它裝在瓶子裡，如果考生遇到危險可以打破瓶子，哥列姆便會啟動把考生安全帶出迷宮。這種哥列姆是魔法局近年來列魯寧開發出來的，如果把哥列姆比喻成AI agent，它能夠根據外部狀態變化進行即時反思與決策修正的能力。另外在芙莉蓮第七集，勇者小隊抓到一位殺了許多人的魔族女孩。勇者欣梅爾本來想殺她，但她不斷叫著媽媽。欣梅爾因此心軟放過了她，後來有位村長決定收留她，但魔族女孩最終恩將仇報，殺了那位村長。欣梅爾決定再次殺掉她時，她臨死前仍叫著媽媽。芙莉蓮質疑魔族女孩，因為魔族根本沒有家人的概念，為何會說這種詞彙。魔族女孩回答：「只要我說媽媽，人類就會不忍心殺我了，不是嗎？」原來魔族女孩有做過RLHF，透過模仿人類的語言，操縱人類的想法來達到目的。我們該如何得知模型心裡想的，跟它說的是不是一致的？或不會只是模仿人類的語言，我們怎麼判斷它的真實的內在意圖? [【生成式AI導論 2024】09~11 AI Agent、Transfoermer、可解釋性](https://hackmd.io/@JuitingChen/BybEB9KRxx) ![image](https://hackmd.io/_uploads/S1Gr7L4y-x.png) ### Day 36 檢定大型語言模型能力和安全性議題看完會對模型評測結果保持懷疑，今天討論到各種評估方法與基準測試，從選擇題或是開放式問題評估模型的缺點，還有用人類或是模型來評估模型。另外我覺得很有趣還有像是大海撈針測驗、馬基維利基準測試，還有印象深刻是心智能力判斷，舉了輝夜姬想讓人告白的例子，女主角輝夜是秀知院學生會副會長，會長是白銀，輝夜知道白銀知道輝夜知道白銀喜歡輝夜。雖然他們兩個互相喜歡，但先告別就輸的天才們的戀愛頭腦戰。安全性議題也很值得深思，像是語言模型的幻覺與事實查核，語言模型偏見，或是偵測 AI 生成內容，刻板印象與政治傾向等等，還有該如何減輕偏見的策略。像是可以在模型產生答案後，後面再加一層防禦，例如修改模型輸出的機率，或是對答案進行事後處理減少偏見。除此之外還有越獄讓語言模型說出一些它本來就不應該說的話，或是提示注入讓語言模型的應用在不恰當的時機做不恰當的事。但就像詐騙宣導一樣，目的都是讓大家知道模型可能很脆弱，不是鼓勵大家做壞事，學會模型也要預防來自人類的惡意。 [【生成式AI導論 2024】12~14 淺談檢定大型語言模型能力和大型語言模型相關的安全性議題](https://hackmd.io/@JuitingChen/ByyxUcY0le) ![image](https://hackmd.io/_uploads/rkJqULigbg.png) ### Day 37 生成式AI的生成策略和 Speculative Decoding 在 Day 24 提到過了生成式學習的兩種策略各自有優缺點，今年用不同角度解釋，很佩服李宏毅老師用更淺顯易懂的方式解釋。現代 AI 通常使用兩種的結合策略。例如有些影像生成模型會使用階層式生成，先用 Non-autoregressive (NAR) 快速生成一個精簡的、人看不懂的壓縮版本，再讓AR解碼器負責還原精細的細節，這樣能兼顧速度和品質。或是像現在主流的擴散模型，透過多步驟 NAR 迭代精修，從有雜訊的圖逐步生成到清晰的圖片。對於文字生成，還學到一種加速外掛叫推測解碼。我覺得這個很有趣，它不需要訓練原模型，速度可以提升兩到三倍。它的核心思想是引入一個預言家（可以是NAR模型、壓縮過的小型模型或搜尋引擎)，預測接下來的 K 個 token。模型隨後可以同時平行運算這 K 個 token。即使預言家猜錯了，只要部分預測正確，仍然可以批量輸出正確的 token，加速過程，利用運算資源來換取時間的加速。 [【生成式AI導論 2024】15~16 生成式人工智慧的生成策略和 Speculative Decoding](https://hackmd.io/@JuitingChen/H1sW_mfJZg) ![image](https://hackmd.io/_uploads/B1V3U8jlbe.png) ### Day 38 影像的生成式AI 和 GPT-4o 語音進入2024的尾聲啦，我覺得李宏毅老師很厲害是可以用不同解釋方法解釋，在 Day 27和28也提到常見圖片生成模型，但有大量的數學公式，這次2024用更高層次的解釋，我也學到很多，2024還有新加入像是Sora影片生成介紹，利用 Patch 壓縮技術將複雜的圖片或影片簡化成序列，丟給 Transformer 處理。但面臨的最大挑戰是巨大的運算量，解決方案則是將 Attention 拆解成空間和時間兩種 Attention 交替使用，把運算量減少約千倍。還有模型通常會採取多步生成流水線，逐步提升解析度和幀數。最後把時間倒回到2024剛加入 GPT-4o 的語音模式，來猜測背後可能的原理，預測它採用 End-to-End 單一模型架構，並在壓縮後的語音單元上進行聲音接龍，以便保留情緒與非語音資訊。這種模型必須具備同時處理聽、說、看三個頻道的能力，和透過 Attention 機制應對複雜的時序，還要判斷什麼時候要打斷說話，我覺得好酷。 [【生成式AI導論 2024】17~18 有關影像的生成式AI 和 GPT-4o 可能的語音技術](https://hackmd.io/@JuitingChen/S1uFKmG1Zx)