【生成式AI時代下的機器學習(2025)】01 生成式人工智慧的技術突破與未來發展

20251103筆記內容可能有錯誤，請參考原始影片 [李宏毅【生成式AI時代下的機器學習(2025)】](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi) [【生成式AI時代下的機器學習(2025)】第一講：一堂課搞懂生成式人工智慧的技術突破與未來發展](https://youtu.be/QLiKmca4kzI?si=Z5KhIfWET8celMsz) ### 【生成式AI時代下的機器學習(2025)】第一講：一堂課搞懂生成式人工智慧的技術突破與未來發展大綱 ### I. 課程先修與內容總覽 * **前提假設：** 假設聽眾對生成式 AI 沒有太多認識。 * **建議預習：** 需預習《生成式 AI 導論 2024》及《機器學習 2021》課程。 * **課程大綱：** AI 行為 -> 運作機制 -> 運作機制的生成（訓練）-> 賦予 AI 新能力。 ### II. 生成式 AI 的行為展示與能力 * **內容生成：** AI 可生成人臉、講稿、語音合成（如 Breezy Voice）和影片（如 HeyGen）。 * **課程投影片生成：** LLM (如 ChatGPT Deep Research) 可生成長篇講稿 (13,000 字)，並能用外部工具（如 Gamma App）生成投影片。 * **推理與思考 (Reasoning)：** 現代 AI（如 GPT-4o、Deepseek）在回答問題時會進行「**腦內小劇場**」，演練多種解法並自我驗證。 * **多步驟任務 (AI Agent 雛形)：** AI 開始展示執行多步驟複雜任務的能力，而非僅是單純的一問一答。 * **Deep Research：** 模型會根據搜到的內容，產生更多新問題並修改後續搜索內容。 * **Computer Use/Operator：** AI 可讀取螢幕截圖，輸出文字指令來操縱滑鼠和鍵盤，完成複雜的電腦操作。 ### III. 生成式 AI 的運作機制 (Mechanisms) * **基本原理：** 萬事萬物皆是 **Token**。 * **Token 定義：** 組成複雜物件（如文字、圖像、聲音）的**有限**基本單位。 * **Token 轉換：** 無論輸入或輸出模態不同（圖、文、音），皆可整合為一個統一的 Token 集合。 * **核心策略：** **Auto-regressive Generation** (AR)。 * **機制：** 根據固定次序，每次只產生一個 Token（文字接龍）。 * **輸出：** 類神經網路 (F) 輸出的是下一個 Token 的**機率分佈**，再擲骰子決定最終輸出。 * **深度學習 (Deep Learning)：** 函式 (F) 被拆解為多個串聯的 Layer。 * **優勢：** 將複雜問題拆解成多個簡單步驟，能更有效地解決問題。 * **思考與長度：** AI 的思考過程可視為擴展類神經網路的深度。 * **Testing Time Scaling：** 透過延長思考長度，彌補層數（深度）的不足（深度不夠，長度來湊）。 * **Transformer 架構：** * **組成：** Layer 中包含 **Self-Attention** (考量全局輸入) 與針對單點的思考函式。 * **限制：** 運算量隨輸入 Token 長度增加而增大，長度無法無限延長。 ### IV. 通用模型的演化與訓練 * **架構 vs. 參數：** 模型由人決定的**架構**（天資，Hyper-parameter）和由訓練資料決定的**參數**（後天努力，$\theta$) 組成。 * **訓練目的：** 找到一組參數 $\theta$，讓類神經網路 (F) 最能滿足提供的訓練資料（將下一個正確 Token 的機率分佈分數設為最高。 * **通用模型的三階段演化：** 1. **階段一 (Encoder)：** 只能理解輸入，無法生成輸出。需外掛特化模型（如芝麻街家族 BERT）。 2. **階段二 (完整生成)：** 可生成文字，但難以用指令操縱，需對參數進行**微調**（Fine-tuning）。 3. **階段三 (指令跟隨)：** 可直接輸入指令進行對應輸出（如 ChatGPT）。不同任務使用**相同的架構和參數**。 ### V. 賦予 AI 新能力的終身學習 (Lifetime Learning) * **指令與 RAG：** 臨時性地賦予 AI 新知識或行為（像是 AI 助教的行為規範）。此方法**不會永久改變**模型參數。 * **微調 (Fine-tuning)：** 調整基礎模型的參數以永久獲得新技能（如學習新的程式語言。 * **風險：** 有可能**破壞原有的能力**，產生奇怪的後遺症（像是把所有「誰是...」的問題都回答為「李宏毅」）。微調應是讓 AI 執行某任務的最後手段。 * **模型編輯 (Model Editing)：** 直接手動修改類神經網路中與特定事實相關的參數，達到精準植入思想的目的。 * **模型合併 (Model Merging)：** 在**沒有訓練資料**的情況下，將兩個獨立模型（如寫程式和講中文的模型）的參數直接合併，以打造出具備兩者優勢的新模型。 --- ### 1. 課程介紹與 AI 行為的展示 #### 1.1 課程背景與先修要求這堂課快速帶領大家了解生成式人工智慧近年來的發展現況，與未來可以關注的技術。老師假定聽眾沒有太多背景知識，但希望大家在下次上課前能預習《生成式 AI 導論 2024》和《機器學習 2021》課程，至少應看完前者到第八講和後者到 Transformer 下集。 #### 1.2 AI 在教學中的應用與能力展示 * **AI 分身製作：** 製作 AI 分身進行授課是可行的。流程包括：將投影片丟給 **ChatGPT** 讀取，生成 30 秒的講稿；將講稿文字丟給 **Breezey Voice** 語音合成模型，並提供參考音檔來模仿聲音特質；最後將合成的聲音和畫面丟給 **HeyGen** 平台生成影片。 * **投影片內容生成挑戰：** 雖然 AI 可以生成投影片，但真正的難點在於**構思投影片的內容**。 * **ChatGPT Deep Research 嘗試：** 老師要求 ChatGPT Deep Research 準備一堂有趣的課程內容，它輸出了長達 13,000 字的講稿，並試圖加入笑話。 * **擴散模型 (Diffusion Model) 的勵志故事：** 儘管笑話水準不高，但 AI 成功創造了一個勵志小故事：擴散模型告訴我們，即使人生一團亂（全是雜訊），只要一步一步努力去除雜訊，也能拼出美麗的風景。 * **AI 輸出品質：** AI 產生的投影片雖然方便，但內容通常較為陽春。 #### 1.3 AI 的推理能力 (Reasoning) 與「腦內小劇場」過去 AI 往往是給一個問題就直接給答案，但現在許多生成式 AI（如 ChatGPT-4o, Deepseek, Gemini Flash）會先進行一個 **腦內小劇場**。 * **機制：** 模型在內部演練多種解法（A解法、B解法、C解法），自我驗證答案，然後將這個思考過程以較淺的文字呈現給使用者，最後才給出真正的答案。 * **案例分析 (姜子牙 vs. 鄧不利多)：** 老師使用一個超自然對決問題詢問 Deepseek。 * **Deepseek 的反應：** Deepseek 演了長達 1,500 字的內心小劇場，糾結於兩人的能力與優劣勢分析。 * **Cloud 視覺化：** Cloud 擅長寫程式畫可視化圖表，它將 Deepseek 的思路整理成圖。 * **Deepseek 結論：** Deepseek 最終認為姜子牙獲勝機率較高，但決戰關鍵在於**索命咒**能否突破**杏黃旗**（一個矛與盾的對決）。 * **知識錯誤：** 老師指出 Deepseek/Cloud 在分析姜子牙能力時犯了錯誤，將「十絕陣」誤認為是姜子牙的能力，而非對手擺的陣法。 * **結論：** 這種讓機器思考的過程，讓人類可以觀察到模型的糾結和思維邏輯。 #### 1.4 AI Agent 的概念與雛形許多任務無法一步完成，需要多個步驟，例如訂餐廳的例子。如果 AI 可以執行這種需要多個步驟才能完成的工作，我們稱之為 **AI Agent** 。 * **AI Agent 需具備的能力：** 從經驗中學習（不要重複訂沒位子的餐廳）、使用工具（上網搜尋）、以及具備一定程度的規劃能力（主動確認人類需求）。 * **Deep Research 案例：** 像 Deep research 這樣的工具，能夠隨搜尋結果的不同，動態改變它要搜的內容，這是一種 AI Agent 的能力。 * **Computer Use/Operator 案例：** 這類 Agent（如 ChatGPT Operator）可以接收任務指令和**螢幕截圖**（Observation），輸出文字指令來操縱**滑鼠或鍵盤**（Action），以完成複雜的電腦操作。 * **錯誤修正：** 在找課表單的例子中，Operator 一度點錯地方，但它能知道自己犯錯並修正計畫和行為，不再犯同樣錯誤。 ### 2. 生成式 AI 的運作機制與架構 #### 2.1 萬物皆是 Token 的基本原理 * **複雜物體的構成：** 複雜而有結構的物件（長篇大論、圖片、聲音）都是由**有限的基本單位**所構成的。 * **基本單位定義：** * **文字：** 方塊字（中文約 4000 多個）。 * **圖像：** 像素 (Pixel)，顏色選擇是有限的。 * **聲音：** 取樣點 (Sample)，雖然是數字，但因儲存單位（如 Bit）限制，其變化是有限的。 * **Token：** 這些基本單位現在常被統稱為 **Token**。黃仁勳曾表示，萬事萬物（文字、影像、表格、歌曲、影片）都是 Token。 * **Token 統一化：** 即使是不同模態（如影像 4096 Token + 文字 30000 Token），它們的 Token 集合也可視為一個新的集合（Z），因此 AI 運作的基本原理是**輸入一串 Token 序列，輸出一個 Token**。 #### 2.2 Auto-regressive Generation 生成的核心策略是 **Auto-regressive Generation**（自迴歸生成），俗稱「接龍」。 * **機制：** 每次只產生一個 $Y_i$ (Token)，並將前一個生成的 Token $Y_{i-1}$ 作為新的輸入，產生下一個 Token $Y_i$。 * **停止機制：** 若生成圖片，則達到固定 Token 數量即停止；若生成文章，則輸出一個特殊的「結束」Token 即停止。 * **函式 F 與機率分佈：** 類神經網路 (Function) 不直接輸出 Token，而是輸出一個 **Token 的機率分佈**，代表每個 Token 作為下一個 Token 的合適性。 * **非唯一解：** 由於答案通常不是唯一的（例如「台灣大」後面可接「學」或「車」），模型輸出機率分佈能避免錯亂。 * **隨機性：** 隨機按照機率分佈擲骰子，這也是為何同樣輸入，每次輸出都可能不同的原因。 #### 2.3 深度學習、Transformer 與思考 * **深度學習：** 函式 F 被拆解為多個串聯的 Layer（深度）。這樣做的優勢是將原本複雜的數學問題，拆解成多個簡單的步驟。 * **思考即擴展深度：** 讓機器思考（演腦內小劇場）可視為從另一個方向擴展類神經網路的深度。 * **Testing Time Scaling：** 透過延長思考過程的**長度**（長度來湊），使得從問題到答案間有更多的思考步驟，不再局限於 Layer 的數目。 * **Layer 內結構：** * **Self-Attention Layer：** 考慮**全部**輸入的資訊，確保全局一致性。 * **單點思考函式：** 針對單一 Token 進行更深入的思考。 * **Transformer：** 具備 Self-Attention Layer 的類神經網路，通常被統稱為 Transformer。Transformer 的主要限制是當輸入 Token 長度過長時，運算量會變得非常大。 ### 3. 通用模型的演化與訓練原理 #### 3.1 架構與參數的區別 * **架構 (Architecture)：** 由人類開發者決定（如串聯多個 Layer、Transformer 架構），又稱**超參數 (Hyper-parameter)**（如模型的參數數量 $B$）。 * **參數 (Parameter)：** 由訓練資料決定其數值（如 7B 指 70 億個參數），是 AI 後天努力的結果。 #### 3.2 模型的訓練訓練目標是找到一組參數 $\theta$，讓類神經網路 $F_{\theta}$ 在輸入訓練資料時，能讓正確的下一個 Token 獲得最高的機率分數。 * **分類問題：** 預測下一個 Token 是什麼，本質上是一個**選擇題**，在機器學習文獻中稱為**分類問題**，這不是一項新技術。 * **從專才到通才：** 過去的 AI 是專才（如 Google 翻譯），只負責單一任務。今天的生成式 AI 則是**通才**，可以做多件事情。 * **通用翻譯：** 早在 2016 年，Google 就發現通用翻譯系統能學會一種**內部語言**，可翻譯從未見過的語言對。 * **多任務學習：** 早在 2018 年，已有論文提出一個模型處理多個自然語言處理任務的想法。 #### 3.3 通用模型的演化形態通用模型歷經三個階段演化： 1. **第一形態 (Encoder, 2018-2019)：** 只能理解輸入，輸出人看不懂的向量（Representations）。若要做摘要或翻譯，需外掛特化的模型（如芝麻街家族 BERT）。 2. **第二形態 (完整生成, 2020-2022)：** 具備完整的文生文功能（如 GPT-3），但需對參數進行 **微調 (Fine-tuning)** 才能執行不同任務。 3. **第三形態 (指令跟隨, 2023+)：** 可直接輸入指令進行回應（如 ChatGPT、LLaMA）。在不同任務上，它們的**架構相同，參數也相同**。 ### 4. 賦予 AI 新能力的終身學習 #### 4.1 暫時性能力賦予（指令與 RAG） * **機制：** 透過 System Prompt（系統提示）和提供相關知識（如課程資訊），讓 AI 調整行為。 * **狀態：** 這些指令不會永久改變模型參數。當指令被移除後，AI 會恢復到其原本的樣子。 #### 4.2 永久性能力賦予（微調與編輯）如果希望 AI 永久具備新能力，就需要調整基礎模型參數。 * **微調 (Fine-tuning)：** * **目的：** 讓模型具備新的技能，例如教導它一個全新的程式語言。 * **風險：** 微調的真正挑戰在於可能**破壞原有的能力**。例如，微調成 AI 助教後，模型可能開始亂講話，或將所有問題（像是「誰是肥宅」、「誰是美國總統」）都回答為「李宏毅」。 * **建議：** 微調是讓 AI 做某事的最後手段，應先確認在不微調的情況下真的做不到。 * **模型編輯 (Model Editing)：** * **目的：** 只修改模型中的一個小地方，例如特定事實的記憶。 * **機制：** 直接找出類神經網路中與特定資訊相關的參數，手動進行修改，如同在腦內植入一個想法。 * **模型合併 (Model Merging)：** * **目的：** 在缺乏整合性訓練資料的情況下，將兩個具備不同專長的模型參數直接合體，以結合它們的能力（例如寫程式和講中文的能力）。 *