【生成式AI時代下的機器學習(2025)】第一講：一堂課搞懂生成式人工智慧的技術突破與未來發展

# 一堂課搞懂生成式AI的技術突破與未來發展 ## 課程介紹與先修要求 - **課程目標**: 快速概覽生成式AI的發展現況與未來技術，適合無相關背景知識的初學者。 - **後續課程要求**: - **必要預習**: 1. **《生成式AI導論2024》**: 建議至少看到 **第8講**。 2. **《機器學習2021》**: 建議至少看到 **Transformer (下)**。 - **推薦學習路徑**: 若不知從何看起，可從《生成式AI導論2024》與《機器學習 (ML) 2021》兩個系列開始。 ## Part 1: 人工智慧的行為 (AI's Behavior) ### 1. AI 的生成能力 - **AI 分身 (Avatar) 生成流程**: 1. **產生講稿**: 將投影片圖片丟給 `ChatGPT` 產生講稿。 2. **合成語音**: 將講稿文字與參考音檔（李宏毅老師的聲音）丟給 `Breezy Voice`（聯發科模型），模仿聲音特質生成語音。 3. **生成影片**: 將合成聲音與老師的畫面丟給 `Heygen` 平台，產生數位人影片。 - **AI 自動生成投影片**: - **挑戰**: 準備課程最花時間的是「想投影片的內容」。 - **工具示範**: - `ChatGPT Deep Research`: 給定主題後，可生成萬字長文內容（但笑話很冷）。 - `Gamma`: 將長文內容直接丟入，可一鍵生成較美觀的投影片。 - **勵志小故事**: > 擴散模型 (Diffusion Model) 很浪漫，它告訴我們，就算人生一團亂，全是雜訊 (Noise)，只要一步一步努力去除雜訊，也能拼出美麗的風景。 ### 2. AI 的思考能力 (Reasoning) - **概念**: 模型在給出答案前，會先展示一個「腦內小劇場」，模擬思考與驗證的過程。 - **案例 - 姜子牙 vs. 鄧不利多**: 1. **提問**: 向 `DeepSeek` 提問，誰會贏？ 2. **腦內小劇場**: `DeepSeek` 產生了長達1500字的內心戲，分析雙方能力、優劣勢。 3. **可視化**: 將 `DeepSeek` 的思路丟給 `Claude`，`Claude` 擅長寫程式與可視化，生成了一個清晰的對比網頁。 4. **結論**: - **姜子牙勝率高**: 杏黃旗防禦力極高，打神鞭對非神職人員可能無效。 - **鄧不利多逆轉可能**: 關鍵在於「索命咒」是否能突破「杏黃旗」。 ### 3. AI 代理 (AI Agent) - **定義**: 能執行需要**多個步驟**才能完成的複雜任務的AI。 - **核心能力**: - **從經驗中學習**: 知道餐廳A沒位置後，不再重複嘗試。 - **使用工具**: 知道需要上網搜尋其他餐廳。 - **規劃與判斷**: 知道何時需與人類確認（訂哪間餐廳），何時不需（可否上網搜尋）。 - **實際應用**: - **Deep Research**: 模型會根據搜尋到的結果，**動態產生新的問題**繼續搜尋，實現深入研究。 - **Computer Use / Operator**: - **原理**: AI看螢幕截圖 -> 輸出滑鼠/鍵盤指令（如 `move_mouse(x, y)`） -> 外部程式執行指令 -> 產生新截圖 -> AI繼續下一步。 - **特色**: 具備**犯錯與自我修正**的能力。 - **訓練機器學習模型**: 本課程**作業二**將讓學生使用 AI Agent 來負責訓練、Debug、優化模型。 ## Part 2: 背後運作機制 (Underlying Mechanism) ### 1. 萬物皆為 Token - **核心原理**: 無論是文字、圖片、聲音，這些複雜的物件都是由有限的**基本單位 (Token)** 所構成的。 - **概念**: `輸入一堆Token -> 輸出另一堆Token`，這就是生成式AI的基礎。 - **黃仁勳名言**: > 萬事萬物都是 Token。 ### 2. 生成策略：自迴歸生成 (Autoregressive Generation) - **俗稱**: **文字接龍** (實際上是 Token 接龍)。 - **流程**: 1. 輸入 `x`，產生第一個 `y1`。 2. 輸入 `x` 和 `y1`，產生第二個 `y2`。 3. 持續進行，直到模型產生一個特殊的 **"結束" Token**。 - **本質**: 所有生成任務都可以簡化為一個重複的過程：**輸入一串Token，輸出下一個Token**。這是一個**選擇題**。 ### 3. 核心函式：類神經網路 (Neural Network) - **功能**: `f(z1, ..., zt-1) = zt`，這個函式 `f` 就是一個類神經網路。 - **輸出**: 實際上是輸出一組**機率分佈**，代表每個Token成為下一個Token的可能性。因為有隨機性（擲骰子），所以每次生成結果都可能不同。 - **深度學習 (Deep Learning)**: - **特色**: 將一個複雜的函式 `f` 拆解成很多**層 (Layer)** 的串聯。 - **優勢**: 將一個複雜問題拆解成多個簡單步驟，反而更有效率。（`A+B+C` 的比喻） - **"深度不夠，長度來湊"**: 模型的 Layer 數是固定的（深度），但可以透過「腦內小劇場」來增加思考的步驟（長度），變相加深了思考層次。這又稱為 **Testing Time Scaling**。 ### 4. Layer 內部：Transformer - **組成**: 一個 Layer 內部還包含更多函式，主要有兩類： 1. **Self-Attention**: 考慮**全局**輸入資訊。 2. **單點思考**: 針對**單一** Token 進行深入思考。 - **限制**: 當輸入序列過長時，運算量會變得非常大。 - **未來可能**: **Mamba** 等新架構，可能更適合處理長序列。 ## Part 3: 運作機制的產生 (Training) ### 1. 架構 vs. 參數 - **架構 (Architecture)**: 由人類開發者決定，是模型的「**天資**」（如 Transformer 架構）。又稱**超參數 (Hyperparameter)**。 - **參數 (Parameter, θ)**: 由訓練資料決定，是模型的「**後天努力**」。 - **模型大小**: `7B`、`70B` 指的是**參數的數量**（B = Billion, 十億）。 ### 2. 訓練過程 - **目標**: 找到一組最好的參數 `θ`，讓模型在看到訓練資料的輸入時，能最大機率地輸出正確的下一個Token。 - **本質**: 生成問題被轉化為一系列的**分類問題 (Classification)**，這在機器學習領域是非常成熟的技術。 ### 3. 通用模型的演化三階段 1. **第一形態 (Encoder, ~2018-2019)**: - **代表**: BERT (芝麻街家族)。 - **特點**: 只能理解輸入，無法直接生成。需搭配不同任務的「外掛」使用。 2. **第二形態 (Fine-tuning, ~2020-2022)**: - **代表**: GPT-3。 - **特點**: 可生成文字，但需為**不同任務微調 (Fine-tune)**，產生不同的參數版本（架構相同，參數不同）。 3. **第三形態 (Prompting, ~2023+)**: - **代表**: ChatGPT, LLaMA, Claude。 - **特點**: 直接用**指令 (Prompt)** 就能執行不同任務，無需改變模型（架構相同，參數也相同）。 ## Part 4: 賦予 AI 新能力 (Lifelong Learning) ### 1. 指令式學習 (Prompting / In-Context Learning) - **方式**: 給模型提供相關知識和行為指令，引導其完成任務。 - **案例**: 開發一個AI助教，直接在Prompt中給予課程資訊和應對規則。 - **特點**: - **參數不變**，模型本身未被永久改變。 - 效果是**暫時的**，像員工在公司遵守規範，回家後恢復原狀。 - 這是**首選方法**，應優先嘗試。 ### 2. 微調 (Fine-tuning) - **方式**: 改變模型的**參數**，使其永久具備新能力。 - **挑戰**: 可能破壞原有能力，產生奇怪的**後遺症 (Catastrophic Forgetting)**。 - **案例**: 微調後的AI助教「小金」，雖然學會了助教的口吻，但在回答無關問題時開始胡言亂語。 - **結論**: 微調是**最後的手段**，只在Prompting無效時才考慮。 ### 3. 未來技術 - **模型編輯 (Model Editing)**: - **目標**: 精準修改模型中與特定知識相關的參數，像「思想鋼印」一樣植入新觀念。 - **優點**: 避免微調帶來的全局性破壞。 - **模型融合 (Model Merging)**: - **目標**: 在**沒有訓練資料**的情況下，將兩個不同專長模型的參數直接合併，創造一個兼具兩者優點的新模型。