# 一堂課搞懂生成式AI的技術突破與未來發展 ## 課程介紹與先修要求 - **課程目標**: 快速概覽生成式AI的發展現況與未來技術,適合無相關背景知識的初學者。 - **後續課程要求**: - **必要預習**: 1. **《生成式AI導論2024》**: 建議至少看到 **第8講**。 2. **《機器學習2021》**: 建議至少看到 **Transformer (下)**。 - **推薦學習路徑**: 若不知從何看起,可從《生成式AI導論2024》與《機器學習 (ML) 2021》兩個系列開始。 ## Part 1: 人工智慧的行為 (AI's Behavior) ### 1. AI 的生成能力 - **AI 分身 (Avatar) 生成流程**: 1. **產生講稿**: 將投影片圖片丟給 `ChatGPT` 產生講稿。 2. **合成語音**: 將講稿文字與參考音檔(李宏毅老師的聲音)丟給 `Breezy Voice`(聯發科模型),模仿聲音特質生成語音。 3. **生成影片**: 將合成聲音與老師的畫面丟給 `Heygen` 平台,產生數位人影片。 - **AI 自動生成投影片**: - **挑戰**: 準備課程最花時間的是「想投影片的內容」。 - **工具示範**: - `ChatGPT Deep Research`: 給定主題後,可生成萬字長文內容(但笑話很冷)。 - `Gamma`: 將長文內容直接丟入,可一鍵生成較美觀的投影片。 - **勵志小故事**: > 擴散模型 (Diffusion Model) 很浪漫,它告訴我們,就算人生一團亂,全是雜訊 (Noise),只要一步一步努力去除雜訊,也能拼出美麗的風景。 ### 2. AI 的思考能力 (Reasoning) - **概念**: 模型在給出答案前,會先展示一個「腦內小劇場」,模擬思考與驗證的過程。 - **案例 - 姜子牙 vs. 鄧不利多**: 1. **提問**: 向 `DeepSeek` 提問,誰會贏? 2. **腦內小劇場**: `DeepSeek` 產生了長達1500字的內心戲,分析雙方能力、優劣勢。 3. **可視化**: 將 `DeepSeek` 的思路丟給 `Claude`,`Claude` 擅長寫程式與可視化,生成了一個清晰的對比網頁。 4. **結論**: - **姜子牙勝率高**: 杏黃旗防禦力極高,打神鞭對非神職人員可能無效。 - **鄧不利多逆轉可能**: 關鍵在於「索命咒」是否能突破「杏黃旗」。 ### 3. AI 代理 (AI Agent) - **定義**: 能執行需要**多個步驟**才能完成的複雜任務的AI。 - **核心能力**: - **從經驗中學習**: 知道餐廳A沒位置後,不再重複嘗試。 - **使用工具**: 知道需要上網搜尋其他餐廳。 - **規劃與判斷**: 知道何時需與人類確認(訂哪間餐廳),何時不需(可否上網搜尋)。 - **實際應用**: - **Deep Research**: 模型會根據搜尋到的結果,**動態產生新的問題**繼續搜尋,實現深入研究。 - **Computer Use / Operator**: - **原理**: AI看螢幕截圖 -> 輸出滑鼠/鍵盤指令(如 `move_mouse(x, y)`) -> 外部程式執行指令 -> 產生新截圖 -> AI繼續下一步。 - **特色**: 具備**犯錯與自我修正**的能力。 - **訓練機器學習模型**: 本課程**作業二**將讓學生使用 AI Agent 來負責訓練、Debug、優化模型。 ## Part 2: 背後運作機制 (Underlying Mechanism) ### 1. 萬物皆為 Token - **核心原理**: 無論是文字、圖片、聲音,這些複雜的物件都是由有限的**基本單位 (Token)** 所構成的。 - **概念**: `輸入一堆Token -> 輸出另一堆Token`,這就是生成式AI的基礎。 - **黃仁勳名言**: > 萬事萬物都是 Token。 ### 2. 生成策略:自迴歸生成 (Autoregressive Generation) - **俗稱**: **文字接龍** (實際上是 Token 接龍)。 - **流程**: 1. 輸入 `x`,產生第一個 `y1`。 2. 輸入 `x` 和 `y1`,產生第二個 `y2`。 3. 持續進行,直到模型產生一個特殊的 **"結束" Token**。 - **本質**: 所有生成任務都可以簡化為一個重複的過程:**輸入一串Token,輸出下一個Token**。這是一個**選擇題**。 ### 3. 核心函式:類神經網路 (Neural Network) - **功能**: `f(z1, ..., zt-1) = zt`,這個函式 `f` 就是一個類神經網路。 - **輸出**: 實際上是輸出一組**機率分佈**,代表每個Token成為下一個Token的可能性。因為有隨機性(擲骰子),所以每次生成結果都可能不同。 - **深度學習 (Deep Learning)**: - **特色**: 將一個複雜的函式 `f` 拆解成很多**層 (Layer)** 的串聯。 - **優勢**: 將一個複雜問題拆解成多個簡單步驟,反而更有效率。(`A+B+C` 的比喻) - **"深度不夠,長度來湊"**: 模型的 Layer 數是固定的(深度),但可以透過「腦內小劇場」來增加思考的步驟(長度),變相加深了思考層次。這又稱為 **Testing Time Scaling**。 ### 4. Layer 內部:Transformer - **組成**: 一個 Layer 內部還包含更多函式,主要有兩類: 1. **Self-Attention**: 考慮**全局**輸入資訊。 2. **單點思考**: 針對**單一** Token 進行深入思考。 - **限制**: 當輸入序列過長時,運算量會變得非常大。 - **未來可能**: **Mamba** 等新架構,可能更適合處理長序列。 ## Part 3: 運作機制的產生 (Training) ### 1. 架構 vs. 參數 - **架構 (Architecture)**: 由人類開發者決定,是模型的「**天資**」(如 Transformer 架構)。又稱**超參數 (Hyperparameter)**。 - **參數 (Parameter, θ)**: 由訓練資料決定,是模型的「**後天努力**」。 - **模型大小**: `7B`、`70B` 指的是**參數的數量**(B = Billion, 十億)。 ### 2. 訓練過程 - **目標**: 找到一組最好的參數 `θ`,讓模型在看到訓練資料的輸入時,能最大機率地輸出正確的下一個Token。 - **本質**: 生成問題被轉化為一系列的**分類問題 (Classification)**,這在機器學習領域是非常成熟的技術。 ### 3. 通用模型的演化三階段 1. **第一形態 (Encoder, ~2018-2019)**: - **代表**: BERT (芝麻街家族)。 - **特點**: 只能理解輸入,無法直接生成。需搭配不同任務的「外掛」使用。 2. **第二形態 (Fine-tuning, ~2020-2022)**: - **代表**: GPT-3。 - **特點**: 可生成文字,但需為**不同任務微調 (Fine-tune)**,產生不同的參數版本(架構相同,參數不同)。 3. **第三形態 (Prompting, ~2023+)**: - **代表**: ChatGPT, LLaMA, Claude。 - **特點**: 直接用**指令 (Prompt)** 就能執行不同任務,無需改變模型(架構相同,參數也相同)。 ## Part 4: 賦予 AI 新能力 (Lifelong Learning) ### 1. 指令式學習 (Prompting / In-Context Learning) - **方式**: 給模型提供相關知識和行為指令,引導其完成任務。 - **案例**: 開發一個AI助教,直接在Prompt中給予課程資訊和應對規則。 - **特點**: - **參數不變**,模型本身未被永久改變。 - 效果是**暫時的**,像員工在公司遵守規範,回家後恢復原狀。 - 這是**首選方法**,應優先嘗試。 ### 2. 微調 (Fine-tuning) - **方式**: 改變模型的**參數**,使其永久具備新能力。 - **挑戰**: 可能破壞原有能力,產生奇怪的**後遺症 (Catastrophic Forgetting)**。 - **案例**: 微調後的AI助教「小金」,雖然學會了助教的口吻,但在回答無關問題時開始胡言亂語。 - **結論**: 微調是**最後的手段**,只在Prompting無效時才考慮。 ### 3. 未來技術 - **模型編輯 (Model Editing)**: - **目標**: 精準修改模型中與特定知識相關的參數,像「思想鋼印」一樣植入新觀念。 - **優點**: 避免微調帶來的全局性破壞。 - **模型融合 (Model Merging)**: - **目標**: 在**沒有訓練資料**的情況下,將兩個不同專長模型的參數直接合併,創造一個兼具兩者優點的新模型。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up