20251103筆記 內容可能有錯誤,請參考原始影片 [李宏毅【生成式AI時代下的機器學習(2025)】](https://www.youtube.com/playlist?list=PLJV_el3uVTsNZEFAdQsDeOdzAaHTca2Gi) [【生成式AI時代下的機器學習(2025)】第一講:一堂課搞懂生成式人工智慧的技術突破與未來發展](https://youtu.be/QLiKmca4kzI?si=Z5KhIfWET8celMsz) ### 【生成式AI時代下的機器學習(2025)】第一講:一堂課搞懂生成式人工智慧的技術突破與未來發展 大綱 ### I. 課程先修與內容總覽 * **前提假設:** 假設聽眾對生成式 AI 沒有太多認識。 * **建議預習:** 需預習《生成式 AI 導論 2024》及《機器學習 2021》課程。 * **課程大綱:** AI 行為 -> 運作機制 -> 運作機制的生成(訓練)-> 賦予 AI 新能力。 ### II. 生成式 AI 的行為展示與能力 * **內容生成:** AI 可生成人臉、講稿、語音合成(如 Breezy Voice)和影片(如 HeyGen)。 * **課程投影片生成:** LLM (如 ChatGPT Deep Research) 可生成長篇講稿 (13,000 字),並能用外部工具(如 Gamma App)生成投影片。 * **推理與思考 (Reasoning):** 現代 AI(如 GPT-4o、Deepseek)在回答問題時會進行「**腦內小劇場**」,演練多種解法並自我驗證。 * **多步驟任務 (AI Agent 雛形):** AI 開始展示執行多步驟複雜任務的能力,而非僅是單純的一問一答。 * **Deep Research:** 模型會根據搜到的內容,產生更多新問題並修改後續搜索內容 。 * **Computer Use/Operator:** AI 可讀取螢幕截圖,輸出文字指令來操縱滑鼠和鍵盤,完成複雜的電腦操作。 ### III. 生成式 AI 的運作機制 (Mechanisms) * **基本原理:** 萬事萬物皆是 **Token**。 * **Token 定義:** 組成複雜物件(如文字、圖像、聲音)的**有限**基本單位。 * **Token 轉換:** 無論輸入或輸出模態不同(圖、文、音),皆可整合為一個統一的 Token 集合。 * **核心策略:** **Auto-regressive Generation** (AR)。 * **機制:** 根據固定次序,每次只產生一個 Token(文字接龍)。 * **輸出:** 類神經網路 (F) 輸出的是下一個 Token 的**機率分佈**,再擲骰子決定最終輸出。 * **深度學習 (Deep Learning):** 函式 (F) 被拆解為多個串聯的 Layer。 * **優勢:** 將複雜問題拆解成多個簡單步驟,能更有效地解決問題。 * **思考與長度:** AI 的思考過程可視為擴展類神經網路的深度。 * **Testing Time Scaling:** 透過延長思考長度,彌補層數(深度)的不足(深度不夠,長度來湊)。 * **Transformer 架構:** * **組成:** Layer 中包含 **Self-Attention** (考量全局輸入) 與針對單點的思考函式。 * **限制:** 運算量隨輸入 Token 長度增加而增大,長度無法無限延長。 ### IV. 通用模型的演化與訓練 * **架構 vs. 參數:** 模型由人決定的**架構**(天資,Hyper-parameter)和由訓練資料決定的**參數**(後天努力,$\theta$) 組成。 * **訓練目的:** 找到一組參數 $\theta$,讓類神經網路 (F) 最能滿足提供的訓練資料(將下一個正確 Token 的機率分佈分數設為最高。 * **通用模型的三階段演化:** 1. **階段一 (Encoder):** 只能理解輸入,無法生成輸出。需外掛特化模型(如芝麻街家族 BERT)。 2. **階段二 (完整生成):** 可生成文字,但難以用指令操縱,需對參數進行**微調**(Fine-tuning)。 3. **階段三 (指令跟隨):** 可直接輸入指令進行對應輸出(如 ChatGPT)。不同任務使用**相同的架構和參數**。 ### V. 賦予 AI 新能力的終身學習 (Lifetime Learning) * **指令與 RAG:** 臨時性地賦予 AI 新知識或行為(像是 AI 助教的行為規範)。此方法**不會永久改變**模型參數。 * **微調 (Fine-tuning):** 調整基礎模型的參數以永久獲得新技能(如學習新的程式語言。 * **風險:** 有可能**破壞原有的能力**,產生奇怪的後遺症(像是把所有「誰是...」的問題都回答為「李宏毅」)。微調應是讓 AI 執行某任務的最後手段。 * **模型編輯 (Model Editing):** 直接手動修改類神經網路中與特定事實相關的參數,達到精準植入思想的目的。 * **模型合併 (Model Merging):** 在**沒有訓練資料**的情況下,將兩個獨立模型(如寫程式和講中文的模型)的參數直接合併,以打造出具備兩者優勢的新模型。 --- ### 1. 課程介紹與 AI 行為的展示 #### 1.1 課程背景與先修要求 這堂課快速帶領大家了解生成式人工智慧近年來的發展現況,與未來可以關注的技術。老師假定聽眾沒有太多背景知識,但希望大家在下次上課前能預習《生成式 AI 導論 2024》和《機器學習 2021》課程,至少應看完前者到第八講和後者到 Transformer 下集。 #### 1.2 AI 在教學中的應用與能力展示 * **AI 分身製作:** 製作 AI 分身進行授課是可行的。流程包括:將投影片丟給 **ChatGPT** 讀取,生成 30 秒的講稿;將講稿文字丟給 **Breezey Voice** 語音合成模型,並提供參考音檔來模仿聲音特質;最後將合成的聲音和畫面丟給 **HeyGen** 平台生成影片。 * **投影片內容生成挑戰:** 雖然 AI 可以生成投影片,但真正的難點在於**構思投影片的內容**。 * **ChatGPT Deep Research 嘗試:** 老師要求 ChatGPT Deep Research 準備一堂有趣的課程內容,它輸出了長達 13,000 字的講稿,並試圖加入笑話。 * **擴散模型 (Diffusion Model) 的勵志故事:** 儘管笑話水準不高,但 AI 成功創造了一個勵志小故事:擴散模型告訴我們,即使人生一團亂(全是雜訊),只要一步一步努力去除雜訊,也能拼出美麗的風景。 * **AI 輸出品質:** AI 產生的投影片雖然方便,但內容通常較為陽春。 #### 1.3 AI 的推理能力 (Reasoning) 與「腦內小劇場」 過去 AI 往往是給一個問題就直接給答案,但現在許多生成式 AI(如 ChatGPT-4o, Deepseek, Gemini Flash)會先進行一個 **腦內小劇場**。 * **機制:** 模型在內部演練多種解法(A解法、B解法、C解法),自我驗證答案,然後將這個思考過程以較淺的文字呈現給使用者,最後才給出真正的答案。 * **案例分析 (姜子牙 vs. 鄧不利多):** 老師使用一個超自然對決問題詢問 Deepseek。 * **Deepseek 的反應:** Deepseek 演了長達 1,500 字的內心小劇場,糾結於兩人的能力與優劣勢分析。 * **Cloud 視覺化:** Cloud 擅長寫程式畫可視化圖表,它將 Deepseek 的思路整理成圖。 * **Deepseek 結論:** Deepseek 最終認為姜子牙獲勝機率較高,但決戰關鍵在於**索命咒**能否突破**杏黃旗**(一個矛與盾的對決)。 * **知識錯誤:** 老師指出 Deepseek/Cloud 在分析姜子牙能力時犯了錯誤,將「十絕陣」誤認為是姜子牙的能力,而非對手擺的陣法。 * **結論:** 這種讓機器思考的過程,讓人類可以觀察到模型的糾結和思維邏輯。 #### 1.4 AI Agent 的概念與雛形 許多任務無法一步完成,需要多個步驟,例如訂餐廳的例子。如果 AI 可以執行這種需要多個步驟才能完成的工作,我們稱之為 **AI Agent** 。 * **AI Agent 需具備的能力:** 從經驗中學習(不要重複訂沒位子的餐廳)、使用工具(上網搜尋)、以及具備一定程度的規劃能力(主動確認人類需求)。 * **Deep Research 案例:** 像 Deep research 這樣的工具,能夠隨搜尋結果的不同,動態改變它要搜的內容,這是一種 AI Agent 的能力 。 * **Computer Use/Operator 案例:** 這類 Agent(如 ChatGPT Operator)可以接收任務指令和**螢幕截圖**(Observation),輸出文字指令來操縱**滑鼠或鍵盤**(Action),以完成複雜的電腦操作 。 * **錯誤修正:** 在找課表單的例子中,Operator 一度點錯地方,但它能知道自己犯錯並修正計畫和行為,不再犯同樣錯誤。 ### 2. 生成式 AI 的運作機制與架構 #### 2.1 萬物皆是 Token 的基本原理 * **複雜物體的構成:** 複雜而有結構的物件(長篇大論、圖片、聲音)都是由**有限的基本單位**所構成的。 * **基本單位定義:** * **文字:** 方塊字(中文約 4000 多個)。 * **圖像:** 像素 (Pixel),顏色選擇是有限的。 * **聲音:** 取樣點 (Sample),雖然是數字,但因儲存單位(如 Bit)限制,其變化是有限的。 * **Token:** 這些基本單位現在常被統稱為 **Token**。黃仁勳曾表示,萬事萬物(文字、影像、表格、歌曲、影片)都是 Token。 * **Token 統一化:** 即使是不同模態(如影像 4096 Token + 文字 30000 Token),它們的 Token 集合也可視為一個新的集合(Z),因此 AI 運作的基本原理是**輸入一串 Token 序列,輸出一個 Token**。 #### 2.2 Auto-regressive Generation 生成的核心策略是 **Auto-regressive Generation**(自迴歸生成),俗稱「接龍」。 * **機制:** 每次只產生一個 $Y_i$ (Token),並將前一個生成的 Token $Y_{i-1}$ 作為新的輸入,產生下一個 Token $Y_i$。 * **停止機制:** 若生成圖片,則達到固定 Token 數量即停止;若生成文章,則輸出一個特殊的「結束」Token 即停止。 * **函式 F 與機率分佈:** 類神經網路 (Function) 不直接輸出 Token,而是輸出一個 **Token 的機率分佈**,代表每個 Token 作為下一個 Token 的合適性。 * **非唯一解:** 由於答案通常不是唯一的(例如「台灣大」後面可接「學」或「車」),模型輸出機率分佈能避免錯亂。 * **隨機性:** 隨機按照機率分佈擲骰子,這也是為何同樣輸入,每次輸出都可能不同的原因。 #### 2.3 深度學習、Transformer 與思考 * **深度學習:** 函式 F 被拆解為多個串聯的 Layer(深度)。這樣做的優勢是將原本複雜的數學問題,拆解成多個簡單的步驟。 * **思考即擴展深度:** 讓機器思考(演腦內小劇場)可視為從另一個方向擴展類神經網路的深度。 * **Testing Time Scaling:** 透過延長思考過程的**長度**(長度來湊),使得從問題到答案間有更多的思考步驟,不再局限於 Layer 的數目。 * **Layer 內結構:** * **Self-Attention Layer:** 考慮**全部**輸入的資訊,確保全局一致性。 * **單點思考函式:** 針對單一 Token 進行更深入的思考。 * **Transformer:** 具備 Self-Attention Layer 的類神經網路,通常被統稱為 Transformer。Transformer 的主要限制是當輸入 Token 長度過長時,運算量會變得非常大。 ### 3. 通用模型的演化與訓練原理 #### 3.1 架構與參數的區別 * **架構 (Architecture):** 由人類開發者決定(如串聯多個 Layer、Transformer 架構),又稱**超參數 (Hyper-parameter)**(如模型的參數數量 $B$)。 * **參數 (Parameter):** 由訓練資料決定其數值(如 7B 指 70 億個參數),是 AI 後天努力的結果。 #### 3.2 模型的訓練 訓練目標是找到一組參數 $\theta$,讓類神經網路 $F_{\theta}$ 在輸入訓練資料時,能讓正確的下一個 Token 獲得最高的機率分數。 * **分類問題:** 預測下一個 Token 是什麼,本質上是一個**選擇題**,在機器學習文獻中稱為**分類問題**,這不是一項新技術。 * **從專才到通才:** 過去的 AI 是專才(如 Google 翻譯),只負責單一任務。今天的生成式 AI 則是**通才**,可以做多件事情。 * **通用翻譯:** 早在 2016 年,Google 就發現通用翻譯系統能學會一種**內部語言**,可翻譯從未見過的語言對。 * **多任務學習:** 早在 2018 年,已有論文提出一個模型處理多個自然語言處理任務的想法。 #### 3.3 通用模型的演化形態 通用模型歷經三個階段演化: 1. **第一形態 (Encoder, 2018-2019):** 只能理解輸入,輸出人看不懂的向量(Representations)。若要做摘要或翻譯,需外掛特化的模型(如芝麻街家族 BERT)。 2. **第二形態 (完整生成, 2020-2022):** 具備完整的文生文功能(如 GPT-3),但需對參數進行 **微調 (Fine-tuning)** 才能執行不同任務。 3. **第三形態 (指令跟隨, 2023+):** 可直接輸入指令進行回應(如 ChatGPT、LLaMA)。在不同任務上,它們的**架構相同,參數也相同**。 ### 4. 賦予 AI 新能力的終身學習 #### 4.1 暫時性能力賦予(指令與 RAG) * **機制:** 透過 System Prompt(系統提示)和提供相關知識(如課程資訊),讓 AI 調整行為。 * **狀態:** 這些指令不會永久改變模型參數。當指令被移除後,AI 會恢復到其原本的樣子。 #### 4.2 永久性能力賦予(微調與編輯) 如果希望 AI 永久具備新能力,就需要調整基礎模型參數。 * **微調 (Fine-tuning):** * **目的:** 讓模型具備新的技能,例如教導它一個全新的程式語言。 * **風險:** 微調的真正挑戰在於可能**破壞原有的能力**。例如,微調成 AI 助教後,模型可能開始亂講話,或將所有問題(像是「誰是肥宅」、「誰是美國總統」)都回答為「李宏毅」。 * **建議:** 微調是讓 AI 做某事的最後手段,應先確認在不微調的情況下真的做不到。 * **模型編輯 (Model Editing):** * **目的:** 只修改模型中的一個小地方,例如特定事實的記憶。 * **機制:** 直接找出類神經網路中與特定資訊相關的參數,手動進行修改,如同在腦內植入一個想法。 * **模型合併 (Model Merging):** * **目的:** 在缺乏整合性訓練資料的情況下,將兩個具備不同專長的模型參數直接合體,以結合它們的能力(例如寫程式和講中文的能力)。 *
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up