【2023生成式AI】12~15 大模型 + 大資料 = 神奇結果？

20251021筆記內容可能有錯誤，請參考原始影片 [李宏毅【機器學習 2023】(生成式 AI)](https://www.youtube.com/playlist?list=PLJV_el3uVTsOePyfmkfivYZ7Rqr2nMk3W) 今日影片 [【生成式AI】大模型 + 大資料 = 神奇結果？(1/3)：大模型的頓悟時刻](https://youtu.be/SaZTJJNOCOY?si=KapWeZOTul1liODF) [【生成式AI】大模型 + 大資料 = 神奇結果？(2/3)：到底要多少資料才夠](https://youtu.be/qycxA-xX_OY?si=piMTvLB2EY60m01Z) [【生成式AI】大模型 + 大資料 = 神奇結果？(3/3)：另闢蹊徑 — KNNLM](https://youtu.be/V-3ksGCjehU?si=AaUZw-RN-0Ss8wHU) [【生成式AI】GPT-4 來了! GPT-4 這次有什麼神奇的能力呢？](https://youtu.be/kslijcrYizE?si=krrANrbrtEnOVVcN) ### 【生成式AI】大模型 + 大資料 = 神奇結果？(1/3)：大模型的頓悟時刻大綱 1. **引言：規模定律**：探討大模型與大資料帶來的神奇力量，並指出規模與錯誤率的反比關係。 2. **核心現象：頓悟時刻**：模型能力並非線性增長，而是在達到特定規模後突然湧現（Emergent Abilities）。 3. **關鍵能力與規模**： * 思維鏈 (Chain-of-Thought, CoT)。 * 指令微調 (Instruction Tuning)。 * 校準能力 (Calibration)：模型知道自己何時在「瞎掰」。 4. **反向縮放挑戰**：探討模型越大結果越差的「反向縮放獎」任務，以及性能曲線的 U 型現象。 5. **模型架構的擴展**：介紹 Switch Transformer 與專家混合模型 (Mixture of Expert, MoE) 結構，用於建構超巨型模型。 --- ### 1. 規模定律 (Scaling Laws) * 今天要來講**大模型與大資料**所帶來的神奇力量。 * 引用了 Open AI 的論文 "Scaling laws for neural language model"，指出大模型和多資料會帶來更好的結果。 * **規模效益**： * 當模型的參數量（大小）**越多**時，在進行文字接龍任務（預測下一個字）時，錯誤率會**越低**。 * 當訓練的資料**越多**時，文字接龍的錯誤率也會**越低**。 * **注意**：語言模型在文字接龍上表現好，**並不一定**代表其在後端應用上也會表現好。 ### 2. 神奇的頓悟時刻 (Emergent Abilities) * 大型模型具備一種神奇現象，被稱為 **頓悟時刻**，或文獻上的 **湧動現象 (Emergent ability)**。 * **現象描述**：模型的能力並不是隨著規模變大而緩慢變強，而是在某一個瞬間突然開悟。 * **規模門檻**：當模型規模很小（從 10M 到大約 1B 參數）時，在特定任務上的正確率與**隨機亂猜**的結果差不多。 * 只有當模型參數**超過大約 10B 到 20B** 的時候，它才會突然頓悟，這些任務才能做得起來。 * **開發危機**：這種非線性的進步曲線可能會在開發初期造成危機，因為從小模型到中模型（如 10M 到 1B）看不到進步，難以說服投資人繼續投入資源訓練更大的模型。 * **數學解題範例**： * 小模型：太笨，得零分。 * 中模型：可能公式列對了，但計算錯誤，仍得零分。 * 大模型：公式對且計算正確，突然變成 100 分。 * **啟示**：在分析效能時，不應只看最終正確率，而應查看其推導過程，以獲取信心繼續將模型從中型擴展到大型。 ### 3. 關鍵能力與規模的關聯頓悟現象也與某些高級功能的有效性相關，這些功能通常需要大模型才能有效發揮： * **思維鏈 (Chain-of-Thought, CoT)**： * CoT 要求模型「一步一步慢慢來 (step by step)」進行推理。 * 在模型較小時（例如 1B 到 10B ），使用 CoT 反而會使結果**更差**，因為小模型產生的隨機結果可能會使其更加困惑。 * 只有當模型規模夠大，CoT 才能讓它產生有道理的推論，並使解數學題的能力突然進入另一個量級。 * **指令微調 (Instruction Tuning)**： * 在模型規模小的時候，Instruction Tuning **根本沒有發揮作用**。 * 模型要大到一定的程度後，Instruction Tuning 才會突然起作用，帶來顯著的進步。 * **校準能力 (Calibration)**： * Calibration 和模型是否知道自己正在瞎掰有關。 * 模型輸出文字的機率（信心分數）代表其對答案的信心程度。 * **大模型**具備 Calibration 能力：信心分數越高，正確率越高。大模型在瞎掰答案時會感到心虛。 * **小模型**則缺乏 Calibration：不論答案是否正確，其信心程度都差不多。 * Calibration 現象也是在模型達到一定規模後**突然發生**的。 * ECE (Expected Calibration Error) 用來量化校準程度，EC 值越小越好。 ### 4. 反向縮放與 U 型曲線 (Inverse Scaling and U-Shape) * **反向縮放獎 (Inverse Scaling Prize)**：這是一個比賽，目的是尋找模型越大，結果反而越差的奇特任務。 * **U 型曲線的發現**：Google 團隊（使用高達 540B 參數的 PALM 模型）的實驗發現，對於這些號稱會讓大模型變差的任務，其性能曲線呈現 **U 型**。 * 最小的模型表現較好；中等大小的模型結果反而較差；但當模型達到**真正巨大**的規模時，性能又會好起來。 * **U 型曲線的原因：陷阱任務** (Distractor Task)： * 這類任務通常包含一個**陷阱**，或稱為 distractor task。 * **中型模型**：達到了一知半解的程度，能夠被陷阱誤導，從而做出錯誤的判斷。 * **賭局範例**：在一個期望值虧錢但碰巧最後贏了 5 塊錢的賭局中，中模型會被「贏了 5 元」的結果誤導，認為參賭是正確的決定，導致錯誤率提高。 * **重定義數學問題範例**：例如給出 $\pi=10$ 的前提，中模型會被過去的認知（$\pi=3.14$）困住而答錯。 * 只有最大的模型才能看懂題目敘述，克服陷阱，做出正確答案。 ### 5. 模型架構的擴展 (Model Architecture Scaling) * 為了構建比 GPT-3 (175B) 或 PLM (540B) 更大的模型，出現了新的架構。 * **Switch Transformer**：一個擁有 1.6T 參數的巨型模型，比 GPT-3 大十倍。 * **專家混合 (Mixture of Expert, MoE) 結構**： * Switch Transformer 使用 MoE 結構，該模型內部包含**許多小模組（專家）**。 * **推論（Inference）效率**：在訓練時需要所有參數，但在使用（推論）時，**只需調用部分模組/參數**，不需一次使用全部參數。 * 這種方式可以在不犧牲模型大小的情況下，**節省推論時所需的運算資源**，從而加快速度。 ### 【生成式AI】大模型 + 大資料 = 神奇結果？(2/3)：到底要多少資料才夠大綱 1. **資料的重要性與知識類型**：區分 LLM 所需的「語言知識」與「世界知識」，並指出後者需要大量的資料才能習得。 2. **資料前處理與品質控制**：介紹 Google Gofer 模型所採用的資料清洗步驟，特別強調去除重複資料的重要性。 3. **規模定律與平衡點**：探討在固定運算資源下，模型大小與資料數量應如何平衡，並引述 Chinchilla 模型的成功案例，證明「小模型、大資料」的優勢（相對而言）。 4. **微調策略的效率**：強調指令微調 (Instruction Tuning) 和人類回饋強化學習 (RLHF) 在提升模型下游任務表現上的高效率，這比單純擴大預訓練模型規模更為關鍵。 5. **成功因素分析**：探討 OpenAI 通過 GPT-3 API 收集真實人類互動資料，使其 RLHF 策略特別有效，成為其成功的關鍵。 --- ### 1. 資料的重要性與知識類型大型語言模型如果要正確回答問題，需要具備兩種能力： * **語言知識 (Language Knowledge)**：指對語言本身的文法、用詞和規則的理解。 * 例如：「我被這塊冰塊燙了手」雖然符合文法，但不符合物理規則。 * 實驗結果顯示，讓機器學會英文文法所需的資料量**不需太多**，大約 **10 億 (1B) tokens** 就足夠了。 * **世界知識 (World Knowledge) / 常識 (Common Sense)**：指對現實世界的常識和物理規則有正確的認知。 * 如果只有 1B tokens，不足以讓機器具備常識。 * 機器要具備人類世界的常識，需要**更大量**的資料，**至少 30 億 (30B) tokens** 以上。 ### 2. 資料前處理與品質控制資料本身的前處理對模型訓練的嚴謹性至關重要。以 DeepMind 訓練大型語言模型 Gofer 的經驗為例： 1. **濾除有害內容**：必須先過濾色情、暴力的內容，避免模型說出奇怪的話。他們使用 Google 的安全搜尋結果來判斷網頁是否有害，而非僅依賴關鍵字。 2. **擷取網頁文字**：將網頁中的文字抽出，去除 HTML 標籤。但他們會保留部分有用的標籤，例如**換行符號**或**項目符號**，這能讓模型自動學會在適當的地方換行或輸出條列式回答。 3. **品質過濾 (Quality Filtering)**：利用規則來去除低品質的資料。這包括去除那些為了讓搜尋引擎容易搜尋而隱藏或無意義的文字，因為這類資料會影響模型訓練。 4. **去重複資料 (Deduplication)**：網路上有大量重複的資料（例如農場文不斷轉發）。 * 去重複資料是重要的，因為它能防止模型**死記硬背** 訓練資料中的句子。 * 如果使用未去除重複的資料（如 C4 數據集，其中某些廣告詞可能出現六萬次），模型有 1% 到 2% 的機率會說出與訓練資料一模一樣的句子。 * 適當的清理可以將機器的死記比率降至 **0.1%**。 5. **測試集過濾 (Test Filtering)**：確保訓練資料中不包含最終用於測試的資料集內容。GPT-3 的論文曾提到不小心混入了一些測試資料，但因模型太大無法重新訓練而作罷。 ### 3. 規模定律：模型大小與資料數量的平衡在運算資源固定的前提下，應該投入資源在更大的模型還是更多的資料上，是一個關鍵問題。 * **傳統趨勢與比喻**：過去的趨勢是追求更大的模型（如 GPT-3 的 175B 參數，或 Gofer）。 * 大模型小資料：就像「思而不學」（只有大腦，學習內容少）。 * 小模型大資料：就像「學而不思」（看很多書，但不太會思考）。 * **DeepMind 的暴力實驗**：DeepMind 探究了在固定算力下，模型性能（文句接龍錯誤率，越低越好）與參數量的關係。 * 結果顯示，每條固定算力的曲線都呈現 **U 型**。 * **結論**：無論是純粹追求大模型，還是純粹追求大資料，結果都會變差；必須在「學」與「思」之間取得**平衡**，在 U 型曲線的最低點，性能才是最好。 * **最佳規模化與 Chinchilla 模型**： * 根據 DeepMind 的分析，對於 Gofer 所使用的算力，最優化的配置應是參數量設在 **63B** 左右，資料量設在 **1.4 T tokens** 左右。 * DeepMind 隨後建立了 **Chinchilla** 模型（70B 參數，1.4 T tokens），並與 Gofer（280B 參數，300B tokens，模型大資料少）進行對決。 * **對決結果**：在多數任務上，Chinchilla 都**勝過** Gofer，證明在同等算力下，「小模型、大資料」的路徑是可行的。 * **對 GPT-3 的啟示**：這意味著 GPT-3 (175B 參數) 和其他更大的模型，其訓練資料可能都**不足夠**（如果要遵循最佳比例，175B 參數需要約 3.7 T tokens 的資料）。 * **趨勢轉變**：現在的發展趨勢是，人們不再一味追求更大的模型，而是需要更多的訓練資料。例如 Meta 的 LLaMA 採用了類似 Chinchilla 的策略（65B 參數，1.4 T tokens），其表現比 GPT-3 更好。 ### 4. 高效能微調策略 * **指令微調 (Instruction Tuning)**：比起單純優化文字接龍的正確率，更有效的方法是直接在下游任務上訓練機器。 * 例如，Google 的 Flan 模型使用了 1,800 個任務來微調大型語言模型。 * **效率極高**：Instruction Tuning 所需的運算資源，僅佔預訓練 (Pretraining) 的 **0.2%**。 * 通過 Instruction Tuning，模型可以從一個會輸出更多數學題的模樣（如果你給它一道數學題），轉變成直接給出答案。 * **人類回饋強化學習 (RLHF)**： * 「先做 supervised fine-tuning，然後再做 reinforcement learning」是 CHATGPT 成功的關鍵固定套路。 * **規模與效率的比較**：在 InstructGPT 的實驗中，一個**較小**的模型（例如 6B 參數）經過人類 SFT 微調後，**可以打敗**未經訓練的**巨大**模型（175B 參數）。 * 一個極小的模型（1.3B 參數）在完成 SFT 和 RLHF 後，其結果甚至可以打敗沒有進行 RLHF 的巨型模型。 * RLHF 得到的結果（基於真實人類反饋）優於從 NLP 任務資料集（如 Flan 或 T0）進行 Instruction Tuning 的結果。 ### 5. OpenAI 成功的關鍵 OpenAI 之所以能讓其模型（如 InstructGPT）比其他模型更成功，關鍵在於其資料優勢： * **真實的使用者回饋**：OpenAI 透過 GPT-3 線上 API (2020 年上線) 收集了長達兩年多的使用者互動數據。 * **瞭解人類真實需求**：OpenAI 清楚地知道人類會如何使用模型、會問什麼問題，而不是傳統 NLP 領域中那些不自然的問題（例如 NLI 任務）。 * **高效的 RLHF**：只有 OpenAI 知道人類會如何與模型互動，這使其能夠利用真實的使用者回饋來進行強化學習 (RLHF)，從而使模型表現大幅超越其他僅依賴學術 NLP 任務訓練的模型。 ### 【生成式AI】大模型 + 大資料 = 神奇結果？(3/3)：另闢蹊徑 — KNNLM 大綱 1. **語言模型的基礎**：回顧傳統語言模型（如 Transformer）如何將文字接龍視為分類問題處理。 2. **KNNLM 機制**：介紹 KNNLM 如何利用 K-NN (K Nearest Neighbor) 搜尋訓練資料中的相似前綴 (prefix) 來預測下一個詞彙。 3. **KNNLM 的數據與性能優勢**：探討 KNNLM 在處理稀有詞彙以及利用海量檢索資料來提升性能的效益。 4. **KNNLM 的主要挑戰**：分析 KNNLM 在推論 (inference) 速度上的顯著劣勢，並提及類似的檢索增強模型 (如 RETRO)。 ### 1. 標準語言模型的運作基礎 * **本質是分類問題**：標準語言模型在進行文字接龍時，其核心運作是一個**分類問題**。它預測接下來要接哪個字。 * **Transformer 流程**：輸入一個序列 (sequence) (例如「台灣大」) 給 Transformer，模型會輸出一個 **representation 向量** $H$。 * **輸出預測**：這個向量 $H$ 隨後經過一個 linear transform (線性轉換) 和 Softmax 函數，從而得到一個機率分佈，最終從該分佈中**採樣 (sample)** 決定輸出的詞彙。 ### 2. K-NN 語言模型 (KNNLM) 的機制 * **概念引入**：KNNLM 採取了一種不完全依賴 Transformer 內部參數，而是依賴外部資料檢索 (Retrieval) 的方法。 * **結構保留**：KNNLM 仍保留 Transformer 結構，用來將輸入序列讀進去，並產生一個 representation 向量 $H$。 * **檢索過程**： 1. 模型會事先將訓練資料庫中**所有句子的前綴 (prefix)** 都丟給模型，預先計算並儲存它們的 representation。 2. 當有新的輸入時，模型將輸入的 representation $H$ 與資料庫中所有儲存的 representation 進行**距離或相似度計算**。 3. 選取 $K$ 個距離最近的 representation (K-NN)。 4. 根據這 $K$ 個鄰居原本對應的詞彙，並將距離轉化為機率分佈（例如距離越近的權重越高），從而產生最終的輸出機率。 * **運作模式**：KNNLM 是基於**範例 (example base)** 的方法來尋找答案。 ### 3. KNNLM 的數據與性能優勢 * **處理稀有詞彙**：KNNLM 的優勢在於它可以處理**非常冷門或罕見**的詞彙。模型不需要將這些冷門詞彙當作分類問題中的一個類別來記憶。只要這些詞彙存在於檢索資料庫中，模型就有機會輸出它。 * **資料規模化**：KNNLM 用於 K-NN 搜尋和計算距離的資料庫，可以比用來訓練基礎語言模型時使用的資料**更為巨大**。 * **性能提升**： * 在實驗中，模型的效能通常用 **Perplexity (PPL)** 來衡量，PPL 數值越小代表語言模型做文字接龍的能力越好。 * 當 KNNLM 雖然只使用 100M tokens 訓練基礎模型，但當它使用高達 3B tokens 進行 K-NN 檢索時，其結果甚至**優於**直接用 3B tokens 訓練出來的純語言模型。 * 隨著用於 K-NN 搜尋的資料越多，KNNLM 的表現越好。 * **權重與結合**：KNNLM 在文獻上無法單獨使用。最終輸出的機率是 KNNLM 輸出的機率與一般語言模型輸出的機率進行**加權平均 (interpolation)** 的結果。當檢索資料越多時，KNNLM 輸出的機率越精確，因此它在最終決定中可以被賦予更大的權重 ($\lambda$)。 ### 4. KNNLM 的主要挑戰與相關模型 * **推論速度瓶頸**：KNNLM 最大的缺點是它在**推論 (inference) 時非常耗時**。因為它必須在 online 計算輸入的 representation 與巨大資料庫中所有 representation 之間的相似度。 * **速度對比**：KNNLM 的速度遠遠慢於一般語言模型。例如，一般語言模型每秒可以處理 3000 個以上的 token，而 KNNLM 每秒只能處理**不到 300 個 token**，速度大約是一般模型的**十分之一**。 * **檢索增強模型**： * DeepMind 的 **RETRO** (Retrieval-Enhanced Transformer) 是另一種類似 KNNLM 的模型。 * RETRO 擅長處理需要**死記硬背**的記憶性問題。例如，對於需要記住 $\pi$ 的多位數值問題，RETRO 可以給出正確的結果。 * 這類模型的好處是它們**並非真的記憶**這些事實，而是透過「翻書」或查閱資料庫 (search) 得到結果。這使得語言模型可以將精力**專注於理解任務**上，而非浪費在處理記憶性問題上。 ### 【生成式AI】GPT-4 來了! GPT-4 這次有什麼神奇的能力呢？大綱 1. **GPT-4 技術概覽**：發佈與技術報告，核心架構與訓練方法 (Transformer-style, RLHF)。 2. **核心突破：多模態視覺**：GPT-4 能夠處理影像輸入，並透過思維鏈 (CoT) 解釋梗圖。 3. **效能飛躍：專業考試成績**：在律師考試和微積分等測試中，相較於 GPT-3.5 有戲劇性的排名提升。 4. **行為與規模化現象**：探討 GPT-4 輸出答案的固定性增加、解決逆向縮放 (Inverse Scaling) 挑戰，以及校準 (Calibration) 能力的觀察。 5. **多語言與低資源語言能力**：測試 GPT-4 在 NLU 任務以及台語上的理解能力。 6. **輸入機制猜測**：由於技術細節缺乏，對其圖像輸入機制進行了幾種可能的猜測（例如：透過圖像編碼器或微軟 Kosmos 方式）。 --- ### 1. GPT-4 技術報告與基本資訊 * **技術報告**：GPT-4 的技術報告長達近 100 頁。 * **人力與資源**：報告的作者群非常龐大，作者名單長達三頁，可見其動用的人力與資源是很大的。 * **技術細節缺乏**：OpenAI 對於 GPT-4 的技術細節揭露極少，基本上是「一無所知」的狀態。 * **模型架構**：GPT-4 仍是一個 **Transformer-style model**。 * **訓練方法**：它透過預測下一個 token 進行訓練，並使用了 **RLHF (Reinforcement Learning from Human Feedback)**。 * **資料來源**：訓練數據包含公開可用的網路資料 (public available data) 和從第三方取得授權的資料。 ### 2. 多模態視覺能力 * **看得見的能力**：GPT-4 最厲害的突破之一是它**看得見了**（具備影像輸入能力）。 * **梗圖解讀示範**：一個有趣的展示是給 GPT-4 看一張梗圖，並要求它解釋梗圖好笑在哪裡。 * **思維鏈的應用**：在解讀梗圖時，GPT-4 使用了 **Chain-of-Thought (CoT)**，即要求模型「慢慢想」梗圖的笑點，隨後模型確實解釋了該圖是在講深度學習與一般統計機器學習之間的差異。 * **功能開放狀態**：**影像輸入功能當時還沒對外開放** ，因此實測環節並未進行相關測試。 ### 3. 性能評測：專業考試成績 GPT-4 與 GPT-3.5 參加了一系列考試，成績以**所有考生中的排名百分比**（Percentile Ranking）來呈現。 | 考試項目 | GPT-3.5 排名 | GPT-4 排名 | 顯著進步點 | | :--- | :--- | :--- | :--- | | **律師考試** | 最後 10% | **前 10%** | 進步幅度最大。 | | **微積分** | 幾乎無法回答 | 前 60% | 表現提升顯著。 | * **多版本測試**：GPT-4 有兩個版本參與測試：一個是有提供圖片資訊的，一個是沒有提供圖片資訊的。有提供圖片的版本通常能獲得更好的結果。 ### 4. 輸出行為與規模化效應 #### A. 答案固定性與多樣性 * **實測算術題**：在複雜的算術題目（例如雞兔同籠，需三個未知數）測試中，GPT-4 仍未得出正確答案（最後解錯了）。 * **多樣性降低**：相比於 GPT-3 在多次回答相同問題時答案差異較大，**GPT-4 的答案變得比較固定**。 * GPT-4 似乎已**收斂到一個更標準、更固定的答案**。例如，對於同一問題連續兩次列出的步驟，其相似度高達 87%。 #### B. 逆向縮放挑戰的解決 (Inverse Scaling) * **現象反轉**：過去導致大模型結果變差的「**逆向縮放獎** (inverse scaling price)」任務，GPT-4 終究實現了反轉。 * **性能提升**：在過去 GPT-3.5 越做越差的變態題型上，GPT-4 可以達到接近 100% 的正確率。 * **克服陷阱**：這顯示 GPT-4 不會像中等模型那樣被題目中的奇怪的陷阱所誤導，能夠得到正確的結果。 #### C. 校準能力 (Calibration) * **機器的心虛**：校準能力是指模型是否知道自己正在「瞎掰」（心裡有點心虛）。 * **GPT-4 的表現**：GPT-4 似乎**相當清楚自己不知道**，其信心分數（橫軸，代表輸出答案的機率）與答案的正確率（縱軸）呈明顯的正相關。 * **RLHF 的影響**：然而，有研究顯示，**在完成人類回饋強化學習 (RLHF) 之後，GPT-4 反而失去了 Calibration 能力**。 ### 5. 多語言能力實測 * **低資源語言**：GPT-4 標榜其神奇能力之一是能理解**沒那麼多人講的非第一次元的語言**（即低資源語言或小語種）。 * **台語測試**： * 當輸入台羅拼音 (Tai-lo) 且**未強制標註**時，GPT-4 會嘗試翻譯，但提供的翻譯和解釋與實際意思**不符**。 * 當將相同的台羅拼音**強制告知** GPT-4 這是台羅拼音時，它反而能夠「看懂」並提供一個較為接近的解釋。 ### 6. 影像輸入機制猜測 (缺乏技術細節) 由於 GPT-4 報告未提供影像輸入細節，推測有以下幾種可能的方法，使語言模型能夠處理圖像： 1. **轉換為文字**： * **Caption Generation**：透過現成的模型將圖片轉換成文字描述。 * **光學文字檢測 (OCR)**：用於擷取圖片中的文字。 2. **轉換為向量 (Image Encoder)**： * **單一向量**：將一整張圖片壓縮為一個向量。 * **多個向量**：將圖片切成小塊，每塊用一個向量表示。 3. **語言模型處理向量**：如果圖像被轉換成向量，語言模型（本質上處理文字）如何接收？ * **向量量化 (Quantization)**：將這些向量量化，並將量化後的結果視為一種**全新的語言符號**，讓模型學習。 * **仿造微軟 Kosmos 方式**：講者認為這可能是 GPT-4 採用的方式。微軟的 Kosmos 論文《Language Is Not All You Need》詳細描述了如何將向量 (embeddings) 輸入到語言模型中。 * **圖片 URL 謠言澄清**：過去曾有謠言說 GPT 可以讀取圖片連結（例如 `man.png`），但實測證明，GPT 其實只是根據 URL 檔名（例如 `man.png`）來推測內容並給出回應，而非真的讀取圖片像素。 --- 其他課程 [【2023 生成式AI】01~03 ChatGPT 原理剖析](https://hackmd.io/@JuitingChen/SyUtDmaalx) [【2023 生成式AI】04~06 文字冒險和機器學習原理](https://hackmd.io/@JuitingChen/S1wwdXa6ge) [【2023 生成式AI】07~08 生成式學習策略和可使用工具的AI](https://hackmd.io/@JuitingChen/BJPQtQpagx) [【2023生成式AI】09~11 Finetuning vs. Prompting](https://hackmd.io/@JuitingChen/H15otQpael) [【2023生成式AI】12~15 大模型 + 大資料 = 神奇結果？](https://hackmd.io/@JuitingChen/rJ1Gi7a6le) [【2023生成式AI】16~18 圖像生成模型和 Stable Diffusion、DALL-E、Imagen 背後共同的套路](https://hackmd.io/@JuitingChen/HJnB2QTagg) [【2023 生成式AI】19~22 Diffusion Model 原理剖析 ](https://hackmd.io/@JuitingChen/SyBx6mp6xe) [【2023生成式AI】23~25 低成本復刻ChatGPT、ChatGPT自我反省、AI村莊](https://hackmd.io/@JuitingChen/r10hAsrCxe) [【2023生成式AI】26~27 用語言模型來解釋語言模型](https://hackmd.io/@JuitingChen/SJ0aYiwAeg) [【2023生成式AI】28~30 FrugalGPT 用省錢的方式來使用 ChatGPT](https://hackmd.io/@JuitingChen/rypFqnPRll)