# 【Day 1|你知道擴散模型是怎麼運作的嗎?】 ## 前言:什麼是擴散模型? 在了解擴散式大語言模型之前,先來回顧它的核心思想來源:擴散模型(Diffusion Models)。本篇將以經典論文 《Denoising Diffusion Probabilistic Models》(DDPM, Ho et al., 2020) 為基礎,講解其基本原理與訓練方式。 ## 一、擴散模型的直覺出發點 擴散模型的核心想法非常簡單: > 如果我們能把一張圖片「逐步加入高斯雜訊」直到它變成純雜訊,那麼我們也可以訓練一個模型,學會如何反過來去雜訊,把雜訊還原成原圖。 這就是擴散模型的 forward / reverse process。 ## 二、數學架構與過程拆解 ### 1. 前向過程(Forward Process) 在這個階段,我們對輸入圖片 進行逐步加噪,直到變成接近標準高斯分佈的雜訊 。 這個加噪過程被建模為馬可夫鏈:  其中beta t是每一階段的加噪強度(稱為 noise schedule)。 ### 2. 反向過程(Reverse Process) 我們訓練一個神經網路 ,目的是預測加到圖片上的雜訊,以此推回較乾淨的圖片:  模型的訓練損失就是:  ## 三、訓練觀點轉換 最重要的是,我們不是**直接還原圖片本身**,而是讓模型學會**加進來的雜訊長什麼樣子**。這讓訓練變得更穩定,也能更容易生成新資料。 ## 四、擴散模型的優勢 - 穩定訓練:相較於GAN,沒有 mode collapse問題。 - 生成品質高:近年來已超越 GAN,甚至達到SOTA(如 Imagen、DALL·E 2)。 - 可控生成:透過改良架構(如 Classifier Guidance)可針對特定條件生成內容。 ## 五、後續預告 在未來幾篇中,我會從擴散模型擴展到語言領域,看它如何轉變成「擴散式大語言模型(Diffusion-based LLM)」的雛型。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up