# 【生成式AI導論 2024】第15講:為什麼語言模型用文字接龍,圖片生成不用像素接龍呢?— 淺談生成式人工智慧的生成策略 * 到目前為止我們只有在講文字生成。但我們在第一節課定義過生成式人工智慧,就是能夠產生有結構且複雜無法窮舉的物件。 * 因此除了文字外,聲音、圖片也是這種結構物件。 * 而這些物件都是用有限的基本單位構成的 * 文字: 組成基本單位是token。包含所有token的目錄就叫做Vocabulary。 * 影像: pixel。 * 聲音: 取樣點。一秒的聲音由多少個點構成就是取樣率。例如16KHz就是每秒有16000點。每個點可以有多少數值可以選就是取樣解析度(Bit Resolution) ## Autoregressive Generation * 生成式AI的本質就是把基本的單位用正確的排序組合起來 * 文字生成的策略:Autoregressive Generation  * [影像](https://youtu.be/YNUek8ioAJk?t=537)也可以用像素接龍、[語音](https://arxiv.org/abs/1609.03499)也可用sample接龍的方式生成 * Autoregressive Generation的問題是生成時只能依照某個順序生成,在生成第二個token之前一定要生成第一個。 * 假設要生成1024\*1024的圖片就需要100萬次像素接龍才能做出來。等於產生1024\*1024的照片要產生出一部紅樓夢(90萬)的量。 * 假設要產生22K取樣綠的1分鐘,就要132萬次接龍。 * 這裡就可以看出來要花很多時間 * 所以有了Non-Autoregressive Generation,使用平行生成,一次性的平行生成雖然NAR計算量和AR相同,但是因為可以平行運算,所以可以大幅加快。 * [文字](https://arxiv.org/pdf/2204.09269)也可以用NAG * 法1: * 先決定要產生幾個token * 平行去產生每個位置的token內容 * 法2: * 一次性產生所有token * 丟掉[END]後的內容 * NAG的其中一個問題就是品質不穩定,AI自行腦部的內容在各個位置無法同步,產生multi-modality problem *  *  * AG因為會將上個output作為下個input,所以不會有這種問題出現 ## NAG無法同步解決方法 ### 讓所有位置都腦補一樣的內容 * 在一開始先生成一個向量,作為腦補內容 * 使用輸入內容跟腦補向量去生成 * VAE, GAN, Flow-based Model, Diffusion Model 都有這樣的設計 ### AG+NAG * 先用AG產生一個精簡的版本,再用NAG產生精細的版本這個精簡的版本不一定要人看得懂,只要NAG模型看得懂就好 * 可以直接利用Auto-Encoder來製作Decoder。 * AG現在要學習的就是如何產生Encodeing的內容就好 ### 多次使用AG生成 * 把生成拆解成多個階段 * 依序由小到大生成圖片就是一種[^1](https://arxiv.org/abs/2205.11487)[^2](https://arxiv.org/pdf/1710.10196) * 有雜訊到沒雜訊也是,[Diffusion Model](https://arxiv.org/abs/2006.11239)就是這種 * 每次把生不好的地方塗掉 * Midjourney, Decoder Stable Diffusion, DALL-E都是這種方法
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up