## 時程表 | 時間 | 課程內容 | 備註 | | ---- | -------- | -------- | | ~9:15 | play | 大綱介紹 | | ~9:17 | 開場 | 大綱介紹 | | ~9:22 | AI繪圖史 | | | ~9:32 | 圖片生成架構 | | | ~9:55 | VAE | | | ~10:15 | GAN | | | ~10:35 | Diffusion | | | ~10:55 | 圖片AI試用 | 順便BREAK | | ~11:05 | 生成式影片分享 | | | ~11:20 | 倫理 | | | ~11:45 | 大總結 | | | ~11:50 | QUIZZIZ | 頒獎 big ending and happyyyyyyyyyyy | | | | | ## PPT連結 9:15-12:00(剩音樂、收尾、美編) https://www.canva.com/design/DAGBVwxuMDc/041Zr4JwXiAuMIqe6AQS0g/edit?utm_content=DAGBVwxuMDc&utm_campaign=designshare&utm_medium=link2&utm_source=sharebutton ## quizziz https://quizizz.com/admin/quiz/661bebe950b3acd5270d351a?source=quiz_share ## 總結 ### Framework ![image](https://hackmd.io/_uploads/HkeludZe0.png) * 這個就是一般文字生成圖形網站會有的架構,如果是直接生成圖片或圖片生圖片就不會有text encoder的部分 * 主要就是介紹圈起來的部分,text coder應該跟第一天下午有關 * 中間轉換的部分看你要當作vector/code/representation都可以 ### model ![image](https://hackmd.io/_uploads/B1jn2xvx0.png) ### AE ![image](https://hackmd.io/_uploads/SJCqAuWe0.png) * 算是一種蠻多地方都可以用到的model,很早就有的概念 * 特色就是**reconstruction**的部分 * training過後就是為了讓輸出結果不會失真 ### VAE ![image](https://hackmd.io/_uploads/ByXy1KZgA.png) * 特色就是加入**變數noise**的部分產生**平滑**的效果 * AE比較是像是一個一個點的概念,VAE就會把它平滑成一條線 * 過於平滑會導致糊糊的感覺 * 最後training完就是取出圖中紅色圈起來的部份,也就是只留**Decoder**的部份 (可以去對比framework的圖,變數的部分就像是最左側粉橘色的方塊圖) ### GAN ![image](https://hackmd.io/_uploads/HyWwdt-g0.png) * 特色就是有**Generator與Discriminator**進行**對抗** * training時,兩者會不斷調整內部參數 * 一次只會有一個進行調整 (簡報中有機器人在?的圖案就代表他在learning,驚嘆號就是結束learning) * 最後只取紅色圈出來的部分,也就是**只留Generator**的部分 ### Diffusion 改天再用 ### 比較 #### VAN 與 Diffusion ![image](https://hackmd.io/_uploads/ByHO75be0.png) * 概念較相近 * Encoder相當於Add noise * Decoder相當於Denoise * VAE加入變數的部分可能像是Diffusion的noise #### GAN * 相當於一個外掛的感覺,可以加在一些model的後面 ### 結合 能在一定程度上解決他們的一些缺點 #### VAN+GAN ![image](https://hackmd.io/_uploads/HJp63FWlC.png) * VAE的Decoder和GAN的Generator很像 * 都是輸入vector然後輸出圖片,概念其實差不多 * 可以解決VAE生成太模糊的問題 #### Diffusion+GAN ![image](https://hackmd.io/_uploads/BJm8H5Zl0.png) * GAN Discriminator在進行比較時,用的是加上noise的版本 * 可以避免在比較時real image和generated image相差太大,以達到穩定模型的目的 * 針對同一張圖片加上不同種的noise * 可以增加數據效率與generator的多樣性 ## 評論 * GAN好長喔,好想刪,不然就把其他加長 * 尤其是Diffusion超短 * 開頭的部份我有想過要不要分開欸,像是繪圖就放在那三個model前,電影就放在sora前 * runway還要做操作說明... * 音樂真的很難懂 ## 需考慮的問題~~~~~~~~~~~~ * quizizz要什麼時候 我覺得收尾改這個 :accept: * quizizz題目涵蓋內容 就全部的東西啊 :cry: :tired_face: 幹嘛哭 好累 笑死 不行的話 我邊跳舞邊出 :question: * 音樂的原理跟應用都還沒有 我會努力的 :smiley: * 要不要把音樂拿掉 要 :+1::+1::+1::+1::+1: * 要教什麼才會幫助到下午的活動 我覺得沒差ㄟ.... ## 圖片來源 祝各位不要看到瘋掉,想問什麼請直接問,不然會看到死,圖都是裡面截的 [Framework 2023](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/StableDiffusion%20(v2).pdf) [速覽圖像常見生成模型 2023](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/ImageGeneration%20(v3).pdf) [Auto-encoder 2017](https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/auto.pdf) [Auto-encoder 2021](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/auto_v8.pdf) [VAE and GAN 2017](https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2017/Lecture/GAN%20(v3).pdf) [GAN 2018](https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2018/Lecture/GAN%20(v2).pdf) [GAN 2021](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/gan_v10.pdf) [Diffusion 2021](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/DiffusionModel%20(v2).pdf) [Diffusion 2023](https://speech.ee.ntu.edu.tw/~hylee/ml/ml2023-course-data/DDPM%20(v7).pdf) **更多更多的東西** 反正應該只有我會看,所以不重要 [2023](https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php) [2022](https://speech.ee.ntu.edu.tw/~hylee/ml/2022-spring.php) [2021](https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php) [2018](https://speech.ee.ntu.edu.tw/~hylee/mlds/2018-spring.php) [2017](https://speech.ee.ntu.edu.tw/~hylee/ml/2017-spring.php)