Lab Meeting Minutes 2024/05/08

--- title: Lab Meeting Minutes 2024/05/08 tags: lab_meeting --- > Outline > [TOC] --- # PERAL Lab Meeting - 時間：113 年 5 月 8 日 17:00 - 地點：線上 - 線上會議連結 : [Online](https://meet.google.com/zfi-zmnc-qfw) - 出席者：吳坤熹老師、謝萬霖、劉怡君、田蕙瑜(absent)、沈家正、梁宇騰、劉冠伶(absent)、繆亭霄、蘇翊荃、陳嘉璐、陳品妤、陳姿綾、陳姿澖 - 會議主題：[Generative AI]() - 主講者: 繆亭霄 - 主記: 陳嘉璐 ## 會議內容 ## Outline * Introduction * Variational AutoEncoder (VAE) * Generative Adversarial Network (GAN) * Diffusion Model * Metric * Examples * Conclusion ## Introduction - What is generative AI? * Models that are capable of generating new content, such as text, images, music * **Applications**: ChatGPT, MidJourney, Stable Diffusion, Copilot * ![image](https://hackmd.io/_uploads/BJegh2uMA.png) * `z` 可以是直或是向量 * 機器學習就是在找一個 funciton，讓這個 function output 出我們想要的東西。 ### Review - AutoEncoder (AE) ![image](https://hackmd.io/_uploads/SyGM23OzA.png) * encoder 、decoder 都是一個神經網路 ## Why VAE? * For a trained AE, inputting a specific code will generate a determined image * If this latent code comes from an unseen image, then the generated image will not be good ![image](https://hackmd.io/_uploads/rySSn2dfA.png) * latent code 分別為 1、10、5會產生的圖 ### Variational AutoEncoder (VAE) ![image](https://hackmd.io/_uploads/r1AD33dzR.png) ### Generative Adversarial Network (GAN) - Concept ![image](https://hackmd.io/_uploads/HyYt3huzC.png) * generator 會不斷調整騙過 discriminator * discriminator 會不斷調整讓自己不會被 generator騙過 ### GAN - Algorithm * Step 1: Fix Generator, update Discriminator ![image](https://hackmd.io/_uploads/SJY62h_z0.png) * Step 2: Fix Discriminator, update Generator ![image](https://hackmd.io/_uploads/B1EJT3OfR.png) * 越接近零，代表 discriminator 認為這張圖越假 ### GAN - Architecture ![image](https://hackmd.io/_uploads/rJQZa3uGC.png) ## Diffusion Model ### Concept ![image](https://hackmd.io/_uploads/Hy2z63_GC.png) ### Denoise module ![image](https://hackmd.io/_uploads/HyOLp3dGA.png) * Noise Predictor: 這張圖要過濾哪些雜訊會越清楚 ### Noise Predictor ![image](https://hackmd.io/_uploads/Hy7d62_MC.png) * 加完雜訊的圖 + step => input ## Metric - Fréchet Inception Distance (FID) * **Red sample**: fake * **Blue sample**: real * **FID**: Fréchet distance between the two gaussians * Inception Net : 結構很複雜的 CNN * 橘色 layer: 特徵向量 * 算 red group & blue group的 distribution 的距離 ![image](https://hackmd.io/_uploads/B1bhahOMC.png) * FID 缺點: 沒有學到照片特徵，導致原始照片和生成照片一樣，FID無法顯示 ### Example - VAE * **MNIST** * 60000 sets of data * Data size: 28*28 ![image](https://hackmd.io/_uploads/rye1AnOfR.png) * **CIFAR10** * 60000 sets of data * Data size: 32*32 ![image](https://hackmd.io/_uploads/rkP-R3dGC.png) * 變成 3 的 channel 後比起 MNIST 較差(需再調整參數)，但CIFAR10比較多圖片集 ### Example - GAN * **AI CUP 2024** * 4320 sets of data * Data size: 428*240 ![image](https://hackmd.io/_uploads/BJ2Q0hOGA.png) ![image](https://hackmd.io/_uploads/H1cBC3OMC.png) * GAN: 需要根據 input (此指黑色框縣)來生圖片，picture-to-picture 通常會用這樣的分是生圖 ## Conclusion ![image](https://hackmd.io/_uploads/ByZ_Ah_zR.png) --- ## 建議&問題 1. [name=Yukino] P.12 每次 denoise 圖片都會變得更清晰嗎? 如何知道它會越清晰 Ans: [name=] 對，根據 step 2. [name=Selena] p.10 Discriminator 高於幾分它才會覺得夠真 Ans: 0.5 以上，但其實我們會不管它真不真，我們是要根據它的分數來調整參數(目標為 1) [name=Selena] 會不會我給它清晰的貓，但它生產很清晰的狗 Ans: 首先，不會產生很清晰的圖。且你的 distribution 要夠厲害可以分類。 3. [name=Ellie] 不懂為什麼會是 distribution Ans: 把 Gaussian Distribution 的 z 經過 network轉換成 complex Distribution 的sample。z 是一個 random variable，這個用意是讓每次 input (x、y)的不一樣，如此 y 每次對應到的 sample 都不一樣。 Ans: [name=Solomon] ex, x是瞄準點，y 是射到箭靶上的位置，z 是干擾(風、聲音...)，每次射箭 z 都會不一樣 5. [name=Ellie] generator 騙過 discriminator 了，他怎麼再更進步 Ans: [name=] 用誤差來訓練(二元分類) 6. [name=Louise] p.7 頁不太理解 Ans: [name=] v : variation 取 log 接下來乘 1/2，e : normal distribution 的 vector 8. [name=Ryan] discriminator 透過什麼 feedback 訓練 Ans: [name=] p.9 0 和 1 都有一個分數，用它的誤差訓練 9. [name=Ryan] 那會不會兩邊都訓練到一個地步之後，對抗變得比較消極 Ans: [name=] 此時就稱為收斂，兩邊都不會進步 [name=Solomon] 微積分中 local optima 10. [name=Miller] P.12 Diffusion Model Ans: [name=] 最終目標是要給一個 sample 然後生成一個想要的圖片 12. [name=Cooper] Is ChatGPT using the techniques you introduced today? Ans: [name=] ChatGPT is using transformer，不在今天討論範圍 [name=Cooper] AI Cup 問題有道路和河流的圖片作為 training data Ans: [name=] 有 RO、RI 分開 train 成兩個不同的 model 14. [name=Phoebe]p. 11 只有在第一輪才要喂 Real Image 嗎? Ans: 每一輪都要。 15. [name=Phoebe] VAE, GAN, Diffusion 有各自比較適用的領域嗎？ Ans: VAE 通常不太會用。它很老了，只會在課本上看到。GAN 發展比較常用。Diffusion 則是最近比較紅。 (PS GAN 程式比較好寫，Diffusion 比較不好寫。) Diffusion 在處理影像的效果較好，但將其與 GAN 直接進行比較其實不太合適。任何訓練模型後面都可以加 GAN，可以把 GAN 當一個插件，因此你可以在 Diffusion 後面再加上 GAN。 16. [name=Egar] Gaussian Distribution 是誰提供的？誰決定Distribution 參數 (中心、密度、方向)? [name=Egar] VAE : Gaussian Distribution，在 P.7 圖片哪裡 ANS: [name=] e [name=Egar] GAE : p.11 Gaussian Distribution 哪個部分? ANS: [name=] Noise，Noise 出來的，不一樣的 Noise 對應同一個 Distribution [name=Egar] p.11 為什麼 noise 在 GAN 外面? ANS: [name=] noise 是 z，noise 是 sample 出來的 [name=Egar] p.11 會 input 很多次? ANS: [name=] 不同 sample 的 noise 來 train [name=Egar] p.13 Gaussian Distribution 哪個部分? ANS: [name=] p.13 右邊的 noise 是 Gaussian Distribution 19. [name=Solomon] 國土監測用空拍機，廠商覺得出動空拍機成本太高，希望不要用空拍機，給輪廓用 AI 產生照片給政府? Ans:[name=] 是 21. [name=Solomon] 希望大家可以把握一下上台報告的機會，讓學校的每個活動都有教育意義，不要為了報告而報告，期待碩士班報告的主題:(1)讓這個技術對實驗室的同學有用(2)survey 到哪些東西，接下來預計做什麼，練表達、練 Q&A ## 待追蹤事項 1. [name=Cooper] 因為之前有發現有些網路線不能用，希望調查哪些機器要接網路線，並規劃好拓譜圖，日後大掃除時能來重拉 2. 5/26 跑步，稍後公告在臉書上，再請大家投票(全跑還是跑一半) ## 臨時動議 1. 下周 meeting 改成 Selena 的 paper 報告 --- 散會結束時間： 2024/05/08 18:22