【論文筆記】Imagic: Text-Based Real Image Editing with Diffusion Models

# 【論文筆記】Imagic: Text-Based Real Image Editing with Diffusion Models 論文連結：https://arxiv.org/abs/2210.09276 發表於 CVPR 2023 ## Overview 本篇論文主要的貢獻是提出了一個新的 image editing 方法。作者先說明目前現有的 text-conditioned image editing 方法常有的限制包含： 1. 只能使用特定的編輯方式，例如添加物品，風格轉換等等 2. 只能對特定 domain 的圖像進行編輯 3. 可能需要額外的輔助訊息因此本文提出了 Imagic，一個可以減緩以上問題的 text-conditioned image editing 的方法，輸入的一張圖像和描述編輯目標的一段文字，他們的方法可以在 high-resolution real image 上進行複雜的編輯。編輯的結果能夠符合文字敘述的編輯目標，同時很好的保存原始圖片的資訊，例如背景、整體架構等等。 ![截圖 2024-02-17 下午6.25.36](https://hackmd.io/_uploads/HkFpF-CjT.png) ## Methods 整個方法主要的中心思想是，如果能夠得到一個 text embedding 同時包含 input image 和 editing 的資訊，並將這個 text embedding 輸入 Diffusion Model，就可以得到編輯後的圖片。基於這個想法，他們提出了編輯一張圖片的架構如下： ![截圖 2024-02-17 下午6.31.03](https://hackmd.io/_uploads/SkQEdX0s6.png) 給定一張輸入的 input image 和編輯的目標，也就是 target text，流程總共可以分成三個階段： #### Text Embedding Optimization 第一階段的目標是找到一個 text embedding 可以對應給定的 input image。首先利用 text encoder（作者使用 T5）將我們的 target text 轉換成 text embedding $e_\text{tgt}$，作為初始的 text condition。接著固定住 pre-trained Diffusion Model 的參數，將 input image 加上 noise 作為輸入得到輸出，我們可以利用 diffusion objective function 計算 loss： $$ \mathcal{L}(\mathrm{x}, \mathrm{e}, \theta) = \mathbb{E}_{t, \epsilon} \Bigr[|| \epsilon - f_{\theta}(\mathrm{x}_t, t, \mathrm{e}) ||^2_2 \Bigr] $$ 將 target embedding 作為 optimize 的對象，迭代幾次之後，最終可以得到 optimized embedding $e_\text{opt}$ ，即是一個和 input image 相符合的 text embedding。 #### Model Fine-tuning 第一步獲得了 optimized embedding $e_\text{opt}$，但作者透過實驗發現，如果輸入這個 embedding 給 Diffusion model，並不能生成和 input image 完全相同的結果，這是因為他們在第一階段只用很少步來得到 optimized embedding。為了要彌補掉這段小差距，在第二階段他們固定住 optimized embedding $e_\text{opt}$，利用 diffusion objective function 來微調模型參數，微調後模型便可以適應 $e_\text{opt}$ 來生成和 input image 對應的結果。 #### Interpolation and Generation 第三階段利用先前 fine-tuned 的 diffusion model 來進行編輯。首先先將 optimized embedding $e_\text{opt}$ 和 target embedding $e_\text{tgt}$ 做線性插值： $$ \mathrm{\bar{e}} = \eta \cdot \mathrm{e}_{\text{tgt}} + (1 - \eta ) \cdot e_\text{opt} $$ 這個 embedding 此時便包含原始 input image 和 editing 的資訊。將 $\mathrm{\bar{e}}$ 作為 condition 進行生成，最終就可以輸出編輯後的 image。 ## Implementation Details 這個方法可以套用在各種生成模型上，作者則選擇主要以 Imagen (SOTA generative diffusion model) 作為實驗使用的模型。第一階段 text embedding optimization 執行 100 步，Diffusion model fine-tuning 則執行 1500 步，使用 TPUv4 chips，編輯一張圖片的過程總共花費約 8 分鐘。 ## Experimental Results 對同一張圖片給定不同的 text prompt，Imagic 可以針對指令進行編輯。可以看到編輯的結果除了符合編輯的要求之外，也保存非常多原始 input image 的資訊。 ![截圖 2024-02-27 下午4.25.59](https://hackmd.io/_uploads/Sys6nMjnp.png) 透過設定不同的 $\eta$ 來進行 optimized embedding 和 target embedding 的線性插值，可以得到編輯程度不同的各種結果，從下圖可以看到，隨著 $\eta$ 增加，得到的編輯結果會逐漸更靠近 target text 的敘述： ![截圖 2024-02-27 下午4.24.37](https://hackmd.io/_uploads/H1kR2Mj26.png) 下面比較 Imagic 和其他 SOTA 方法在編輯圖片上的成果。和其他方法相比，Imagic 可以更好的保存 input image 的資訊，並且確實針對 target text 進行編輯。其他方法則很容易出現丟失 input image 的資訊，或者編輯結果不好的情況。 ![截圖 2024-02-17 下午6.31.41](https://hackmd.io/_uploads/rk1WW7on6.png =500x)