# 【論文筆記】Imagic: Text-Based Real Image Editing with Diffusion Models 論文連結:https://arxiv.org/abs/2210.09276 發表於 CVPR 2023 ## Overview 本篇論文主要的貢獻是提出了一個新的 image editing 方法。 作者先說明目前現有的 text-conditioned image editing 方法常有的限制包含: 1. 只能使用特定的編輯方式,例如添加物品,風格轉換等等 2. 只能對特定 domain 的圖像進行編輯 3. 可能需要額外的輔助訊息 因此本文提出了 Imagic,一個可以減緩以上問題的 text-conditioned image editing 的方法,輸入的一張圖像和描述編輯目標的一段文字,他們的方法可以在 high-resolution real image 上進行複雜的編輯。編輯的結果能夠符合文字敘述的編輯目標,同時很好的保存原始圖片的資訊,例如背景、整體架構等等。  ## Methods 整個方法主要的中心思想是,如果能夠得到一個 text embedding 同時包含 input image 和 editing 的資訊,並將這個 text embedding 輸入 Diffusion Model,就可以得到編輯後的圖片。 基於這個想法,他們提出了編輯一張圖片的架構如下:  給定一張輸入的 input image 和編輯的目標,也就是 target text,流程總共可以分成三個階段: #### Text Embedding Optimization 第一階段的目標是找到一個 text embedding 可以對應給定的 input image。 首先利用 text encoder(作者使用 T5)將我們的 target text 轉換成 text embedding $e_\text{tgt}$,作為初始的 text condition。接著固定住 pre-trained Diffusion Model 的參數,將 input image 加上 noise 作為輸入得到輸出,我們可以利用 diffusion objective function 計算 loss: $$ \mathcal{L}(\mathrm{x}, \mathrm{e}, \theta) = \mathbb{E}_{t, \epsilon} \Bigr[|| \epsilon - f_{\theta}(\mathrm{x}_t, t, \mathrm{e}) ||^2_2 \Bigr] $$ 將 target embedding 作為 optimize 的對象,迭代幾次之後,最終可以得到 optimized embedding $e_\text{opt}$ ,即是一個和 input image 相符合的 text embedding。 #### Model Fine-tuning 第一步獲得了 optimized embedding $e_\text{opt}$,但作者透過實驗發現,如果輸入這個 embedding 給 Diffusion model,並不能生成和 input image 完全相同的結果,這是因為他們在第一階段只用很少步來得到 optimized embedding。為了要彌補掉這段小差距,在第二階段他們固定住 optimized embedding $e_\text{opt}$,利用 diffusion objective function 來微調模型參數,微調後模型便可以適應 $e_\text{opt}$ 來生成和 input image 對應的結果。 #### Interpolation and Generation 第三階段利用先前 fine-tuned 的 diffusion model 來進行編輯。首先先將 optimized embedding $e_\text{opt}$ 和 target embedding $e_\text{tgt}$ 做線性插值: $$ \mathrm{\bar{e}} = \eta \cdot \mathrm{e}_{\text{tgt}} + (1 - \eta ) \cdot e_\text{opt} $$ 這個 embedding 此時便包含原始 input image 和 editing 的資訊。將 $\mathrm{\bar{e}}$ 作為 condition 進行生成,最終就可以輸出編輯後的 image。 ## Implementation Details 這個方法可以套用在各種生成模型上,作者則選擇主要以 Imagen (SOTA generative diffusion model) 作為實驗使用的模型。第一階段 text embedding optimization 執行 100 步,Diffusion model fine-tuning 則執行 1500 步,使用 TPUv4 chips,編輯一張圖片的過程總共花費約 8 分鐘。 ## Experimental Results 對同一張圖片給定不同的 text prompt,Imagic 可以針對指令進行編輯。可以看到編輯的結果除了符合編輯的要求之外,也保存非常多原始 input image 的資訊。  透過設定不同的 $\eta$ 來進行 optimized embedding 和 target embedding 的線性插值,可以得到編輯程度不同的各種結果,從下圖可以看到,隨著 $\eta$ 增加,得到的編輯結果會逐漸更靠近 target text 的敘述:  下面比較 Imagic 和其他 SOTA 方法在編輯圖片上的成果。和其他方法相比,Imagic 可以更好的保存 input image 的資訊,並且確實針對 target text 進行編輯。其他方法則很容易出現丟失 input image 的資訊,或者編輯結果不好的情況。 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up