本系列筆記筆記基於2023.07 CVPR研討會Recent Advances in Vision Foundation Models 視覺基礎模型回顧的論文,與研討會5場演講(附上投影片與影片連結),更新近期視覺與多模態模型的發展趨勢與前沿技術
主題 | 資源 | 演講者 | 個人筆記連節 |
---|---|---|---|
Opening Remarks & Visual and Vision-Language Pre-training CH2 Visual Understanding |
Slides, YouTube | Zhe Gan | 筆記連結 |
From Representation to Interface: The Evolution of Foundation for Vision Understanding CH2 Visual Understanding |
Slides, YouTube | Jianwei Yang | 筆記連結 |
Alignments in Text-to-Image Generation CH3 Visual Generation |
Slides, YouTube | Zhengyuan Yang | 筆記連結 |
Large Multimodal Models | Slides, Notes, YouTube | Chunyuan Li | |
Multimodal Agents: Chaining Multimodal Experts with LLMs | Slides, YouTube | Linjie Li |
Figure 3.1 (b): An overview of improving human intent alignments in T2I generation.
文字至圖像生成概述(Overview of Text-to-Image Generation):講座討論了文字至圖像生成的基礎,強調它作為條件式圖像生成問題的角色。目標是生成與文本輸入語義相關的高保真度圖像,凸顯這一領域的不斷演進。
對齊視角(Alignment Perspective): The focus is on the alignment perspective in text-to-image generation. This involves creating ):重點在於文字至圖像生成的對齊視角。這包括創建更好地與人類意圖對齊的模型,允許更精確地生成用戶想像的內容,並提高文字至圖像系統的易用性
挑戰與相關研究(Challenges and Related Works):提到文字至圖像生成的挑戰,特別是在處理複雜的文字描述時。它提到了模型有時忽略對象或混淆描述中的屬性的研究。介紹了該領域的各種研究作品和方法論。
方法論與模型實例(Methodologies and Model Examples):對不同的方法論進行了詳細解釋,如基於自回歸Transformer的方法、擴散過程和注意機制。使用Stable Diffusion模型作為具體示例,來說明這些概念,包括編碼器-解碼器框架和交叉注意(cross-attention)過程。
未來方向和觀察(Future Directions and Observations):講座以討論文字至圖像生成社區中開源與封閉源代碼庫的對比,以及合成數據在幫助理解模型方面的潛力
人工智能對齊研究在T2I生成的脈絡中是一個專門致力於開發能夠輕鬆遵循人類意圖以合成期望生成視覺內容的圖像生成模型的研究領域。當前的文獻通常聚焦於標準T2I模型的一個特定弱點,這阻礙了它們準確產生與人類意圖對齊的圖像。本章深入探討了四個常見的研究問題,如圖3.1(a)所總結的那樣,並跟進說明
Figure 3.1 (a): An overview of improving human intent alignments in T2I generation.
擴散模型是一種利用隨機微分方程將隨機噪聲轉化為圖像的技術。穩定擴散(Stable Diffusion, SD)是此類模型的一個實例,它透過多次迭代的去噪過程,逐步預測並移除噪聲,使圖像逐漸演化並以文本輸入為條件
在穩定擴散模型中,包含幾個核心組件:
變分自編碼器(VAE):它包含配對的編碼器
文本編碼器:SD是一個條件圖像生成模型,它將輸入文本條件透過條件編碼器
去噪U-Net:擴散圖像生成過程的核心模組,負責在每個去噪步驟中預測需要從潛在空間的每個位置減去的噪聲
在去噪過程中,U-Net將文本條件作為輸入,生成與文本查詢語義相關的圖像。文本條件和視覺潛在空間
Cross-attention
其中
Figure 3.3: An overview of the latent diffusion model architecture. Image credit: Rombach et al.(2022).
Stable Diffusion 過程:
- 像素空間(Pixel Space):以圖像編碼器
將初始圖像 編碼為 到一個多維的像素空間中。 - 潛在空間(Latent Space):經過一系列的編碼過程後,圖像在潛在空間中被表示為
,這個空間通常具有更低的維度,並捕捉圖像的核心特徵。 - 擴散過程(Diffusion Process):這個過程逐步將噪聲添加到潛在表示
中,經過 次迭代後變成完全的噪訊 ,其中 表示擴散的時間步。 - 去噪U-Net
:在去噪步驟中,U-Net嘗試去除噪聲,並復原出潔淨的潛在表示 。這一步是通過學習一個條件去噪函數 實現的,其中 表示當前的時間步。 - 條件化(Conditioning):文本提示被轉化為條件嵌入,並用於指導U-Net在去噪過程中考慮文本的語義內容。通過語義映射
和文本表示 實現的,以確保生成的圖像與輸入文本對齊。 - 交叉注意力(Cross-Attention):在去噪U-Net中,交叉注意力機制
被用來合併潛在表示 和文本條件 ,使模型能夠專注於與文本描述相關的圖像區域。 最後再經由圖像解碼器
將"復原出潔淨的潛在表示 "解碼為重建的影像 結合這些步驟,穩定擴散模型能夠從文本提示出發,經過編碼、條件化、去噪和解碼的過程,最終生成一個與文本描述相匹配的圖像。
Zooming into conditional U-Net:
How text condition operates on image?
如何使用圖像-文本交叉注意力(Image-text cross attention) 機制來使潛在表示關注文本條件。
在穩定擴散(Stable Diffusion)模型中,潛向量
和文本條件 通過交叉注意力(Cross-attention)機制進行交互,以實現圖像特徵與文本描述之間的細緻對齊。這個過程中涉及以下關鍵步驟和計算:
- 視覺潛向量
變換:這一步驟涉及將潛向量通過函數 變換,以適配交叉注意力機制的需求。 - 文字條件約束
的轉換:文本輸入經過CLIP文本編碼器轉換為特徵嵌入向量 和 。 - 交叉注意力計算:查詢
、鍵 和值 通過訓練得到的權重矩陣 、 和 從變換後的潛向量和文本特徵中計算而來:
- 生成注意力圖:注意力地圖
顯示每一個文本單詞與圖像各空間位置的關聯度,由以下公式得出:
其中是特徵的維度。這個注意力地圖大小為 ,反映了圖像的每一個空間位置與文本描述中每一個詞的相關性。 透過這個細緻的對齊過程,穩定擴散模型能夠在生成圖像時,精確地反映文本提示中的語義信息,從而產生與文本描述高度一致的圖像。
Inference flow
這幅圖說明了使用穩定擴散(Stable Diffusion)模型從文本提示生成圖像的過程:
- 潛在種子(Latent Seed):
- 首先,從一個高斯噪聲分佈
生成潛在種子,這相當於圖像生成過程的初始點。 - 用戶提示(User Prompt):
- 使用者提供了一個描述性文本,例如:"An astronaut riding a horse"。這個文本描述將指導最終圖像的內容。
- Frozen CLIP Text Encoder:
- 這個文本描述經過一個預訓練的CLIP文本編碼器處理,將文本轉化為一組嵌入向量,這些嵌入將用來條件化圖像生成過程。
- 文本條件化潛在U-Net(Text conditioned latent U-Net):
- 潛在種子和文本嵌入被送入一個條件化U-Net,這個網絡將文本信息和潛在圖像表示結合起來,調整潛在種子以便生成與文本描述相匹配的圖像。
- 排程算法(Scheduler algorithm):
- 透過重複N次排程步驟(通常是反向擴散步驟),逐步精細化潛在表示,這些步驟稱為“reconstruct”,意在將潛在表示細節化和精確化。
- 變分自編碼器解碼器(Variational Autoencoder Decoder):
- 最後,經過條件化的潛在表示被送進變分自編碼器解碼器,它將潛在表示解碼成最終的圖像,這個圖像應該反映了用戶的原始文本描述。
- 輸出圖像(Output Image):
- 經過上述流程,最終生成了一個 512x512 像素的輸出圖像,這個圖像視覺上呈現了用戶提示中的場景,如本例中的太空人騎馬。
T2I生成讓使用者使用開放式文字描述他們想要的圖像。然而,僅用文字在某些描述上不夠有效,例如空間參照。空間可控T2I生成的研究探討擴展T2I模型以
相關研究分為三個主題
extend the image-level text description in vanilla T2I models to the region-grounded text description, such that open-ended text descriptions can precisely operate on a particularly spatial region.
大規模的T2I模型在生成高解析度圖像方面展現了卓越的效能。然而,這些模型缺乏空間控制能力,例如無法利用自由形式的文字描述精確指定特定區域的內容。這一限制激發了對區域控制T2I生成的研究。如圖3.4左側所示,這些研究探索了在任意區域上使用開放式文字描述的額外輸入條件(即區域控制文本),增強了T2I模型中的全球圖像描述。這一新的輸入條件要求T2I模型理解空間輸入,並將其與實體文本相關聯。
ReCo: Region-Controlled T2I Generation
Figure 3.4: Overview of the ReCo model architecture. Image credit: Yang et al. (2023b).
- Input sequence expansion: box tokens
輸入序列擴展:ReCo模型通過加入區域描述來擴展輸入序列,讓模型能夠理解和生成細節更豐富的圖像。
- Grounded: box tokens operate on the text to follow
Grounded:這些區域描述稱為"box tokens",它們與圖像中的特定區域相對應,使得生成的圖像可以更精確地反映文本描述的細節。- Finetune T2I to understand box tokens
Finetune T2I:為了讓模型理解這些區域描述,ReCo模型需要進行微調,從而能夠處理和生成與這些"box tokens"相關的圖像內容。
ReCo討論了區域控制T2I生成在提高與人類意圖對齊方面的幾個優勢,這些優勢也被其他同方向的方法所共有。
全局圖像文本描述:對圖像整體內容的簡單描述,例如:"a close up of a dog near a bowl."(一隻狗靠近碗的特寫)。
結合全局和區域描述的文本:將全局描述進一步細化為包含具體區域信息的描述,如圖中所示,除了提到狗和碗,還具體到狗的舌頭伸出,碗是銀色的,並且碗裡有水。這樣的描述稱為「Grounded Region-Controlled texts」,它提供了更詳細的視覺細節,使生成的圖像可以更準確地映射文本描述的內容。
透過ReCo模型,生成的圖像不僅能夠反映全局描述,還能夠捕捉到與特定區域相關的細節,從而提高圖像的質量和描述的一致性。這顯示了如何將簡單的描述轉化為一個更細節豐富且具有區域控制的複合描述,進而生成更準確的圖像。
GLIGEN: Open-Set Grounded T2I Generation
GLIGEN(Li et al., 2023n) i是另一項代表性工作。GLIGEN與通過擴充輸入tokens和微調整個T2I模型來生成實體描述的方法不同,它採用了一種即插即用的方案:凍結原始T2I模型並訓練額外的閘控自注意力層來學習新的定位技巧。
定位tokens攜帶兩種信息:需要在其中實體化的文本詞語的語義表示及其空間配置。這些定位tokens隨後通過新添加的閘控自注意力層添加到預訓練的T2I模型中,同時保持所有其餘的預訓練參數凍結。該層配備了一個閘控參數,初始設置為零,允許預訓練模型逐步合併實體文本輸入。
GLIGEN支持各種類型的實體控制,包括邊界框定位、關鍵點定位、圖像提示,以及其他類型的空間對齊密集條件。
模型架構
這張圖展示了融合殘差學習概念的閘控自注意力(Gated Self-Attention)層。在這個機制中,模型透過閘控(gating)技術來控制自注意力(Self-Attention)層的資訊流
- 殘差概念:在深度學習中,殘差學習是一種使模型能夠學習到輸入和輸出之間差異的技術。這通常通過將輸入直接加到輸出上來實現,有助於避免梯度消失問題,並允許更深層次的網絡訓練。
效果
第二幅圖片展示了GLIGEN模型應用於不同類型的圖像和文本對齊任務,包括:
- Bounding box grounding:標記圖像中特定物體的邊界框,用於指示文本描述中提及的對象。
- Keypoint grounding:識別圖像中的關鍵點,如人物的眼睛或手臂,以提供更細緻的對齊。
- Spatially-aligned dense conditions:使用密集的空間對齊條件,以生成更精確地反映複雜文本描述的圖像。
這兩個概念展示了如何將文本描述與圖像中的具體視覺信息緊密結合,從而生成更加準確和豐富的圖像。
除了空間座標,還有許多其他常以2D陣列形式表示的空間條件,如分割遮罩、邊緣圖和深度圖
ControlNet(Zhang和Agrawala,2023)是將這些密集空間控制整合到T2I模型中的突出例子。ControlNet建立在Stable Diffusion之上,引入了一個額外的可訓練ControlNet分支,為文字提示增加了一個額外的輸入條件。這個額外條件可以是canny邊緣圖、霍夫線、HED邊界、草圖、人體姿勢圖、分割遮罩、深度圖像、法線圖或線條圖,每一種都有其獨特的模型副本。增加的分支是從SD的U-Net中預訓練的降採樣塊初始化的。這個分支將增加的視覺潛在因素和額外的密集條件作為輸入。在將輸入的密集條件與視覺潛在因素結合到輸入中,並將ControlNet分支的輸出合併回SD的升採樣塊之前,有一個獨特的零初始化的1×1卷積層。
這一層作為一個閘控連接器,逐步將額外的條件注入到預訓練的Stable Diffusion模型中。有了額外的密集空間控制,ControlNet提供了一個有效的生成可控性渠道。
Text+Dense Control。
1x1 Conv layer with both weight and bias initialized with zeros
圖片介紹了「Text+Dense Control」的概念,一種在文本到圖像轉換過程中結合了密集條件(Dense conditions)的控制方法。這些密集條件包括:
- Canny Edge:使用Canny算法提取的邊緣信息。
- Hough Line:通過霍夫變換檢測到的直線。
- HED Boundary:使用全卷積網絡提取的邊界檢測。
- User Sketching:用戶手繪的草圖。
- Human Pose:人體姿態信息。
- Semantic Segmentation:物體的語義分割信息。
- Depth:圖像的深度信息。
- Normal Maps:表面法線資訊,用於表示三維結構。
- Cartoon Line Drawing:卡通風格的線條畫。
這些條件被用來提供額外的視覺信息,幫助生成的圖像更加準確和細緻。在模型架構中,包括了一個1x1卷積層(1x1 Conv layer),其權重和偏置都初始化為零,用於細微調整模型的輸入。這種設計可以看作是對模型原有層的一種增強或修改,使其能夠理解和處理這些額外的密集條件信息。
在圖片中所展示的架構,顯示了如何將這些密集條件整合到一個擴散模型(如SD Encoder和Decoder中)以實現更精細的圖像控制。這樣的設計允許模型在學習過程中保留原始層的功能,同時通過這些額外的條件進行微調,進一步提升了生成圖像的相關性和質量。
1x1卷積(1x1 Convolution),也被稱為逐點卷積(Pointwise Convolution),是一種特殊的卷積操作,其過濾器(Filter)的大小為1x1。這種卷積操作的設計與功能包括以下幾個關鍵點:
通道轉換:1x1卷積主要用於改變輸入數據的通道數量。它可以增加或減少特徵圖的深度,從而進行升維或降維操作。
特徵融合:這種卷積允許網絡學習通道之間的複雜交互,從而融合不同的特徵檢測器學習到的信息。
Uni-ControlNet, UniControl
後續研究,如Uni-ControlNet(Zhao et al.,2023b)和UniControl(Qin et al.,2023a),通過統一輸入條件進一步改進了ControlNet,使得單一模型能夠理解多種輸入條件類型,甚至可以結合兩種條件。圖3.5展示了密集控制的例子和相應生成的圖像。此外,Disco(Wang et al.,2023f)展示了ControlNet在生成可控元素如人物、視頻背景和動作姿勢序列的人類舞蹈視頻中的效率。該研究成功地分離了背景和人體姿勢條件,它們被輸入到ControlNet的兩個不同分支,分別以圖像幀和姿勢圖為條件。這種從所有三個條件中分離控制使Disco在人物前景和背景方面都達到了高保真度。
Figure 3.5: Examples of the dense controls and the corresponding generated images. Image credit: Zhao et al. (2023b)
圖片介紹了Uni-ControlNet,也稱為UniControl,一種統一模型,能夠處理不同類型的控制條件以生成圖像。它的主要概念包括:
統一模型(Unified models):這裡指同一個模型能夠接受多種不同的條件信息,如Canny邊緣檢測、Hough線檢測、HED邊界檢測、用戶草圖(Sketch)、人體姿態(Openpose)、深度(Depth)、語義分割(Segmentation)和一般內容(Content),並將它們用於影響圖像生成的過程。
條件組合(Condition composition):指將不同的條件信息組合起來,以創造出新的、更為豐富的圖像輸入。例如,組合摩托車的輪廓(使用Canny條件)和山脈的深度信息,或者組合鳥的草圖與其顏色分布來生成最終圖像。
前述工作需要訓練模型,不論是T2I模型還是額外的模塊,以理解額外的空間條件。另一種方法是,研究 (Bansal et al., 2023; Chen et al., 2023e)探討在不進行額外模型訓練的情況下,為T2I模型提供推論時的空間指導。這個核心思想類似於分類器指導(Dhariwal和Nichol,2021),它採用一個鑑別器損失來指導擴散過程,如下所示:
以空間控制為例,鑑別器可以是一個Faster-RCNN物件檢測器(Ren et al.,2015),由
Inference-time guidance
Figure 3.6: Qualitative results of inference-time spatial guidance. Image credit: Bansal et al. (2023).
Universal Guidance for Diffusion Models:通用的指導方法,通過擴展傳統的分類器指導來接受任何一般的指導函數。允許擴散模型在生成圖像時考慮到更多類型的條件或指標
擴散模型中使用的更新規則可以表示為(以物件偵測為例):
:模型在時間 求解的梯度項,用於指導資料從無序狀態 轉變為有序狀態。 表示模型的參數 :原始無引導擴散模型預測的梯度 :隨時間變化的尺度函數(scaling function),用於控制梯度的權重。 :表示對於狀態 的梯度。 :損失函數,其中 是真實資料或目標標籤, 是模型從無序狀態 生成的有序資料的預測。
: 使用Faster R-CNN作為指導函數來幫助生成圖像的特定部分,如物體的位置或分割的區域 公式說明了如何通過引導梯度來改進擴散模型在推理時的性能,使其能夠生成更符合目標
的輸出。這種引導可以通過直接操作梯度來實現,並且可以適用於不同的引導函數,從而使模型更加通用和靈活。在圖中的實例中,這種引導被應用於物體檢測、圖像分割 應用實例:
- 圖片中展示了如何應用這種方法於不同的任務,比如範例圖中以物件檢測(Detection)為例,其中包括錨點分類、邊界框回歸、以及區域標籤分類損失(利用物件檢測模型Faster R-CNN的梯度引導作為生成方向的約束);
- 右邊四個情境中還包含風格轉換(Style)、面部識別(Face recognition)和目標分割(Segmentation)等任務。
通過這種通用指導方法,擴散模型能夠在生成圖像時考慮到更多的條件,從而生成更符合特定條件的高質量圖像。這種方法提高了模型的靈活性和生成圖像的多樣性。
早期關於空間可控生成的研究,如布局到圖像(layout-to-image)和遮罩到圖像( mask-to-image)的生成,通常與T2I生成並行處理。然而,隨著先進的大規模T2I模型的出現,最近的研究,如本節所討論的,現在傾向於將空間條件與文字條件整合。我們識別出整合空間條件到T2I模型的兩個主要趨勢:
展望未來,T2I模型可能會有一個微調階段,允許它們同時理解圖像和文本輸入。在這種情況下,物件框座標(box coordinates)可以通過文本合併,而密集控制可以作為圖像輸入提供。將在第3.5節探討和詳細說明
文字到圖像的編輯是從給定的圖像和輸入文本描述合成新圖像。用戶可能已經有了一個滿意的開始點,這可以是之前從T2I模型生成的圖像或一張自然圖像,目標是保留大部分視覺內容,只修改特定組件。這可能涉及改變一個局部物體或整體圖像風格,以精確符合用戶的意圖。這種基於文本的編輯方法為用戶提供了一種基於前一版本生成新圖像的工具,對於創建精準遵循人類意圖的視覺內容起著關鍵作用。
Spatially manipulating the latent
in image generation according to the user-generated masks is a simple but effective metho
manipulating the image-text cross-attention mask is effective for spatial editing
隨機微分編輯(Stochastic Differential Editing,簡稱SDEdit)是一種圖像編輯方法,由Meng等人於2021年提出。這種方法首先向輸入圖像中添加噪聲進行編輯,然後透過去噪過程生成有意義的圖像編輯效果。具體來說:
SDEdit的這種方法利用了擴散模型生成圖像過程中的隨機性,使得編輯操作能夠更自然地融入原始圖像的結構中,產生看似自然的編輯效果,並且對原始圖像進行有針對性的改變。
Latents spatial blend
圖片描述了"Blended Latent Diffusion"過程,這是一種結合了用戶生成遮罩和擴散模型的圖像編輯方法。這裡的目標是在保留背景的同時編輯前景物體,如圖中的巨大酪梨。
過程如下:
在這個過程中,用戶生成的遮罩
這個技術允許用戶對生成的圖像進行細致的局部編輯,這種局部編輯之前在傳統的T2I模型中很難實現。例如,如果用戶想要將圖片中的某個物體(如人物)換成文本描述中的物體 ,就可以在不影響背景的情況下只在遮罩指定的區域內進行修改。這種方法的關鍵優勢在於,它提供了更大的靈活性和控制能力,使用戶能夠創建符合他們精確視覺意圖的圖像
Image-text Attention Edit
然而,在混合空間潛在特徵上有一些限制。首先,人工生成遮罩不總是可行。其次,生成過程有時可能會在邊緣產生人工痕跡。研究者們不僅僅是在空間上混合潛在特徵,而是深入探討圖像-文本交叉注意力圖(image-text cross-attention map)來尋找物體編輯的線索。
source:蓟梗。Prompt-to-prompt:让生成的图像保持一致
- 用“猫骑着车”这条文本生成图像,文本有4个token,那么生成过程里Q点乘K会得到一个4层特征的特征图
,每层特征分别对应“猫”“骑”“着”“车”这4个token。 - 当我想替换一个词时,比如改成用“狗骑着车”这条文本生成图像,也是4个token,那么Q点乘K'会得到一个4层特征图
,每层特征分别对应“狗”“骑”“着”“车”这4个token - 然后用“狗”对应的特征图替换掉“猫”对应的特征图,得到新的
,再进行下一步操作
具體來說,Prompt2Prompt(Hertz et al., 2022)發現交叉注意力層控制視覺區域和文本單詞之間的互動。基於這一觀察,該研究使擴散T2I模型生成的影像能夠進行三種類型的編輯,包括單詞替換(word swap)、新增詞組(adding new phrases)和注意力重新加權(attention re-weighting),每一種都通過對應在圖像-文本交叉注意力圖上的操控來實現。
圖 3.7:三種編輯類型(單詞置換、新增詞句、注意力重新分配),通過注意力圖操作在合成生成圖像上實現
Figure 3.7: Three types of editing (word swap, adding new phrases, attention re-weighting) on synthetically generated images, enabled by attention map manipulation. Image credit: Hertz et al.(2022).
演算法
模型架構與設計
上半部分,原版cross-attention,下半部分,論文的cross-attention
Text to Image Cross Attention(原版cross-attention)
Cross Attention Control為本文提出的Cross Attention設計
模型控制交叉注意力以實現特定的圖像編輯操作,如單詞置換、新增詞句或注意力重新加權。這些操作依賴於兩套attention maps:
Maintaining two sets of cross-attention maps for edit:
編輯函數
下方的三組公式對應圖片中所展示,Cross Attention Control的三種編輯機制。每種機制都使用特定的方法來修改原始的注意力映射
單詞置換 (Word Swap):如果在特定時間步
新增詞句 (Adding a New Phrase):如果某個詞
這裡的
注意力重加權 (Attention Re-weighting):給定某個特定的權重
圖中可以看出,隨著時間的推移,模型的注意力逐漸從分散到集中,特別是在生成"bear" 和 "bird" 這兩個詞匯時。例如,在"bear"行中,注意力從廣泛分佈逐漸集中到熊的實際位置。同樣,在"bird"行中,注意力集中到鳥的位置。這種模式表明模型在生成過程的早期階段探索不同的區域,並在接近結束時鎖定到特定的目標區域。
Imagic
- 下標2指的是歐幾里得範數,也就是通常意義上的二維空間或三維空間中的直線距離。在n維空間中,它是根據畢達哥拉斯定理來計算各個分量的平方和的平方根
- 上標2表示取平方,這是在計算該範數時對差異向量的每個分量進行平方操作
混合兩種不同嵌入的策略
圖片顯示了隨著混合參數
變化,“image fidelity”(影像忠實度)和“text alignment”(文本對齊度)兩個指標的變化情況
- "Image Fidelity"代表生成的圖像保持原始圖像特徵的程度,數值越高,表示圖像與原始圖像越相似。
- "Text Alignment"則代表生成的圖像與文本描述匹配的程度,數值越高,表示生成的圖像越能符合文本描述的要求。
兩條線的交會區域(灰色區域)表明存在一個平衡點,在這一點上,圖像的忠實度和文本對齊度達到了一種折衷
Figure 3.8: Examples of text instruction editing. Image credit: Brooks et al. (2023).
Figure 3.9: The editing data generation pipeline proposed in InstructPix2Pix. Image credit: Brooks et al. (2023).