or
or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up
Syntax | Example | Reference | |
---|---|---|---|
# Header | Header | 基本排版 | |
- Unordered List |
|
||
1. Ordered List |
|
||
- [ ] Todo List |
|
||
> Blockquote | Blockquote |
||
**Bold font** | Bold font | ||
*Italics font* | Italics font | ||
~~Strikethrough~~ | |||
19^th^ | 19th | ||
H~2~O | H2O | ||
++Inserted text++ | Inserted text | ||
==Marked text== | Marked text | ||
[link text](https:// "title") | Link | ||
 | Image | ||
`Code` | Code |
在筆記中貼入程式碼 | |
```javascript var i = 0; ``` |
|
||
:smile: | ![]() |
Emoji list | |
{%youtube youtube_id %} | Externals | ||
$L^aT_eX$ | LaTeX | ||
:::info This is a alert area. ::: |
This is a alert area. |
On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?
Please give us some advice and help us improve HackMD.
Syncing
xxxxxxxxxx
AI / ML領域相關學習筆記入口頁面
[Multimodal] CVPR 2023。Multimodal Foundation Models : From Specialists to General-Purpose Assistants
多模態基礎模型研究回顧
本系列筆記筆記基於2023.07 CVPR研討會Recent Advances in Vision Foundation Models 視覺基礎模型回顧的論文,與研討會5場演講(附上投影片與影片連結),更新近期視覺與多模態模型的發展趨勢與前沿技術
2023。CVPR。Recent Advances in Vision Foundation Models
CH2 Visual Understanding
CH2 Visual Understanding
CH3 Visual Generation
會議論文2023.09。Multimodal Foundation Models: From Specialists to General-Purpose Assistants
各章詳細內容請見演講筆記
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →Alignments in Text-to-Image Generation
摘要
文字至圖像生成概述(Overview of Text-to-Image Generation):講座討論了文字至圖像生成的基礎,強調它作為條件式圖像生成問題的角色。目標是生成與文本輸入語義相關的高保真度圖像,凸顯這一領域的不斷演進。
對齊視角(Alignment Perspective): The focus is on the alignment perspective in text-to-image generation. This involves creating ):重點在於文字至圖像生成的對齊視角。這包括創建更好地與人類意圖對齊的模型,允許更精確地生成用戶想像的內容,並提高文字至圖像系統的易用性
挑戰與相關研究(Challenges and Related Works):提到文字至圖像生成的挑戰,特別是在處理複雜的文字描述時。它提到了模型有時忽略對象或混淆描述中的屬性的研究。介紹了該領域的各種研究作品和方法論。
方法論與模型實例(Methodologies and Model Examples):對不同的方法論進行了詳細解釋,如基於自回歸Transformer的方法、擴散過程和注意機制。使用Stable Diffusion模型作為具體示例,來說明這些概念,包括編碼器-解碼器框架和交叉注意(cross-attention)過程。
未來方向和觀察(Future Directions and Observations):講座以討論文字至圖像生成社區中開源與封閉源代碼庫的對比,以及合成數據在幫助理解模型方面的潛力
3.1 Overview
3.1.1 視覺生成中的人類對齊 Human Alignments in Visual Generation
人工智能對齊研究在T2I生成的脈絡中是一個專門致力於開發能夠輕鬆遵循人類意圖以合成期望生成視覺內容的圖像生成模型的研究領域。當前的文獻通常聚焦於標準T2I模型的一個特定弱點,這阻礙了它們準確產生與人類意圖對齊的圖像。本章深入探討了四個常見的研究問題,如圖3.1(a)所總結的那樣,並跟進說明
3.1.2 Text-to-Image Generation
經典的對抗網絡(GAN),這裡有生成器和鑑別器,生成器試圖從噪聲中創造圖像,與試圖區分真假圖像的鑑別器相對抗
常用的策略是使用Auto-regressive Transformer,這種模型會根據文本輸入,按順序生成視覺tokens。最後,預測出的視覺tokens被去tokens化,形成最終的圖像預測
有基於Transformer的自回歸方法,它將圖像分解為多個區塊,並將每個區塊映射到一個離散索引上
將隨機噪聲引入到圖像中,通過多步去噪過程,最終得到一個視覺質量好且與文本輸入語義相關的圖像
Stable Diffusion (SD) Basics
擴散模型是一種利用隨機微分方程將隨機噪聲轉化為圖像的技術。穩定擴散(Stable Diffusion, SD)是此類模型的一個實例,它透過多次迭代的去噪過程,逐步預測並移除噪聲,使圖像逐漸演化並以文本輸入為條件
在穩定擴散模型中,包含幾個核心組件:
變分自編碼器(VAE):它包含配對的編碼器 \(\mathbf{E}\) 和解碼器 \(\mathbf{D}\),負責將RGB圖像 \(x \in \mathbb{R}^{H \times W \times 3}\) 編碼成潛在隨機變量 \(z\),並將潛在變量 \(z\) 解碼回圖像以重建圖像。在SD中,潛在變量 \(z\) 的維度是原始圖像的48倍小,這增加了計算效率。
文本編碼器:SD是一個條件圖像生成模型,它將輸入文本條件透過條件編碼器 \(\tau\) 進行編碼。SD使用的是ViT-L/14 CLIP文本編碼器,將文本查詢轉化為一個向量 \(\tau(y) \in \mathbb{R}^{N \times d}\),其中 \(d\) 是嵌入的維度。
去噪U-Net:擴散圖像生成過程的核心模組,負責在每個去噪步驟中預測需要從潛在空間的每個位置減去的噪聲 \(\epsilon(\mathbf{z_t}, t)\)。這個模組利用L2損失訓練,使預測的噪聲 \(\epsilon(\mathbf{z_t}, t)\) 與目標噪聲接近。
在去噪過程中,U-Net將文本條件作為輸入,生成與文本查詢語義相關的圖像。文本條件和視覺潛在空間 \(z\) 通過圖像-文本交叉注意力層進行交互:
\[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right) V, \]
Cross-attention
其中 \(K\) 和 \(V\) 是從文本流 \(\tau(y)\) 投影出來的,而 \(Q\) 是從視覺流 \(z\) 投影出來的,softmax 函數在 \(Q\) 和 \(K\) 之間進行,產生大小為 \(h_u \times w \times d\) 的注意力圖(attention map,即關注的權重) \(M\)。\(M\) 進一步與 \(V\) 進行組合,產出上採樣或下採樣塊的輸出。這個注意力圖顯示了每一個文本單詞在所有空間位置的細緻圖像-文本交互作用。
Figure 3.3: An overview of the latent diffusion model architecture. Image credit: Rombach et al.(2022).

Zooming into conditional U-Net:

How text condition operates on image?
如何使用圖像-文本交叉注意力(Image-text cross attention) 機制來使潛在表示關注文本條件。
Inference flow

Aligning human intentions in T2I generation
3.2 Spatial Controllable generation
T2I生成讓使用者使用開放式文字描述他們想要的圖像。然而,僅用文字在某些描述上不夠有效,例如空間參照。空間可控T2I生成的研究探討擴展T2I模型以
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →相關研究分為三個主題
這些研究將標準T2I模型中的全圖像文字描述擴展為以區域為基礎的文字描述,讓開放式的文字描述能夠精準作用於特定的空間區域(Yang et al., 2023b; Li et al., 2023n; Avrahami et al., 2023b; Cho et al., 2023)
然後我們從物件框擴展到更密集的空間條件,這些條件以2D陣列形式表示,如分割遮罩、邊緣地圖、深度地圖、關鍵點等(segmentation masks, edge maps, depth maps, key points)。我們審視了一些代表性的工作,如ControlNet (Zhang and Agrawala, 2023)
上述兩種方法均需對T2I模型進行微調,以便理解這些擴充的空間條件。最後,探討一些在推論時進行指導的技術(Bansal et al., 2023; Chen et al., 2023e),這些技術能夠實現空間控制而不需對模型進行微調。
Region-controlled T2I generation
大規模的T2I模型在生成高解析度圖像方面展現了卓越的效能。然而,這些模型缺乏空間控制能力,例如無法利用自由形式的文字描述精確指定特定區域的內容。這一限制激發了對區域控制T2I生成的研究。如圖3.4左側所示,這些研究探索了在任意區域上使用開放式文字描述的額外輸入條件(即區域控制文本),增強了T2I模型中的全球圖像描述。這一新的輸入條件要求T2I模型理解空間輸入,並將其與實體文本相關聯。
ReCo: Region-Controlled T2I Generation
ReCo (Yang et al., 2023b)是這一方向上最具代表性的工作之一。核心思想是擴充文本編碼器\(\varepsilon\)的文本詞彙,並安排不同的tokens來表示實體文本輸入。
ReCo討論了區域控制T2I生成在提高與人類意圖對齊方面的幾個優勢,這些優勢也被其他同方向的方法所共有。
GLIGEN: Open-Set Grounded T2I Generation
GLIGEN(Li et al., 2023n) i是另一項代表性工作。GLIGEN與通過擴充輸入tokens和微調整個T2I模型來生成實體描述的方法不同,它採用了一種即插即用的方案:凍結原始T2I模型並訓練額外的閘控自注意力層來學習新的定位技巧。
定位tokens攜帶兩種信息:需要在其中實體化的文本詞語的語義表示及其空間配置。這些定位tokens隨後通過新添加的閘控自注意力層添加到預訓練的T2I模型中,同時保持所有其餘的預訓練參數凍結。該層配備了一個閘控參數,初始設置為零,允許預訓練模型逐步合併實體文本輸入。
GLIGEN支持各種類型的實體控制,包括邊界框定位、關鍵點定位、圖像提示,以及其他類型的空間對齊密集條件。
模型架構

結合了文本實體和空間位置信息的標記,用於精確描述圖像中特定區域的內容
模型中的一種特殊注意力層,它能夠在保持原始層結構不變的前提下,學習和更新特定的特徵
\[ v = v + \beta \cdot \tanh(\gamma) \cdot TS(SelfAttn([v, h^e])) \]
,其中
效果

區域控制的T2I生成。T2I generation with dense conditions
除了空間座標,還有許多其他常以2D陣列形式表示的空間條件,如分割遮罩、邊緣圖和深度圖
ControlNet(Zhang和Agrawala,2023)是將這些密集空間控制整合到T2I模型中的突出例子。ControlNet建立在Stable Diffusion之上,引入了一個額外的可訓練ControlNet分支,為文字提示增加了一個額外的輸入條件。這個額外條件可以是canny邊緣圖、霍夫線、HED邊界、草圖、人體姿勢圖、分割遮罩、深度圖像、法線圖或線條圖,每一種都有其獨特的模型副本。增加的分支是從SD的U-Net中預訓練的降採樣塊初始化的。這個分支將增加的視覺潛在因素和額外的密集條件作為輸入。在將輸入的密集條件與視覺潛在因素結合到輸入中,並將ControlNet分支的輸出合併回SD的升採樣塊之前,有一個獨特的零初始化的1×1卷積層。
這一層作為一個閘控連接器,逐步將額外的條件注入到預訓練的Stable Diffusion模型中。有了額外的密集空間控制,ControlNet提供了一個有效的生成可控性渠道。
Text+Dense Control。
在這邊沒有維度的變換,主要用意是在促進特徵融合
1x1卷積(1x1 Convolution),也被稱為逐點卷積(Pointwise Convolution),是一種特殊的卷積操作,其過濾器(Filter)的大小為1x1。這種卷積操作的設計與功能包括以下幾個關鍵點:
通道轉換:1x1卷積主要用於改變輸入數據的通道數量。它可以增加或減少特徵圖的深度,從而進行升維或降維操作。
特徵融合:這種卷積允許網絡學習通道之間的複雜交互,從而融合不同的特徵檢測器學習到的信息。
Uni-ControlNet, UniControl

後續研究,如Uni-ControlNet(Zhao et al.,2023b)和UniControl(Qin et al.,2023a),通過統一輸入條件進一步改進了ControlNet,使得單一模型能夠理解多種輸入條件類型,甚至可以結合兩種條件。圖3.5展示了密集控制的例子和相應生成的圖像。此外,Disco(Wang et al.,2023f)展示了ControlNet在生成可控元素如人物、視頻背景和動作姿勢序列的人類舞蹈視頻中的效率。該研究成功地分離了背景和人體姿勢條件,它們被輸入到ControlNet的兩個不同分支,分別以圖像幀和姿勢圖為條件。這種從所有三個條件中分離控制使Disco在人物前景和背景方面都達到了高保真度。
推論時的空間指導。Inference-time spatial guidance.
前述工作需要訓練模型,不論是T2I模型還是額外的模塊,以理解額外的空間條件。另一種方法是,研究 (Bansal et al., 2023; Chen et al., 2023e)探討在不進行額外模型訓練的情況下,為T2I模型提供推論時的空間指導。這個核心思想類似於分類器指導(Dhariwal和Nichol,2021),它採用一個鑑別器損失來指導擴散過程,如下所示:
\[\hat{\varepsilon}'(z_t, t) = \hat{\varepsilon}(z_t, t) + s(t) \cdot \nabla_{z_t} \ell(c, f (\hat{z_0})). \quad (3.2)\]
以空間控制為例,鑑別器可以是一個Faster-RCNN物件檢測器(Ren et al.,2015),由\(f\)表示,它操作在中間估計圖像\(\hat{z_0}\)上,並計算物件檢測損失\(\ell\)與期望布局\(c\),以指導生成\(\hat{\varepsilon}(z_t, t)\)。\(s(t)\)是指導強度。這種方法在不需要額外訓練的情況下實現了T2I生成的空間控制,質性結果顯示在圖3.6中。然而,其結果可能不如微調方法(Yang et al., 2023b; Li et al., 2023n; Zhang and Agrawala, 2023).那麼精確。
Inference-time guidance
總結和趨勢
早期關於空間可控生成的研究,如布局到圖像(layout-to-image)和遮罩到圖像( mask-to-image)的生成,通常與T2I生成並行處理。然而,隨著先進的大規模T2I模型的出現,最近的研究,如本節所討論的,現在傾向於將空間條件與文字條件整合。我們識別出整合空間條件到T2I模型的兩個主要趨勢:
展望未來,T2I模型可能會有一個微調階段,允許它們同時理解圖像和文本輸入。在這種情況下,物件框座標(box coordinates)可以通過文本合併,而密集控制可以作為圖像輸入提供。將在第3.5節探討和詳細說明
3.3 基於文字的編輯 Text-based Editing
文字到圖像的編輯是從給定的圖像和輸入文本描述合成新圖像。用戶可能已經有了一個滿意的開始點,這可以是之前從T2I模型生成的圖像或一張自然圖像,目標是保留大部分視覺內容,只修改特定組件。這可能涉及改變一個局部物體或整體圖像風格,以精確符合用戶的意圖。這種基於文本的編輯方法為用戶提供了一種基於前一版本生成新圖像的工具,對於創建精準遵循人類意圖的視覺內容起著關鍵作用。
擴散過程操控。Diffusion process manipulations
隨機微分編輯(Stochastic Differential Editing,簡稱SDEdit)是一種圖像編輯方法,由Meng等人於2021年提出。這種方法首先向輸入圖像中添加噪聲進行編輯,然後透過去噪過程生成有意義的圖像編輯效果。具體來說:
SDEdit的這種方法利用了擴散模型生成圖像過程中的隨機性,使得編輯操作能夠更自然地融入原始圖像的結構中,產生看似自然的編輯效果,並且對原始圖像進行有針對性的改變。
Latents spatial blend
過程如下:
在這個過程中,用戶生成的遮罩 \(m_{latent}\) 用於控制擴散過程中哪些部分的圖像應該被編輯。遮罩的值介於0到1之間,其中1代表完全選擇前景(即文本描述中生成的編輯物體 \(z_{fg}\)),而0代表完全選擇背景(即原始背景圖像 \(z_{bg}\))。通過這種方式,可以精確地控制圖像的特定區域在編輯過程中保持不變,而其他區域則根據文本描述進行修改。
這個技術允許用戶對生成的圖像進行細致的局部編輯,這種局部編輯之前在傳統的T2I模型中很難實現。例如,如果用戶想要將圖片中的某個物體(如人物)換成文本描述中的物體 ,就可以在不影響背景的情況下只在遮罩指定的區域內進行修改。這種方法的關鍵優勢在於,它提供了更大的靈活性和控制能力,使用戶能夠創建符合他們精確視覺意圖的圖像
Image-text Attention Edit
然而,在混合空間潛在特徵上有一些限制。首先,人工生成遮罩不總是可行。其次,生成過程有時可能會在邊緣產生人工痕跡。研究者們不僅僅是在空間上混合潛在特徵,而是深入探討圖像-文本交叉注意力圖(image-text cross-attention map)來尋找物體編輯的線索。
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →具體來說,Prompt2Prompt(Hertz et al., 2022)發現交叉注意力層控制視覺區域和文本單詞之間的互動。基於這一觀察,該研究使擴散T2I模型生成的影像能夠進行三種類型的編輯,包括單詞替換(word swap)、新增詞組(adding new phrases)和注意力重新加權(attention re-weighting),每一種都通過對應在圖像-文本交叉注意力圖上的操控來實現。
演算法

模型架構與設計

Text to Image Cross Attention(原版cross-attention)
Cross Attention Control為本文提出的Cross Attention設計
模型控制交叉注意力以實現特定的圖像編輯操作,如單詞置換、新增詞句或注意力重新加權。這些操作依賴於兩套attention maps:
Maintaining two sets of cross-attention maps for edit:
編輯函數 \(Edit\) 根據時間步 \(t\) 和閾值 \(\tau\) 決定使用哪套映射。這個函數確保了在編輯過程中,只有在需要的時候才更新相關的注意力權重。
下方的三組公式對應圖片中所展示,Cross Attention Control的三種編輯機制。每種機制都使用特定的方法來修改原始的注意力映射 \(M_t\),從而對生成的圖像進行編輯。
單詞置換 (Word Swap):如果在特定時間步 \(t\) 之前 \(t < \tau\),則使用編輯後的注意力映射 \(M_t^*\) 替換原始的 \(M_t\)
\[ Edit(M_t, M_t^*, t) := \begin{cases} M_t^* & \text{if } t < \tau \\ M_t & \text{otherwise} \end{cases} \]
新增詞句 (Adding a New Phrase):如果某個詞 \(j\) 在原始的文本中不存在,即 \(A(j) = \text{None}\),則在注意力映射中使用 \(M_t^*\) 的相應權重;否則,保持 \(M_t\) 的原始權重
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →\[ (Edit(M_t, M_t^*, t))_{i, j} := \begin{cases} (M_t^*)_{i, j} & \text{if } A(j) = \text{None} \\ (M_t)_{i, A(j)} & \text{otherwise} \end{cases} \]
這裡的\(()\)圓括號用來表示函數調用的結果
\(:=\) 在數學中用來表示「定義等於」的符號
注意力重加權 (Attention Re-weighting):給定某個特定的權重 \(c\),如果權重對應的詞 \(j\) 是被編輯的詞 \(j^*\),則用 \(c\) 乘以 \(M_t\) 的原始權重來更新這個詞的注意力權重;否則,保持不變。
\[ (Edit(M_t, M_t^*, t))_{i, j} := \begin{cases} c \cdot (M_t)_{i, j} & \text{if } j = j^* \\ (M_t)_{i, j} & \text{otherwise} \end{cases} \]
Imagic
E.g., different dogs
超越編輯合成生成的影像,Imagic(Kawar et al., 2023)探索編輯真實自然圖像。核心理念是將要編輯的圖像表示為文字嵌入,並將此嵌入與描述期望圖像的目標文字嵌入融合。這種融合確保生成的圖像在與目標文字提示中詳細描述的美學對齊的同時,保留來自原始圖像的元素。在實際應用中,需要進行測試時微調,以生成高質量的圖像
\[\mathcal{L}(x, e, \theta) = \mathbb{E}_{t, e}\left[ \| e - f_{\theta}(x_t, t, e) \|_2^2 \right]\]
計算嵌入 \(e\) 和由模型 \(f_{\theta}\) 在給定時間 \(t\) 和嵌入 \(e\) 下的輸出之間的歐幾里得距離(L2標準)。這裡 \(x_t\) 代表在時間 \(t\) 的圖像狀態,\(\theta\) 代表模型參數。期望 \(\mathbb{E}_{t, e}\) 表明該損失是在所有可能的時間點 \(t\) 和嵌入 \(e\) 上進行平均。
混合兩種不同嵌入的策略
\(\hat{e}\) 是最終嵌入,\(e_{tgt}\) 是目標嵌入,\(e_{opt}\) 是最佳嵌入,\(\eta\) 是混合參數,它決定了 \(e_{tgt}\) 和 \(e_{opt}\) 在最終嵌入中的權重
\[\hat{e} = \eta \cdot e_{tgt} + (1 - \eta) \cdot e_{opt}\]
Edit instruction(Text instruction editing)
External models(Editing with external pre-trained models)
3.4 Better following prompts (Text Prompts Following)
3.5 Concept customization
Summary and discussion