## 66 個視覺語言模型(VLM)經典論文詳細筆記整理 #### 早期多模態對齊與嵌入 (2014–2018) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 1 | [**VSE**](https://arxiv.org/pdf/1412.2306.pdf) (2014) | 2014 | RCNN吃圖片、BRNN吃文字,早期多模態模型之一 | Representing images、Representing sentences、Alignment objective、Decoding text segment alignments to images、generating descriptions | 該模型用於生成圖像及其區域的自然語言描述。它利用圖像及其句子描述的數據集,通過 **CNN 處理圖像區域**、**雙向 RNN 處理句子**,並通過**多模態嵌入**實現跨模態對齊,以學習語言和視覺數據之間的對應關係。 | | 2 | [**VSE++**](https://arxiv.org/pdf/1707.05612.pdf) (2017) | 2017 | 把**難分的負樣本**加入損失函數 (loss),讓 VSE 準確率更高 | hard negative mining、recall R@K、Sum of Hinges(SH) loss、Max of Hinges (MH) loss、取樣hard negative實際上怎麼做 | 提出了新的技術用於跨模態檢索的視覺語義嵌入學習。通過對多模態嵌入的常見損失函數進行簡單修改,並**受到硬負採樣和排名損失函數的啟發**,在檢索效果方面取得了顯著進展。 | | 3 | [**SCAN**](https://arxiv.org/pdf/1803.08024.pdf) (2018) | 2018 | 對 image-text 和 text-image 都做 Attention 得到更好的表徵 | Image-Text Stacked Cross Attention、Text-Image Stacked Cross Attention、Alignment的loss function、Bottom-Up Attention | 提出了**堆疊交叉注意力機制 (Stacked Cross Attention)**,它利用圖像區域和句子中的單詞作為上下文來發現完整的潛在對齊,推斷圖像與文字之間的相似性,以捕捉視覺和語言之間微妙的交互作用。 | #### BERT/Transformer 融合與多任務預訓練 (2019–2020) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 4 | [**ViLBERT**](https://arxiv.org/pdf/1908.02265.pdf) (2019) | 2019 | 把文字和圖片特徵交叉丟到 **co-attentional** 的 BERT | co-attention transformer layer、Extending BERT to Jointly Represent Images and Text、Training Tasks and Objectives | 將 BERT 架構擴展為多模態**雙流模型**,通過**共注意力變換層**相互交互,用於學習影像內容和自然語言的任務無關聯合表徵模型。 | | 5 | [**VisualBERT**](https://arxiv.org/pdf/1908.03557.pdf) (2019) | 2019 | 利用兩個視覺基礎任務來預訓練 BERT | architecture、joint contextualized representations、Task-Agnostic Pre-Training、Task-Specific Pre-Training | 是一個用於建模各種視覺和語言任務的靈活框架,由一串 Transformer 層組成,通過**自注意力**隱式對齊輸入文本和相關圖像中的區域元素,並提出了兩種基於視覺的語言模型目標進行預訓練。 | | 6 | [**LXMERT**](https://arxiv.org/pdf/1908.07490.pdf) (2019) | 2019 | 我們用了 3 個 encoder,1 個對文字、1 個對圖像、1 個跨模態 | Sentence Embeddings、Image Embeddings、Single-Modality Encoders、Cross-Modality Encoder、5個Pre-Training Tasks | 由三個編碼器組成:**物體關係編碼器、語言編碼器和跨模態編碼器**。通過大量的圖像-句子對進行預訓練,使用**五個不同的任務**,賦予模型連接視覺和語言語義的能力。 | | 7 | [**VL-BERT**](https://arxiv.org/pdf/1908.08530.pdf) (2019) | 2019 | 把文字和圖像區域的 embedding 丟進去 BERT 預訓練 | Model Architecture、Token Embedding、Visual Feature Embedding、Segment Embedding、Sequence Position Embedding | 提出了用於視覺-語言任務的通用表徵。它使用了簡單而強大的 Transformer 模型作為基礎架構,並擴展其功能,可以接受**視覺和語言嵌入特徵作為輸入**,以更好地對齊視覺-語言的線索。 | | 8 | [**Unified VLP**](https://arxiv.org/pdf/1909.11059.pdf) (2019) | 2019 | 統一視覺語言理解和生成,用 bidirectional 和 seq2se2 預訓練 | unified encoder-decoder、bidirectional objective、sequence to sequence objective、Self-attention mask | 這篇論文的摘要實質上描述了 **Oscar** 模型:提出 Oscar(Object-Semantics Aligned Pre-training),利用影像中檢測到的**物件標籤**作為錨點,顯著簡化對齊的學習。 | | 9 | [**UNITER**](https://arxiv.org/pdf/1909.11740.pdf) (2019) | 2019 | 加入圖像文字匹配和字區域對齊任務訓練一個通用 encoder | Masked Language Modeling、Masked Region Modeling、mageText Matching、Word-Region Alignment、Optimal Transport | 介紹了 UNITER,一種通用的影像文字表徵方法。設計了四種預訓練任務,並提出了利用**最佳化運輸 (Optimal Transport)** 的詞-區域對齊 (WRA) 任務,明確鼓勵細粒度對齊。 | | 10 | [**Pixel-BERT**](https://arxiv.org/pdf/2004.00849.pdf) (2020) | 2020 | 圖像特徵,從 region-based 換成 **pixel-based** | Revisit Transformer、Sentence Feature Embedding、Image Feature Embedding、Cross-Modality Module、Pixel Random Sampling | 透過深度多模態 Transformer,將**圖像像素與文字進行對齊**,共同學習視覺和語言嵌入在一個統一的框架中。它旨在直接從圖像和句子配對中建立更準確、更全面的圖像像素與語言語義之間的關聯。 | | 11 | [**Oscar**](https://arxiv.org/pdf/2004.06165.pdf) (2020) | 2020 | 除了文字、區域影像,**物件標籤 (Object-Semantics)** 也一起丟進去模型預訓練 | VLP Ambiguity和grounding問題、Word-Tag-Image triple、Masked Token Loss、Contrastive Loss | 提出 Oscar(Object-Semantics Aligned Pre-training),利用影像中檢測到的**物件標籤**作為錨點,顯著簡化了對齊的學習。 | | 12 | [**UNIMO**](https://arxiv.org/pdf/2012.15409.pdf) (2020) | 2020 | 除了視覺和語言外,結合了**跨模態的對比學習** | Cross-Modal Contrastive Learning、Visual Learning、Language Learning、Text Rewriting、Image/Text Retrieval | 提出了統一模態預訓練架構 UNIMO,通過**跨模態對比學習 (CMCL)** 將文字和視覺資訊對齊到一個統一的語義空間,使其能有效地適應單模態和多模態理解與生成任務。 | #### 提升視覺表徵與簡化架構 (2021) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 13 | [**VinVL**](https://arxiv.org/pdf/2101.00529.pdf) (2021) | 2021 | 用更大的模型、更多的資料、更好的方法得到更好的**視覺表徵** | Object Detection Pre-training、Model Architecture Selection、Efficient region feature extractor、OSCAR+ | 專注於改進視覺語言任務的視覺表徵,發展了一個改進的物體檢測模型,以提供圖像的物體中心表徵。證明改進的視覺特徵對於視覺語言模型非常重要。 | | 14 | [**VL T5**](https://arxiv.org/pdf/2102.02779.pdf) (2021) | 2021 | 把所有預訓練任務統一,直接讓模型預測 text labels | Visual Embeddings、Text Embeddings、Architecture、Task-Specific和Unified Framework的比較 | 提出了一個統一的框架,採用單一的**多模態條件文本生成**目標,在單一架構中學習不同的任務,根據視覺和文本輸入生成文本標籤。 | | 15 | [**ViLT**](https://arxiv.org/pdf/2102.03334.pdf) (2021) | 2021 | 簡化 embedding,結合 BERT 訓練方式和 ViT 模型 | Patch Projection、Image Text Matching、Masked Language Modeling、Whole Word Masking、Image Augmentation | 提出了一個簡化的 VLP 模型,在處理視覺輸入時僅使用與處理文本輸入相同的**無卷積**方法,大幅提升了速度效率,同時保持了競爭性的性能。 | | 16 | [**SimVLM**](https://arxiv.org/pdf/2108.10904.pdf) (2021) | 2021 | 不用複雜的訓練任務,只用簡單的 ViT 模型和 **PrefixLM** 方法 | Prefix Language Modeling、Architecture、zero-shot generalization | 提出了一個簡約的預訓練框架,通過利用大規模**弱監督**來減少訓練的複雜性,並使用單一的**前綴語言建模目標**進行端到端訓練,實現零樣本泛化能力。 | | 17 | [**ALIGN**](https://arxiv.org/pdf/2102.05918.pdf) (2021) | 2021 | 即使資料雜訊多,但規模大也能訓練出好模型 | Image-based filtering、Text-based filtering、Noisy Image-Text Pairs、Image-Text Matching & Retrieval、Visual Classification | 利用超過十億個**有雜訊**的圖像替代文字對,通過一個簡單的**雙編碼器架構**和**對比損失**來對齊視覺和語言表示,證明數據規模可以彌補數據本身的雜訊。 | | 18 | [**CLIP**](https://arxiv.org/pdf/2103.00020.pdf) (2021) | 2021 | 用大量的數據簡單粗暴的將圖像和文字通通映射到同一個空間 | 創建Large Dataset、Pre-Training Method、Scaling Model、Zero-Shot Transfer、Representation Learning、Distribution Shift | 使用**4 億張圖片和文字配對**的資料集,讓電腦自己學習圖像,自然語言能夠描述新的概念,並將模型**零樣本地轉移**到其他任務上。 | | 19 | [**ViLD**](https://arxiv.org/pdf/2104.13921.pdf) (2021) | 2021 | **知識蒸餾 (Knowledge Distillation)** 配 CLIP 架構讓 zero-shot detection 超越 supervised | Image and Text embedding、Replacing classifier with text embeddings、Distilling image embeddings、model ensembling | 提出 ViLD,通過**視覺和語言知識蒸餾**的訓練方法,推進開放詞彙的物件檢測。它將預先訓練的開放詞彙圖像分類模型(教師)的知識,提煉到兩階段檢測器(學生)中。 | | 20 | [**Frozen**](https://arxiv.org/pdf/2106.13884.pdf) (2021) | 2021 | **凍結語言模型 (Frozen Language Models)**,直接讓 visual embedding 適應 LM | Frozen Language Models、Vision Encoder和Prefix、Training和Inference、Few-Shot Learner | 提出將少樣本學習能力轉移到多模態設置中,訓練一個視覺編碼器,將每個圖像表示為一系列連續的嵌入(**前綴**),以便**預先訓練的凍結語言模型**在提示這個前綴後生成適當的標註。 | | 21 | [**ALBEF**](https://arxiv.org/pdf/2107.07651.pdf) (2021) | 2021 | 提出 **Align before Fuse** 策略,在文字和圖像 embedding 合起來前,先用對比學習對齊 | Architecture、Image-Text Contrastive Learning、masked language modeling、Image-Text Matching、Momentum Distillation | 介紹了 ALBEF,它在跨模態注意力進行融合前,使用**對比損失**方法對齊圖像和文本表示。同時引入了**動量蒸餾 (Momentum Distillation)** 來提高從充滿雜訊的網路數據中學習的效果。 | | 22 | [**CoOp**](https://arxiv.org/pdf/2109.01134.pdf) (2021) | 2021 | 引入**可學習的提示 (prompt)**,讓 VLM 更好的適應下游任務 | Models、Zero-Shot Inference、Context Optimization、Unified Context、Class-Specific Context | 提出了「**上下文優化**」(CoOp),專門用於適應類似 CLIP 的 VLM 進行後續圖像識別。CoOp 通過**可學習的向量**來建模提示的上下文詞,同時保持整個預訓練參數不變。 | | 23 | [**WiSE-FT**](https://arxiv.org/pdf/2109.01903.pdf) (2021) | 2021 | 探討微調 zero-shot 模型時的**領域偏移**問題 | Distribution shifts、Effective robustness、Zero-shot models、Standard fine-tuning、Weight-space ensembling | 引入了一種簡單有效的方法來提高微調時的穩定性:將 zero-shot 模型和微調模型的**權重進行整合 (Weight-space ensembling)**,以在分佈變化下提供大幅提高的準確度。 | | 24 | [**PICa**](https://arxiv.org/pdf/2109.05014.pdf) (2021) | 2021 | 將圖像表示成文字,把 **GPT-3 當成知識庫**來 prompt | GPT-3 for In-context Learning、GPT-3 for VQA、In-context Examples、In-context example selection、Multi-query ensemble | 提出 PICa,通過使用圖像標題(或標註)來提示 GPT-3,用於基於知識的 VQA。將 GPT-3 視為一個**隱式且無結構的知識庫**,可以共同獲取和處理相關知識。 | | 25 | [**CLIP-Adapter**](https://arxiv.org/pdf/2110.04544.pdf) (2021) | 2021 | 把 CLIP 上面加上 **adapter** 來做 PEFT | Classifier Weight Generation、CLIP-Adapter、Bottleneck Layer、Context Optimization | 提出 CLIP-Adapter,在視覺或語言分支上使用**特徵適配器**進行微調。CLIP-Adapter 採用額外的**瓶頸層 (Bottleneck Layer)** 來學習新特徵,並將原始預訓練特徵與剩餘風格的特徵混合。 | | 26 | [**DeCLIP**](https://arxiv.org/pdf/2110.05208.pdf) (2021) | 2021 | 原本的 CLIP 需要太多資料訓練,弄個 **Data efficient** 版本的吧 | CLIP、Self-Supervision within each modality、Multi-View Supervision、Nearest-Neighbor Supervision | 提出了一種新的訓練範式:「高效數據使用的 CLIP (DeCLIP)」,通過利用圖像-文本配對中的普遍監督,包括在每個模式內部的**自我監督**、跨模式的**多視圖監督**,以及來自相似配對的**最近鄰監督**,更有效地學習通用的視覺特徵。 | | 27 | [**VLMo**](https://arxiv.org/pdf/2111.02358.pdf) (2021) | 2021 | 基於**混合專家 (MoE)** 的視覺語言模型 | Mixture-of-Modality-Experts Transformer、Pre-Training Tasks、Stagewise Pre-Training、Fine-Tuning VLMO | 提出了 VLMo,它同時學習雙編碼器和融合編碼器,並使用了**模態混合專家 (MoME) Transformer 網絡**,其中每個區塊包含一組模態特定專家和一個共享的自注意力層。 | | 28 | [**FILIP**](https://arxiv.org/pdf/2111.07783.pdf) (2021) | 2021 | 透過**跨模態後期互動機制 (cross-modal late interaction)** 實現更細粒度的對齊 | Fine-grained contrastive learning、cross-modal late interaction、Prompt Ensemble and Templates、Augmentation | 提出了 FILIP,通過一種**跨模態的後期交互機制**實現更精細的對齊。它使用視覺區塊和文本詞語之間的最大相似性來引導對比目標,成功利用了更精細的表達性。 | | 29 | [**LiT**](https://arxiv.org/pdf/2111.07991.pdf) (2021) | 2021 | 把**圖像 encoder 鎖住**,只去 tune 文字 encoder | Contrastive pre-training、Contrastive-tuning、Locked-image Tuning | 介紹了**對比調整 (contrastive-tuning)** 的簡單方法。最佳策略是將預訓練圖像模型鎖定,只解鎖文字模型,稱為「鎖定圖像調整」(LiT)。 | | 30 | [**CLIPCap**](https://arxiv.org/pdf/2111.09734.pdf) (2021) | 2021 | 我只要訓練**映射網路 (Mapping Network)** 把 CLIP Embedding 映射到 GPT-2 就好 | Language model fine-tuning、Mapping Network Architecture、Inference | 提出一個簡單的方法來應對圖像標題生成,使用 CLIP 編碼作為標題的**前綴 (Prefix)**,通過訓練一個簡單的映射網路,然後對語言模型(GPT-2)進行微調以生成圖像標題。 | | 31 | [**Florence**](https://arxiv.org/pdf/2111.11432.pdf) (2021) | 2021 | 把視覺任務擴展到**空間-時間-模態三個面向**訓練基礎模型 | Unified Image-Text Contrastive Learning、Florence 、Object-level Visual & Fine-Grained V+L Representation Learning | 是一個新的電腦視覺基礎模型,它將表徵**從粗到細、靜態到動態、從 RGB 到多種模式**擴展,以適應各種電腦視覺任務。 | | 32 | [**DenseCLIP**](https://arxiv.org/pdf/2112.01518.pdf) (2021) | 2021 | 將 CLIP 和 prompt 模式用到 **dense 任務**,如分割、目標偵測上 | Language-Guided Dense Prediction、Context-Aware Prompting、Instantiations | 提出了一個新的密集預測框架,將 CLIP 中的原始圖像-文本匹配問題轉換為**像素-文本匹配問題**,並使用像素-文本分數圖來引導密集預測模型的學習。 | | 33 | [**MaskCLIP**](https://arxiv.org/pdf/2112.01071.pdf) (2021) | 2021 | 不用標註和微調,我也可以把 CLIP 用在**影像分割**上 | Conventional Fine-Tuning Hinders Zero-Shot Ability、MaskCLIP、Key Smoothing and Prompt Denoising、MaskCLIP+ | 旨在探討 CLIP 在像素級密集預測(語義分割)方面的潛力。通過輕微修改,MaskCLIP 可以在沒有標註和微調的情況下,對**開放概念**達到非常好的分割結果。 | | 34 | [**FLAVA**](https://arxiv.org/pdf/2112.04482.pdf) (2021) | 2021 | **MMM、MIM、MLM** 全部整合在一起 | model architecture、Multimodal pretraining objectives、Unimodal pretraining objectives、Public Multimodal Datasets | 提出 FLAVA 作為一個全面的**通用基礎模型**,同時針對所有模式(視覺、語言、跨模態、多模態),整合了多種預訓練目標。 | | 35 | [**GLIP**](https://arxiv.org/pdf/2112.03857.pdf) (2021) | 2021 | 統一 **object detection** 和 **phrase grounding** 任務 | Equivalence between detection and grounding、Language-Aware Deep Fusion、Pre-training with Scalable Semantic-Rich Data | 介紹了 GLIP 模型,它結合了物件檢測和短語對齊作為預訓練的基礎,用於學習物件級別、具有語言感知和豐富語義的視覺表徵。 | | 36 | [**RegionCLIP**](https://arxiv.org/pdf/2112.09106.pdf) (2021) | 2021 | 讓 CLIP 能學習**區域等級**的視覺表徵,達到更好的 alignment | Visual and Semantic Region Representation、Visual-Semantic Alignment for Regions、Transfer Learning | 提出 RegionCLIP,將 CLIP 擴展至學習區域級別的視覺表徵,以解決直接應用 CLIP 於圖像區域物體檢測時存在的**領域偏移**問題。 | | 37 | [**SLIP**](https://arxiv.org/pdf/2112.12750.pdf) (2021) | 2021 | 把 CLIP 結合**自監督學習 (Image Self-Supervision)** 來做多任務學習 | Contrastive Language-Image Pre-training、Image Self-Supervision、SLIP Framework、Improved Training Procedure | 提出 SLIP,這是一種將自我監督學習和 CLIP 預訓練結合的**多任務學習框架**,旨在探討自我監督學習是否能夠幫助語言監督用於視覺表示學習。 | #### 開放詞彙偵測與生成式統一 (2022) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 38 | [**Detic**](https://arxiv.org/pdf/2201.02605.pdf) (2022) | 2022 | 訓練 detector 的 classifiers,讓他學會更多**字彙量** | Open-vocabulary object detection、Non-prediction-based losses、Relation to prediction-based assignments | Detic 是一種物件偵測方法,它通過在影像分類數據上訓練偵測器的分類器,從而將偵測器的詞彙擴展到數以萬計的概念,用於**開放詞彙物件偵測**。 | | 39 | [**LSeg**](https://arxiv.org/pdf/2201.03546.pdf) (2022) | 2022 | 把物件文字標籤和圖片像素對齊,來做**語言驅動影像分割** | Text encoder、Image encoder、Word-pixel correlation tensor、Spatial regularization、Training details | 提出 LSeg,使用文本編碼器計算描述性輸入標籤的嵌入,同時使用基於 Transformer 的圖像編碼器計算每個像素的密集嵌入,通過對比目標將**像素嵌入對齊到相應語義類別的文本嵌入**,使其能夠在測試時泛化到未見過的類別。 | | 40 | [**BLIP**](https://arxiv.org/pdf/2201.12086.pdf) (2022) | 2022 | 統一多模態模型**理解和生成**任務 | Unimodal encoder、Image-grounded text encoder、Image-grounded text decoder、ITC、ITM、LM、CapFilt | 提出了 BLIP,一個新的 VLP 框架,可以靈活應用於視覺語言理解和生成任務。它通過啟動標題的 **CapFilt (Captioning and Filtering) 機制**,有效利用含有雜訊的網路數據。 | | 41 | [**OFA**](https://arxiv.org/pdf/2202.03052.pdf) (2022) | 2022 | 不管單模態還是多模態,通通統一成 **seq2seq** 來預訓練 | I/O & Architecture、Tasks & Modalities、Pretraining Datasets、Training & Inference、Scaling Models | 提出了 OFA,一個支持任務全面性的**任務無關和模態無關框架**。OFA 在簡單的**序列到序列 (seq2seq) 學習框架**中統一了各種跨模態和單模態任務,並在預訓練和微調階段都遵循基於指令的學習。 | | 42 | [**GroupViT**](https://arxiv.org/pdf/2202.11094.pdf) (2022) | 2022 | 可以學習任何形狀的表徵,並且只用**文字監督**訓練 | Grouping Vision Transformer、Learning from Image-Text Pairs、Zero-Shot Transfer to Semantic Segmentation | 提出了**分層分組視覺 Transformer (GroupViT)**,它學習將圖像區域分組成逐漸更大的**任意形狀段落**。僅通過文本監督,GroupViT 就能學會將語義區域分組在一起,並以零微調方式遷移到語義分割任務中。 | | 43 | [**CoCoOp**](https://arxiv.org/pdf/2203.05557.pdf) (2022) | 2022 | 在 CoOp 上加入 **meta-net**,生成**條件標記**,讓泛化能力更好 | Contrastive Language-Image Pre-training、Context Optimization、Conditional Context Optimization | 提出了有條件的上下文優化(CoCoOp),它通過學習一個輕量級神經網絡,為每個圖像生成一個**依賴輸入的條件標記(向量)**,提供動態提示,解決 CoOp 過度擬合基本類別的問題。 | | 44 | [**VPT**](https://arxiv.org/pdf/2203.12119.pdf) (2022) | 2022 | 把語言模型 **prompt tuning** 概念搬到視覺領域 | VPT-Shallow、VPT-Deep、Storing Visual Prompts、Ablation on Model Design Variants | 提出了**視覺提示微調(VPT)**,作為全參數微調的高效替代方法。VPT 在輸入空間中只引入了**少量可訓練參數**,同時保持模型架構凍結。 | | 45 | [**UniCL**](https://arxiv.org/pdf/2204.03610.pdf) (2022) | 2022 | 把監督式學習和 CLIP 自監督學習概念合起來 | Unified Image-Text-Label Contrast、Connections to Cross-Entropy、SupCon、CLIP | 提出了一種新的學習範式,稱為**統一對比學習(UniCL)**,具有單一的學習目標,旨在將圖像標籤數據的監督學習和圖像文本對的語言-圖像對比學習結合到**共同的圖像-文本-標籤空間**中。 | | 46 | [**Flamingo**](https://arxiv.org/pdf/2204.14198.pdf) (2022) | 2022 | 在訓練好的 CV 和 NLP 模型,加個小 adapter 做 **in-context learning** | Perceiver Resampler、gated cross-attention dense layers、per-image/video attention masking、in-context learning | 介紹了 Flamingo,一個具有**上下文少樣本學習能力**的視覺語言模型(VLM)家族。它提出了重要的架構創新,例如引入 **Perceiver Resampler** 和 **gated cross-attention** 層,以橋接預訓練的視覺和語言模型。 | | 47 | [**CoCa**](https://arxiv.org/pdf/2205.01917.pdf) (2022) | 2022 | 整合 **Captioning loss** 和 **Contrastive loss**,讓下游任務更好做 | Single-Encoder Classification、Dual-Encoder Contrastive Learning、Encoder-Decoder Captioning、Contrastive Captioners | 介紹了「**對比式標題生成器 (CoCa)**」的設計,目標是聯合預訓練圖像-文字編碼器-解碼器基礎模型,結合對比式方法和生成式方法的能力。在多模態解碼器輸出上進行生成文本記憶的同時,應用了單模圖像和文本嵌入之間的對比損失。 | | 48 | [**OWL-ViT**](https://arxiv.org/pdf/2205.06230.pdf) (2022) | 2022 | 基於 CLIP 的想法,創建**開放領域目標檢測**應用 | Open-vocabulary object detection、One- or Few-Shot Transfer、Image-Level Contrastive Pre-Training、Training the Detector | 提出一個有效的方法,將圖像-文本模型遷移到開放詞彙的目標檢測中。使用了標準的 **Vision Transformer 架構**,進行對比式圖像-文本預訓練,並進行端到端的檢測微調。 | | 49 | [**GIT**](https://arxiv.org/pdf/2205.14100.pdf) (2022) | 2022 | 把 image embedding 當成 prefix 丟進語言模型訓練 | Network Architecture、text prefix、Pre-training、Fine-tuning、Model and data scaling | 介紹了 **Generative Image-to-text Transformer(GIT)**,用於統一視覺語言任務。它將架構簡化為單一的圖像編碼器和文本解碼器,在**單一的語言建模任務**下進行訓練。 | | 50 | [**BEiT v3**](https://arxiv.org/pdf/2208.10442.pdf) (2022) | 2022 | 基於 **Multiway Transformer**,使用 **MMoE** 架構劃分不同 expert | Multiway Transformers、Masked Data Modeling、Scaling Up、Vision-Language Downstream Tasks | 引入了**多路 Transformer (Multiway Transformers)**,以進行通用建模,並以統一的方式對圖像(Imglish)、文本(English)和圖像-文本對(”平行句子”)進行了**遮罩”語言”建模**。 | | 51 | [**PaLI**](https://arxiv.org/pdf/2209.06794.pdf) (2022) | 2022 | Transformer + ViT,架構簡單、效果好、又容易拓展 | architecture、ViT-e、The language component、The overall model、Training mixture | 提出了 PaLI(Pathways Language and Image model),它將大型預訓練的編碼器-解碼器語言模型和 Vision Transformers(ViTs)進行了**聯合擴展 (Jointly-Scaled)**,支援多語言和多模態任務。 | | 52 | [**Pix2Struct**](https://arxiv.org/pdf/2210.03347.pdf) (2022) | 2022 | 輸入網頁頁面截圖,輸出 **html 的結構性輸出** | Architecture、Screenshot parsing inputs & outputs、reading curriculum | 是一個預訓練的圖像到文本模型,預訓練目標是學習將網頁的**屏幕截圖解析成簡化的 HTML**,這個目標涵蓋了 OCR、語言建模和圖像標註等常見的預訓練訊號。 | #### 大型語言模型 (LLM) 整合與指令調整 (2023) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 53 | [**BLIP-2**](https://arxiv.org/pdf/2301.12597.pdf) (2023) | 2023 | 兩階段分別 Boostrap,參數凍結的 **image encoder** 和 **LLM** | Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder、Generative Learning from a Frozen LLM | 提出高效的**兩階段預訓練策略**,利用輕量級的**查詢 Transformer** 彌補模態差異,以啟動視覺語言的預訓練,實現零樣本圖像到文本生成。 | | 54 | [**SAM**](https://arxiv.org/pdf/2304.02643.pdf) (2023) | 2023 | 可以 **prompt** 的分割模型,和一個超巨大的分割資料集 | Image encoder、Prompt encoder、Mask decoder、Resolving ambiguity、Data Engine、Dataset | 推出「Segment Anything(SA)」計畫,模型設計和訓練成**可提示式 (promptable)**,能夠在零樣本情況下適應新的影像分佈和任務。同時發布了包含超過 10 億個遮罩的超大數據集 SA-1B。 | | 55 | [**SEEM**](https://arxiv.org/pdf/2304.06718.pdf) (2023) | 2023 | **Visual Prompt、Text Prompt、Ref Prompt** 通通都可分割 | Model Design、Versatile、Compositional、Interactive、Semantic-aware、Model Pipeline and Loss Functions | 提出了 SEEM,一個可提示和互動的模型,能夠在一張圖像中同時進行全域的所有區段分割。它提出了一種新的解碼機制,能夠針對各種分割任務進行多樣的提示,統一了不同空間查詢和提示方式。 | | 56 | [**LLaVA**](https://arxiv.org/pdf/2304.08485.pdf) (2023) | 2023 | 基於 **LLaMA** 且目前最普遍使用的開源 VLM 模型 | GPT-assisted Visual Instruction Data Generation、Visual Instruction Tuning、LLaVA-Bench、Limitations | 通過使用 **GPT-4 輔助生成**多模態語言-圖像指示數據,引入了 LLaVA,這是一個端對端訓練的大型多模態模型,將視覺編碼器和 LLM 連接起來,用於通用的視覺和語言理解。 | | 57 | [**MiniGPT-4**](https://arxiv.org/pdf/2304.10592.pdf) (2023) | 2023 | 輸入影像的 **ViT** 和文字的 **Vicuna** 鎖住,只 tune 中間的 **MLP** | first pretraining stage、Initial aligned image-text generation、Data post-processing | 提出了 MiniGPT-4,它將一個**凍結的視覺編碼器**與一個**凍結的先進 LLM (Vicuna)** 通過單個**投影層**對齊,展示了先進的多模態生成能力。 | | 58 | [**Visual ChatGPT**](https://arxiv.org/pdf/2303.04671.pdf) (2023) | 2023 | ChatGPT 雖然不會看圖片,但加一個視覺模型 **prompt** 就可以 | Prompt Managing of System Principles、Foundation Models、User Querie、Foundation Model Outputs | 建立了一個名為「Visual ChatGPT」的系統,結合不同的視覺基礎模型,設計了一系列提示,將視覺模型的訊息注入 ChatGPT,使 ChatGPT 能夠處理和生成圖像,並提供複雜的視覺問題或編輯指令。 | | 59 | [**InstructBLIP**](https://arxiv.org/pdf/2305.06500.pdf) (2023) | 2023 | 在 BLIP 上面加上 **instruction tuning** (指令調整) | Training and Evaluation Protocols、Instruction-aware Visual Feature Extraction、Balancing、Inference、Architecture | 基於預訓練的 BLIP-2 模型,進行了系統和全面的**視覺與語言指令調整**。它引入了一個**指令感知的 Query Transformer**,其可提取適合給定指令的訊息特徵。 | | 60 | [**VisionLLM**](https://arxiv.org/pdf/2305.11175.pdf) (2023) | 2023 | 以 **LLM 為中心**,引入 image tokenizer 來解決各種不同的任務 | Architecture、Unified Language Instruction、Language-Guided Image Tokenizer、Open-Ended Task Decoder | 提出 VisionLLM,將圖像視為一種**外語**,通過將以視覺為中心的任務與可以使用**語言指令**進行靈活定義和管理的語言任務對齊,基於 LLM 的解碼器可以針對**開放性任務**進行適當的預測。 | | 61 | [**Improved LLaVA**](https://arxiv.org/pdf/2310.03744.pdf) (2023) | 2023 | LLaVA 的改良版,用了**更大的 CLIP** 和**更多的數據** | Response formatting prompts、MLP vision-language connector、Academic task oriented data、Additional scaling | 通過對 LLaVA 進行簡單修改,即使用 **CLIP-ViT-L-336px** 搭配 **MLP 投影**,以及添加以**學術任務為導向的 VQA 數據**和簡單的回答格式提示,建立了更強的基準線。 | | 62 | [**PaLI-3**](https://arxiv.org/pdf/2310.09199.pdf) (2023) | 2023 | 把 CLIP 換成 **SigLIP** 用在 PaLI 上,表現得更好 | Visual component、Full PaLI model、Unimodal pretraining、Multimodal training、Resolution increase | 介紹了 PaLI-3,一種更小、更快、更強大的 VLM,它比較了使用分類目標預訓練的模型和對比式 **SigLIP** 預訓練模型,發現 SigLIP 在各種多模態基準測試中表現優越。 | | 63 | [**MiniGPT v2**](https://arxiv.org/pdf/2310.09478.pdf) (2023) | 2023 | MiniGPT 改良版,基礎架構換成 **LLaMA 2** | Visual backbone、Linear projection layer、Large language model、Multi-task Instruction Template & Training | 提出了 MiniGPT-v2,致力於建立一個能夠應對多種視覺與語言任務的統一介面。它提出在訓練模型時為不同任務使用**獨特的識別符號 (identifiers)**,以更好地辨識每個任務指令。 | | 64 | [**CogVLM**](https://arxiv.org/pdf/2311.03079.pdf) (2023) | 2023 | 在 Transformer 裡面多加一個針對視覺的 **QKV 矩陣 expert** | ViT encoder、MLP adapter、Pretrained large language model、Visual expert module | 提出了 CogVLM,通過在注意力和 FFN 層中加入**可訓練的視覺專家模組 (Visual Expert)**,將凍結的預訓練語言模型和圖像編碼器之間的差距,實現視覺語言特徵的**深度融合**。 | | 65 | [**VCD**](https://arxiv.org/pdf/2311.16922.pdf) (2023) | 2023 | 在視覺輸入加入雜訊,讓 VLM 做**自監督學習** | Decoding of Vision-Language Models、Visual Uncertainty Amplifies Hallucinations、Visual Contrastive Decoding | 引入了**視覺對比解碼 (Visual Contrastive Decoding, VCD)**,這是一種無需額外訓練的方法,它通過對比從原始和扭曲的視覺輸入中獲得的輸出分佈,以**緩解物件幻覺 (Object Hallucinations)** 問題。 | | 66 | [**CogAgent**](https://arxiv.org/pdf/2312.08914.pdf) (2023) | 2023 | 把 CogVLM 當作 **agent**,來瀏覽網路和手機螢幕 (GUI) | Architecture、High-Resolution Cross-Module、Pre-training、Multi-task Fine-tuning and Alignment | 是一個專門用於理解和導航**圖形使用者介面(GUI)**的 VLM,它利用低解析度和高解析度圖像編碼器,支持高解析度輸入(1120 x 1120),能夠識別微小的頁面元素和文字。 | *** ### 觀點洞察與發展趨勢 綜觀這些 VLM 模型: 1. **模態交互的演變:** 發展從早期的多模態嵌入對齊(如 VSE),迅速演進到利用 **Transformer** 進行深度融合(如 ViLBERT、LXMERT)。隨後,**CLIP** 證明了大規模數據下,僅透過簡單的雙編碼器和對比學習就能實現強大的零樣本能力。 2. **架構效率的提升:** 為了提高效率和可擴展性,模型開始簡化視覺輸入處理,例如 **ViLT** 採用無卷積方法,而 **BLIP-2**、**MiniGPT-4** 則通過**凍結**大型預訓練組件和訓練輕量級連接器(如 Query Transformer 或 MLP),實現了參數效率。 3. **任務統一與生成式學習:** 許多模型致力於將多種任務(理解、檢索、生成)統一到一個框架中,例如 **OFA** 將所有任務視為序列到序列 (seq2seq) 學習,**CoCa** 則整合了對比與標題生成兩種損失。 4. **指令與通用性:** 2023 年,**視覺指令調整 (Visual Instruction Tuning)** 成為關鍵(如 LLaVA、InstructBLIP),目的是賦予 VLM 遵循自然語言指令的通用能力。**VisionLLM** 甚至將圖像視為一種「外語」,以 LLM 為中心解碼器,解決開放性視覺任務。 VLM 的發展趨勢是從「如何將視覺和語言結合」,轉向「如何高效且通用地利用大型語言模型的能力來處理視覺信息」。這使得 VLM 不再是單純的視覺任務解決方案,而是具備多模態、通用推理能力的基礎模型。