---
# System prepended metadata

title: 多種VLM架構
tags: [LLM]

---

## 66 個視覺語言模型（VLM）經典論文詳細筆記整理

#### 早期多模態對齊與嵌入 (2014–2018)

| 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 1 | [**VSE**](https://arxiv.org/pdf/1412.2306.pdf) (2014) | 2014 | RCNN吃圖片、BRNN吃文字，早期多模態模型之一 | Representing images、Representing sentences、Alignment objective、Decoding text segment alignments to images、generating descriptions | 該模型用於生成圖像及其區域的自然語言描述。它利用圖像及其句子描述的數據集，通過 **CNN 處理圖像區域**、**雙向 RNN 處理句子**，並通過**多模態嵌入**實現跨模態對齊，以學習語言和視覺數據之間的對應關係。 |
| 2 | [**VSE++**](https://arxiv.org/pdf/1707.05612.pdf) (2017) | 2017 | 把**難分的負樣本**加入損失函數 (loss)，讓 VSE 準確率更高 | hard negative mining、recall R@K、Sum of Hinges(SH) loss、Max of Hinges (MH) loss、取樣hard negative實際上怎麼做 | 提出了新的技術用於跨模態檢索的視覺語義嵌入學習。通過對多模態嵌入的常見損失函數進行簡單修改，並**受到硬負採樣和排名損失函數的啟發**，在檢索效果方面取得了顯著進展。 |
| 3 | [**SCAN**](https://arxiv.org/pdf/1803.08024.pdf) (2018) | 2018 | 對 image-text 和 text-image 都做 Attention 得到更好的表徵 | Image-Text Stacked Cross Attention、Text-Image Stacked Cross Attention、Alignment的loss function、Bottom-Up Attention | 提出了**堆疊交叉注意力機制 (Stacked Cross Attention)**，它利用圖像區域和句子中的單詞作為上下文來發現完整的潛在對齊，推斷圖像與文字之間的相似性，以捕捉視覺和語言之間微妙的交互作用。 |

#### BERT/Transformer 融合與多任務預訓練 (2019–2020)

| 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 4 | [**ViLBERT**](https://arxiv.org/pdf/1908.02265.pdf) (2019) | 2019 | 把文字和圖片特徵交叉丟到 **co-attentional** 的 BERT | co-attention transformer layer、Extending BERT to Jointly Represent Images and Text、Training Tasks and Objectives | 將 BERT 架構擴展為多模態**雙流模型**，通過**共注意力變換層**相互交互，用於學習影像內容和自然語言的任務無關聯合表徵模型。 |
| 5 | [**VisualBERT**](https://arxiv.org/pdf/1908.03557.pdf) (2019) | 2019 | 利用兩個視覺基礎任務來預訓練 BERT | architecture、joint contextualized representations、Task-Agnostic Pre-Training、Task-Specific Pre-Training | 是一個用於建模各種視覺和語言任務的靈活框架，由一串 Transformer 層組成，通過**自注意力**隱式對齊輸入文本和相關圖像中的區域元素，並提出了兩種基於視覺的語言模型目標進行預訓練。 |
| 6 | [**LXMERT**](https://arxiv.org/pdf/1908.07490.pdf) (2019) | 2019 | 我們用了 3 個 encoder，1 個對文字、1 個對圖像、1 個跨模態 | Sentence Embeddings、Image Embeddings、Single-Modality Encoders、Cross-Modality Encoder、5個Pre-Training Tasks | 由三個編碼器組成：**物體關係編碼器、語言編碼器和跨模態編碼器**。通過大量的圖像-句子對進行預訓練，使用**五個不同的任務**，賦予模型連接視覺和語言語義的能力。 |
| 7 | [**VL-BERT**](https://arxiv.org/pdf/1908.08530.pdf) (2019) | 2019 | 把文字和圖像區域的 embedding 丟進去 BERT 預訓練 | Model Architecture、Token Embedding、Visual Feature Embedding、Segment Embedding、Sequence Position Embedding | 提出了用於視覺-語言任務的通用表徵。它使用了簡單而強大的 Transformer 模型作為基礎架構，並擴展其功能，可以接受**視覺和語言嵌入特徵作為輸入**，以更好地對齊視覺-語言的線索。 |
| 8 | [**Unified VLP**](https://arxiv.org/pdf/1909.11059.pdf) (2019) | 2019 | 統一視覺語言理解和生成，用 bidirectional 和 seq2se2 預訓練 | unified encoder-decoder、bidirectional objective、sequence to sequence objective、Self-attention mask | 這篇論文的摘要實質上描述了 **Oscar** 模型：提出 Oscar（Object-Semantics Aligned Pre-training），利用影像中檢測到的**物件標籤**作為錨點，顯著簡化對齊的學習。 |
| 9 | [**UNITER**](https://arxiv.org/pdf/1909.11740.pdf) (2019) | 2019 | 加入圖像文字匹配和字區域對齊任務訓練一個通用 encoder | Masked Language Modeling、Masked Region Modeling、mageText Matching、Word-Region Alignment、Optimal Transport | 介紹了 UNITER，一種通用的影像文字表徵方法。設計了四種預訓練任務，並提出了利用**最佳化運輸 (Optimal Transport)** 的詞-區域對齊 (WRA) 任務，明確鼓勵細粒度對齊。 |
| 10 | [**Pixel-BERT**](https://arxiv.org/pdf/2004.00849.pdf) (2020) | 2020 | 圖像特徵，從 region-based 換成 **pixel-based** | Revisit Transformer、Sentence Feature Embedding、Image Feature Embedding、Cross-Modality Module、Pixel Random Sampling | 透過深度多模態 Transformer，將**圖像像素與文字進行對齊**，共同學習視覺和語言嵌入在一個統一的框架中。它旨在直接從圖像和句子配對中建立更準確、更全面的圖像像素與語言語義之間的關聯。 |
| 11 | [**Oscar**](https://arxiv.org/pdf/2004.06165.pdf) (2020) | 2020 | 除了文字、區域影像，**物件標籤 (Object-Semantics)** 也一起丟進去模型預訓練 | VLP Ambiguity和grounding問題、Word-Tag-Image triple、Masked Token Loss、Contrastive Loss | 提出 Oscar（Object-Semantics Aligned Pre-training），利用影像中檢測到的**物件標籤**作為錨點，顯著簡化了對齊的學習。 |
| 12 | [**UNIMO**](https://arxiv.org/pdf/2012.15409.pdf) (2020) | 2020 | 除了視覺和語言外，結合了**跨模態的對比學習** | Cross-Modal Contrastive Learning、Visual Learning、Language Learning、Text Rewriting、Image/Text Retrieval | 提出了統一模態預訓練架構 UNIMO，通過**跨模態對比學習 (CMCL)** 將文字和視覺資訊對齊到一個統一的語義空間，使其能有效地適應單模態和多模態理解與生成任務。 |

#### 提升視覺表徵與簡化架構 (2021)

| 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 13 | [**VinVL**](https://arxiv.org/pdf/2101.00529.pdf) (2021) | 2021 | 用更大的模型、更多的資料、更好的方法得到更好的**視覺表徵** | Object Detection Pre-training、Model Architecture Selection、Efficient region feature extractor、OSCAR+ | 專注於改進視覺語言任務的視覺表徵，發展了一個改進的物體檢測模型，以提供圖像的物體中心表徵。證明改進的視覺特徵對於視覺語言模型非常重要。 |
| 14 | [**VL T5**](https://arxiv.org/pdf/2102.02779.pdf) (2021) | 2021 | 把所有預訓練任務統一，直接讓模型預測 text labels | Visual Embeddings、Text Embeddings、Architecture、Task-Specific和Unified Framework的比較 | 提出了一個統一的框架，採用單一的**多模態條件文本生成**目標，在單一架構中學習不同的任務，根據視覺和文本輸入生成文本標籤。 |
| 15 | [**ViLT**](https://arxiv.org/pdf/2102.03334.pdf) (2021) | 2021 | 簡化 embedding，結合 BERT 訓練方式和 ViT 模型 | Patch Projection、Image Text Matching、Masked Language Modeling、Whole Word Masking、Image Augmentation | 提出了一個簡化的 VLP 模型，在處理視覺輸入時僅使用與處理文本輸入相同的**無卷積**方法，大幅提升了速度效率，同時保持了競爭性的性能。 |
| 16 | [**SimVLM**](https://arxiv.org/pdf/2108.10904.pdf) (2021) | 2021 | 不用複雜的訓練任務，只用簡單的 ViT 模型和 **PrefixLM** 方法 | Prefix Language Modeling、Architecture、zero-shot generalization | 提出了一個簡約的預訓練框架，通過利用大規模**弱監督**來減少訓練的複雜性，並使用單一的**前綴語言建模目標**進行端到端訓練，實現零樣本泛化能力。 |
| 17 | [**ALIGN**](https://arxiv.org/pdf/2102.05918.pdf) (2021) | 2021 | 即使資料雜訊多，但規模大也能訓練出好模型 | Image-based filtering、Text-based filtering、Noisy Image-Text Pairs、Image-Text Matching & Retrieval、Visual Classification | 利用超過十億個**有雜訊**的圖像替代文字對，通過一個簡單的**雙編碼器架構**和**對比損失**來對齊視覺和語言表示，證明數據規模可以彌補數據本身的雜訊。 |
| 18 | [**CLIP**](https://arxiv.org/pdf/2103.00020.pdf) (2021) | 2021 | 用大量的數據簡單粗暴的將圖像和文字通通映射到同一個空間 | 創建Large Dataset、Pre-Training Method、Scaling Model、Zero-Shot Transfer、Representation Learning、Distribution Shift | 使用**4 億張圖片和文字配對**的資料集，讓電腦自己學習圖像，自然語言能夠描述新的概念，並將模型**零樣本地轉移**到其他任務上。 |
| 19 | [**ViLD**](https://arxiv.org/pdf/2104.13921.pdf) (2021) | 2021 | **知識蒸餾 (Knowledge Distillation)** 配 CLIP 架構讓 zero-shot detection 超越 supervised | Image and Text embedding、Replacing classifier with text embeddings、Distilling image embeddings、model ensembling | 提出 ViLD，通過**視覺和語言知識蒸餾**的訓練方法，推進開放詞彙的物件檢測。它將預先訓練的開放詞彙圖像分類模型（教師）的知識，提煉到兩階段檢測器（學生）中。 |
| 20 | [**Frozen**](https://arxiv.org/pdf/2106.13884.pdf) (2021) | 2021 | **凍結語言模型 (Frozen Language Models)**，直接讓 visual embedding 適應 LM | Frozen Language Models、Vision Encoder和Prefix、Training和Inference、Few-Shot Learner | 提出將少樣本學習能力轉移到多模態設置中，訓練一個視覺編碼器，將每個圖像表示為一系列連續的嵌入（**前綴**），以便**預先訓練的凍結語言模型**在提示這個前綴後生成適當的標註。 |
| 21 | [**ALBEF**](https://arxiv.org/pdf/2107.07651.pdf) (2021) | 2021 | 提出 **Align before Fuse** 策略，在文字和圖像 embedding 合起來前，先用對比學習對齊 | Architecture、Image-Text Contrastive Learning、masked language modeling、Image-Text Matching、Momentum Distillation | 介紹了 ALBEF，它在跨模態注意力進行融合前，使用**對比損失**方法對齊圖像和文本表示。同時引入了**動量蒸餾 (Momentum Distillation)** 來提高從充滿雜訊的網路數據中學習的效果。 |
| 22 | [**CoOp**](https://arxiv.org/pdf/2109.01134.pdf) (2021) | 2021 | 引入**可學習的提示 (prompt)**，讓 VLM 更好的適應下游任務 | Models、Zero-Shot Inference、Context Optimization、Unified Context、Class-Specific Context | 提出了「**上下文優化**」（CoOp），專門用於適應類似 CLIP 的 VLM 進行後續圖像識別。CoOp 通過**可學習的向量**來建模提示的上下文詞，同時保持整個預訓練參數不變。 |
| 23 | [**WiSE-FT**](https://arxiv.org/pdf/2109.01903.pdf) (2021) | 2021 | 探討微調 zero-shot 模型時的**領域偏移**問題 | Distribution shifts、Effective robustness、Zero-shot models、Standard fine-tuning、Weight-space ensembling | 引入了一種簡單有效的方法來提高微調時的穩定性：將 zero-shot 模型和微調模型的**權重進行整合 (Weight-space ensembling)**，以在分佈變化下提供大幅提高的準確度。 |
| 24 | [**PICa**](https://arxiv.org/pdf/2109.05014.pdf) (2021) | 2021 | 將圖像表示成文字，把 **GPT-3 當成知識庫**來 prompt | GPT-3 for In-context Learning、GPT-3 for VQA、In-context Examples、In-context example selection、Multi-query ensemble | 提出 PICa，通過使用圖像標題（或標註）來提示 GPT-3，用於基於知識的 VQA。將 GPT-3 視為一個**隱式且無結構的知識庫**，可以共同獲取和處理相關知識。 |
| 25 | [**CLIP-Adapter**](https://arxiv.org/pdf/2110.04544.pdf) (2021) | 2021 | 把 CLIP 上面加上 **adapter** 來做 PEFT | Classifier Weight Generation、CLIP-Adapter、Bottleneck Layer、Context Optimization | 提出 CLIP-Adapter，在視覺或語言分支上使用**特徵適配器**進行微調。CLIP-Adapter 採用額外的**瓶頸層 (Bottleneck Layer)** 來學習新特徵，並將原始預訓練特徵與剩餘風格的特徵混合。 |
| 26 | [**DeCLIP**](https://arxiv.org/pdf/2110.05208.pdf) (2021) | 2021 | 原本的 CLIP 需要太多資料訓練，弄個 **Data efficient** 版本的吧 | CLIP、Self-Supervision within each modality、Multi-View Supervision、Nearest-Neighbor Supervision | 提出了一種新的訓練範式：「高效數據使用的 CLIP (DeCLIP)」，通過利用圖像-文本配對中的普遍監督，包括在每個模式內部的**自我監督**、跨模式的**多視圖監督**，以及來自相似配對的**最近鄰監督**，更有效地學習通用的視覺特徵。 |
| 27 | [**VLMo**](https://arxiv.org/pdf/2111.02358.pdf) (2021) | 2021 | 基於**混合專家 (MoE)** 的視覺語言模型 | Mixture-of-Modality-Experts Transformer、Pre-Training Tasks、Stagewise Pre-Training、Fine-Tuning VLMO | 提出了 VLMo，它同時學習雙編碼器和融合編碼器，並使用了**模態混合專家 (MoME) Transformer 網絡**，其中每個區塊包含一組模態特定專家和一個共享的自注意力層。 |
| 28 | [**FILIP**](https://arxiv.org/pdf/2111.07783.pdf) (2021) | 2021 | 透過**跨模態後期互動機制 (cross-modal late interaction)** 實現更細粒度的對齊 | Fine-grained contrastive learning、cross-modal late interaction、Prompt Ensemble and Templates、Augmentation | 提出了 FILIP，通過一種**跨模態的後期交互機制**實現更精細的對齊。它使用視覺區塊和文本詞語之間的最大相似性來引導對比目標，成功利用了更精細的表達性。 |
| 29 | [**LiT**](https://arxiv.org/pdf/2111.07991.pdf) (2021) | 2021 | 把**圖像 encoder 鎖住**，只去 tune 文字 encoder | Contrastive pre-training、Contrastive-tuning、Locked-image Tuning | 介紹了**對比調整 (contrastive-tuning)** 的簡單方法。最佳策略是將預訓練圖像模型鎖定，只解鎖文字模型，稱為「鎖定圖像調整」（LiT）。 |
| 30 | [**CLIPCap**](https://arxiv.org/pdf/2111.09734.pdf) (2021) | 2021 | 我只要訓練**映射網路 (Mapping Network)** 把 CLIP Embedding 映射到 GPT-2 就好 | Language model fine-tuning、Mapping Network Architecture、Inference | 提出一個簡單的方法來應對圖像標題生成，使用 CLIP 編碼作為標題的**前綴 (Prefix)**，通過訓練一個簡單的映射網路，然後對語言模型（GPT-2）進行微調以生成圖像標題。 |
| 31 | [**Florence**](https://arxiv.org/pdf/2111.11432.pdf) (2021) | 2021 | 把視覺任務擴展到**空間-時間-模態三個面向**訓練基礎模型 | Unified Image-Text Contrastive Learning、Florence 、Object-level Visual & Fine-Grained V+L Representation Learning | 是一個新的電腦視覺基礎模型，它將表徵**從粗到細、靜態到動態、從 RGB 到多種模式**擴展，以適應各種電腦視覺任務。 |
| 32 | [**DenseCLIP**](https://arxiv.org/pdf/2112.01518.pdf) (2021) | 2021 | 將 CLIP 和 prompt 模式用到 **dense 任務**，如分割、目標偵測上 | Language-Guided Dense Prediction、Context-Aware Prompting、Instantiations | 提出了一個新的密集預測框架，將 CLIP 中的原始圖像-文本匹配問題轉換為**像素-文本匹配問題**，並使用像素-文本分數圖來引導密集預測模型的學習。 |
| 33 | [**MaskCLIP**](https://arxiv.org/pdf/2112.01071.pdf) (2021) | 2021 | 不用標註和微調，我也可以把 CLIP 用在**影像分割**上 | Conventional Fine-Tuning Hinders Zero-Shot Ability、MaskCLIP、Key Smoothing and Prompt Denoising、MaskCLIP+ | 旨在探討 CLIP 在像素級密集預測（語義分割）方面的潛力。通過輕微修改，MaskCLIP 可以在沒有標註和微調的情況下，對**開放概念**達到非常好的分割結果。 |
| 34 | [**FLAVA**](https://arxiv.org/pdf/2112.04482.pdf) (2021) | 2021 | **MMM、MIM、MLM** 全部整合在一起 | model architecture、Multimodal pretraining objectives、Unimodal pretraining objectives、Public Multimodal Datasets | 提出 FLAVA 作為一個全面的**通用基礎模型**，同時針對所有模式（視覺、語言、跨模態、多模態），整合了多種預訓練目標。 |
| 35 | [**GLIP**](https://arxiv.org/pdf/2112.03857.pdf) (2021) | 2021 | 統一 **object detection** 和 **phrase grounding** 任務 | Equivalence between detection and grounding、Language-Aware Deep Fusion、Pre-training with Scalable Semantic-Rich Data | 介紹了 GLIP 模型，它結合了物件檢測和短語對齊作為預訓練的基礎，用於學習物件級別、具有語言感知和豐富語義的視覺表徵。 |
| 36 | [**RegionCLIP**](https://arxiv.org/pdf/2112.09106.pdf) (2021) | 2021 | 讓 CLIP 能學習**區域等級**的視覺表徵，達到更好的 alignment | Visual and Semantic Region Representation、Visual-Semantic Alignment for Regions、Transfer Learning | 提出 RegionCLIP，將 CLIP 擴展至學習區域級別的視覺表徵，以解決直接應用 CLIP 於圖像區域物體檢測時存在的**領域偏移**問題。 |
| 37 | [**SLIP**](https://arxiv.org/pdf/2112.12750.pdf) (2021) | 2021 | 把 CLIP 結合**自監督學習 (Image Self-Supervision)** 來做多任務學習 | Contrastive Language-Image Pre-training、Image Self-Supervision、SLIP Framework、Improved Training Procedure | 提出 SLIP，這是一種將自我監督學習和 CLIP 預訓練結合的**多任務學習框架**，旨在探討自我監督學習是否能夠幫助語言監督用於視覺表示學習。 |

#### 開放詞彙偵測與生成式統一 (2022)

| 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 38 | [**Detic**](https://arxiv.org/pdf/2201.02605.pdf) (2022) | 2022 | 訓練 detector 的 classifiers，讓他學會更多**字彙量** | Open-vocabulary object detection、Non-prediction-based losses、Relation to prediction-based assignments | Detic 是一種物件偵測方法，它通過在影像分類數據上訓練偵測器的分類器，從而將偵測器的詞彙擴展到數以萬計的概念，用於**開放詞彙物件偵測**。 |
| 39 | [**LSeg**](https://arxiv.org/pdf/2201.03546.pdf) (2022) | 2022 | 把物件文字標籤和圖片像素對齊，來做**語言驅動影像分割** | Text encoder、Image encoder、Word-pixel correlation tensor、Spatial regularization、Training details | 提出 LSeg，使用文本編碼器計算描述性輸入標籤的嵌入，同時使用基於 Transformer 的圖像編碼器計算每個像素的密集嵌入，通過對比目標將**像素嵌入對齊到相應語義類別的文本嵌入**，使其能夠在測試時泛化到未見過的類別。 |
| 40 | [**BLIP**](https://arxiv.org/pdf/2201.12086.pdf) (2022) | 2022 | 統一多模態模型**理解和生成**任務 | Unimodal encoder、Image-grounded text encoder、Image-grounded text decoder、ITC、ITM、LM、CapFilt | 提出了 BLIP，一個新的 VLP 框架，可以靈活應用於視覺語言理解和生成任務。它通過啟動標題的 **CapFilt (Captioning and Filtering) 機制**，有效利用含有雜訊的網路數據。 |
| 41 | [**OFA**](https://arxiv.org/pdf/2202.03052.pdf) (2022) | 2022 | 不管單模態還是多模態，通通統一成 **seq2seq** 來預訓練 | I/O & Architecture、Tasks & Modalities、Pretraining Datasets、Training & Inference、Scaling Models | 提出了 OFA，一個支持任務全面性的**任務無關和模態無關框架**。OFA 在簡單的**序列到序列 (seq2seq) 學習框架**中統一了各種跨模態和單模態任務，並在預訓練和微調階段都遵循基於指令的學習。 |
| 42 | [**GroupViT**](https://arxiv.org/pdf/2202.11094.pdf) (2022) | 2022 | 可以學習任何形狀的表徵，並且只用**文字監督**訓練 | Grouping Vision Transformer、Learning from Image-Text Pairs、Zero-Shot Transfer to Semantic Segmentation | 提出了**分層分組視覺 Transformer (GroupViT)**，它學習將圖像區域分組成逐漸更大的**任意形狀段落**。僅通過文本監督，GroupViT 就能學會將語義區域分組在一起，並以零微調方式遷移到語義分割任務中。 |
| 43 | [**CoCoOp**](https://arxiv.org/pdf/2203.05557.pdf) (2022) | 2022 | 在 CoOp 上加入 **meta-net**，生成**條件標記**，讓泛化能力更好 | Contrastive Language-Image Pre-training、Context Optimization、Conditional Context Optimization | 提出了有條件的上下文優化（CoCoOp），它通過學習一個輕量級神經網絡，為每個圖像生成一個**依賴輸入的條件標記（向量）**，提供動態提示，解決 CoOp 過度擬合基本類別的問題。 |
| 44 | [**VPT**](https://arxiv.org/pdf/2203.12119.pdf) (2022) | 2022 | 把語言模型 **prompt tuning** 概念搬到視覺領域 | VPT-Shallow、VPT-Deep、Storing Visual Prompts、Ablation on Model Design Variants | 提出了**視覺提示微調（VPT）**，作為全參數微調的高效替代方法。VPT 在輸入空間中只引入了**少量可訓練參數**，同時保持模型架構凍結。 |
| 45 | [**UniCL**](https://arxiv.org/pdf/2204.03610.pdf) (2022) | 2022 | 把監督式學習和 CLIP 自監督學習概念合起來 | Unified Image-Text-Label Contrast、Connections to Cross-Entropy、SupCon、CLIP | 提出了一種新的學習範式，稱為**統一對比學習（UniCL）**，具有單一的學習目標，旨在將圖像標籤數據的監督學習和圖像文本對的語言-圖像對比學習結合到**共同的圖像-文本-標籤空間**中。 |
| 46 | [**Flamingo**](https://arxiv.org/pdf/2204.14198.pdf) (2022) | 2022 | 在訓練好的 CV 和 NLP 模型，加個小 adapter 做 **in-context learning** | Perceiver Resampler、gated cross-attention dense layers、per-image/video attention masking、in-context learning | 介紹了 Flamingo，一個具有**上下文少樣本學習能力**的視覺語言模型（VLM）家族。它提出了重要的架構創新，例如引入 **Perceiver Resampler** 和 **gated cross-attention** 層，以橋接預訓練的視覺和語言模型。 |
| 47 | [**CoCa**](https://arxiv.org/pdf/2205.01917.pdf) (2022) | 2022 | 整合 **Captioning loss** 和 **Contrastive loss**，讓下游任務更好做 | Single-Encoder Classification、Dual-Encoder Contrastive Learning、Encoder-Decoder Captioning、Contrastive Captioners | 介紹了「**對比式標題生成器 (CoCa)**」的設計，目標是聯合預訓練圖像-文字編碼器-解碼器基礎模型，結合對比式方法和生成式方法的能力。在多模態解碼器輸出上進行生成文本記憶的同時，應用了單模圖像和文本嵌入之間的對比損失。 |
| 48 | [**OWL-ViT**](https://arxiv.org/pdf/2205.06230.pdf) (2022) | 2022 | 基於 CLIP 的想法，創建**開放領域目標檢測**應用 | Open-vocabulary object detection、One- or Few-Shot Transfer、Image-Level Contrastive Pre-Training、Training the Detector | 提出一個有效的方法，將圖像-文本模型遷移到開放詞彙的目標檢測中。使用了標準的 **Vision Transformer 架構**，進行對比式圖像-文本預訓練，並進行端到端的檢測微調。 |
| 49 | [**GIT**](https://arxiv.org/pdf/2205.14100.pdf) (2022) | 2022 | 把 image embedding 當成 prefix 丟進語言模型訓練 | Network Architecture、text prefix、Pre-training、Fine-tuning、Model and data scaling | 介紹了 **Generative Image-to-text Transformer（GIT）**，用於統一視覺語言任務。它將架構簡化為單一的圖像編碼器和文本解碼器，在**單一的語言建模任務**下進行訓練。 |
| 50 | [**BEiT v3**](https://arxiv.org/pdf/2208.10442.pdf) (2022) | 2022 | 基於 **Multiway Transformer**，使用 **MMoE** 架構劃分不同 expert | Multiway Transformers、Masked Data Modeling、Scaling Up、Vision-Language Downstream Tasks | 引入了**多路 Transformer (Multiway Transformers)**，以進行通用建模，並以統一的方式對圖像（Imglish）、文本（English）和圖像-文本對（”平行句子”）進行了**遮罩”語言”建模**。 |
| 51 | [**PaLI**](https://arxiv.org/pdf/2209.06794.pdf) (2022) | 2022 | Transformer + ViT，架構簡單、效果好、又容易拓展 | architecture、ViT-e、The language component、The overall model、Training mixture | 提出了 PaLI（Pathways Language and Image model），它將大型預訓練的編碼器-解碼器語言模型和 Vision Transformers（ViTs）進行了**聯合擴展 (Jointly-Scaled)**，支援多語言和多模態任務。 |
| 52 | [**Pix2Struct**](https://arxiv.org/pdf/2210.03347.pdf) (2022) | 2022 | 輸入網頁頁面截圖，輸出 **html 的結構性輸出** | Architecture、Screenshot parsing inputs & outputs、reading curriculum | 是一個預訓練的圖像到文本模型，預訓練目標是學習將網頁的**屏幕截圖解析成簡化的 HTML**，這個目標涵蓋了 OCR、語言建模和圖像標註等常見的預訓練訊號。 |

#### 大型語言模型 (LLM) 整合與指令調整 (2023)

| 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 53 | [**BLIP-2**](https://arxiv.org/pdf/2301.12597.pdf) (2023) | 2023 | 兩階段分別 Boostrap，參數凍結的 **image encoder** 和 **LLM** | Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder、Generative Learning from a Frozen LLM | 提出高效的**兩階段預訓練策略**，利用輕量級的**查詢 Transformer** 彌補模態差異，以啟動視覺語言的預訓練，實現零樣本圖像到文本生成。 |
| 54 | [**SAM**](https://arxiv.org/pdf/2304.02643.pdf) (2023) | 2023 | 可以 **prompt** 的分割模型，和一個超巨大的分割資料集 | Image encoder、Prompt encoder、Mask decoder、Resolving ambiguity、Data Engine、Dataset | 推出「Segment Anything（SA）」計畫，模型設計和訓練成**可提示式 (promptable)**，能夠在零樣本情況下適應新的影像分佈和任務。同時發布了包含超過 10 億個遮罩的超大數據集 SA-1B。 |
| 55 | [**SEEM**](https://arxiv.org/pdf/2304.06718.pdf) (2023) | 2023 | **Visual Prompt、Text Prompt、Ref Prompt** 通通都可分割 | Model Design、Versatile、Compositional、Interactive、Semantic-aware、Model Pipeline and Loss Functions | 提出了 SEEM，一個可提示和互動的模型，能夠在一張圖像中同時進行全域的所有區段分割。它提出了一種新的解碼機制，能夠針對各種分割任務進行多樣的提示，統一了不同空間查詢和提示方式。 |
| 56 | [**LLaVA**](https://arxiv.org/pdf/2304.08485.pdf) (2023) | 2023 | 基於 **LLaMA** 且目前最普遍使用的開源 VLM 模型 | GPT-assisted Visual Instruction Data Generation、Visual Instruction Tuning、LLaVA-Bench、Limitations | 通過使用 **GPT-4 輔助生成**多模態語言-圖像指示數據，引入了 LLaVA，這是一個端對端訓練的大型多模態模型，將視覺編碼器和 LLM 連接起來，用於通用的視覺和語言理解。 |
| 57 | [**MiniGPT-4**](https://arxiv.org/pdf/2304.10592.pdf) (2023) | 2023 | 輸入影像的 **ViT** 和文字的 **Vicuna** 鎖住，只 tune 中間的 **MLP** | first pretraining stage、Initial aligned image-text generation、Data post-processing | 提出了 MiniGPT-4，它將一個**凍結的視覺編碼器**與一個**凍結的先進 LLM (Vicuna)** 通過單個**投影層**對齊，展示了先進的多模態生成能力。 |
| 58 | [**Visual ChatGPT**](https://arxiv.org/pdf/2303.04671.pdf) (2023) | 2023 | ChatGPT 雖然不會看圖片，但加一個視覺模型 **prompt** 就可以 | Prompt Managing of System Principles、Foundation Models、User Querie、Foundation Model Outputs | 建立了一個名為「Visual ChatGPT」的系統，結合不同的視覺基礎模型，設計了一系列提示，將視覺模型的訊息注入 ChatGPT，使 ChatGPT 能夠處理和生成圖像，並提供複雜的視覺問題或編輯指令。 |
| 59 | [**InstructBLIP**](https://arxiv.org/pdf/2305.06500.pdf) (2023) | 2023 | 在 BLIP 上面加上 **instruction tuning** (指令調整) | Training and Evaluation Protocols、Instruction-aware Visual Feature Extraction、Balancing、Inference、Architecture | 基於預訓練的 BLIP-2 模型，進行了系統和全面的**視覺與語言指令調整**。它引入了一個**指令感知的 Query Transformer**，其可提取適合給定指令的訊息特徵。 |
| 60 | [**VisionLLM**](https://arxiv.org/pdf/2305.11175.pdf) (2023) | 2023 | 以 **LLM 為中心**，引入 image tokenizer 來解決各種不同的任務 | Architecture、Unified Language Instruction、Language-Guided Image Tokenizer、Open-Ended Task Decoder | 提出 VisionLLM，將圖像視為一種**外語**，通過將以視覺為中心的任務與可以使用**語言指令**進行靈活定義和管理的語言任務對齊，基於 LLM 的解碼器可以針對**開放性任務**進行適當的預測。 |
| 61 | [**Improved LLaVA**](https://arxiv.org/pdf/2310.03744.pdf) (2023) | 2023 | LLaVA 的改良版，用了**更大的 CLIP** 和**更多的數據** | Response formatting prompts、MLP vision-language connector、Academic task oriented data、Additional scaling | 通過對 LLaVA 進行簡單修改，即使用 **CLIP-ViT-L-336px** 搭配 **MLP 投影**，以及添加以**學術任務為導向的 VQA 數據**和簡單的回答格式提示，建立了更強的基準線。 |
| 62 | [**PaLI-3**](https://arxiv.org/pdf/2310.09199.pdf) (2023) | 2023 | 把 CLIP 換成 **SigLIP** 用在 PaLI 上，表現得更好 | Visual component、Full PaLI model、Unimodal pretraining、Multimodal training、Resolution increase | 介紹了 PaLI-3，一種更小、更快、更強大的 VLM，它比較了使用分類目標預訓練的模型和對比式 **SigLIP** 預訓練模型，發現 SigLIP 在各種多模態基準測試中表現優越。 |
| 63 | [**MiniGPT v2**](https://arxiv.org/pdf/2310.09478.pdf) (2023) | 2023 | MiniGPT 改良版，基礎架構換成 **LLaMA 2** | Visual backbone、Linear projection layer、Large language model、Multi-task Instruction Template & Training | 提出了 MiniGPT-v2，致力於建立一個能夠應對多種視覺與語言任務的統一介面。它提出在訓練模型時為不同任務使用**獨特的識別符號 (identifiers)**，以更好地辨識每個任務指令。 |
| 64 | [**CogVLM**](https://arxiv.org/pdf/2311.03079.pdf) (2023) | 2023 | 在 Transformer 裡面多加一個針對視覺的 **QKV 矩陣 expert** | ViT encoder、MLP adapter、Pretrained large language model、Visual expert module | 提出了 CogVLM，通過在注意力和 FFN 層中加入**可訓練的視覺專家模組 (Visual Expert)**，將凍結的預訓練語言模型和圖像編碼器之間的差距，實現視覺語言特徵的**深度融合**。 |
| 65 | [**VCD**](https://arxiv.org/pdf/2311.16922.pdf) (2023) | 2023 | 在視覺輸入加入雜訊，讓 VLM 做**自監督學習** | Decoding of Vision-Language Models、Visual Uncertainty Amplifies Hallucinations、Visual Contrastive Decoding | 引入了**視覺對比解碼 (Visual Contrastive Decoding, VCD)**，這是一種無需額外訓練的方法，它通過對比從原始和扭曲的視覺輸入中獲得的輸出分佈，以**緩解物件幻覺 (Object Hallucinations)** 問題。 |
| 66 | [**CogAgent**](https://arxiv.org/pdf/2312.08914.pdf) (2023) | 2023 | 把 CogVLM 當作 **agent**，來瀏覽網路和手機螢幕 (GUI) | Architecture、High-Resolution Cross-Module、Pre-training、Multi-task Fine-tuning and Alignment | 是一個專門用於理解和導航**圖形使用者介面（GUI）**的 VLM，它利用低解析度和高解析度圖像編碼器，支持高解析度輸入（1120 x 1120），能夠識別微小的頁面元素和文字。 |

***

### 觀點洞察與發展趨勢

綜觀這些 VLM 模型：

1.  **模態交互的演變：** 發展從早期的多模態嵌入對齊（如 VSE），迅速演進到利用 **Transformer** 進行深度融合（如 ViLBERT、LXMERT）。隨後，**CLIP** 證明了大規模數據下，僅透過簡單的雙編碼器和對比學習就能實現強大的零樣本能力。
2.  **架構效率的提升：** 為了提高效率和可擴展性，模型開始簡化視覺輸入處理，例如 **ViLT** 採用無卷積方法，而 **BLIP-2**、**MiniGPT-4** 則通過**凍結**大型預訓練組件和訓練輕量級連接器（如 Query Transformer 或 MLP），實現了參數效率。
3.  **任務統一與生成式學習：** 許多模型致力於將多種任務（理解、檢索、生成）統一到一個框架中，例如 **OFA** 將所有任務視為序列到序列 (seq2seq) 學習，**CoCa** 則整合了對比與標題生成兩種損失。
4.  **指令與通用性：** 2023 年，**視覺指令調整 (Visual Instruction Tuning)** 成為關鍵（如 LLaVA、InstructBLIP），目的是賦予 VLM 遵循自然語言指令的通用能力。**VisionLLM** 甚至將圖像視為一種「外語」，以 LLM 為中心解碼器，解決開放性視覺任務。

VLM 的發展趨勢是從「如何將視覺和語言結合」，轉向「如何高效且通用地利用大型語言模型的能力來處理視覺信息」。這使得 VLM 不再是單純的視覺任務解決方案，而是具備多模態、通用推理能力的基礎模型。