gary hsu
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note No publishing access yet

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.

      Your account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

      Your team account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

      Explore these features while you wait
      Complete general settings
      Bookmark and like published notes
      Write a few more notes
      Complete general settings
      Write a few more notes
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights New
    • Engagement control
    • Make a copy
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Note Insights Versions and GitHub Sync Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Make a copy Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note No publishing access yet

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.

    Your account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

    Your team account was recently created. Publishing will be available soon, allowing you to share notes on your public page and in search results.

    Explore these features while you wait
    Complete general settings
    Bookmark and like published notes
    Write a few more notes
    Complete general settings
    Write a few more notes
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       Owned this note    Owned this note      
    Published Linked with GitHub
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    ## 66 個視覺語言模型(VLM)經典論文詳細筆記整理 #### 早期多模態對齊與嵌入 (2014–2018) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 1 | [**VSE**](https://arxiv.org/pdf/1412.2306.pdf) (2014) | 2014 | RCNN吃圖片、BRNN吃文字,早期多模態模型之一 | Representing images、Representing sentences、Alignment objective、Decoding text segment alignments to images、generating descriptions | 該模型用於生成圖像及其區域的自然語言描述。它利用圖像及其句子描述的數據集,通過 **CNN 處理圖像區域**、**雙向 RNN 處理句子**,並通過**多模態嵌入**實現跨模態對齊,以學習語言和視覺數據之間的對應關係。 | | 2 | [**VSE++**](https://arxiv.org/pdf/1707.05612.pdf) (2017) | 2017 | 把**難分的負樣本**加入損失函數 (loss),讓 VSE 準確率更高 | hard negative mining、recall R@K、Sum of Hinges(SH) loss、Max of Hinges (MH) loss、取樣hard negative實際上怎麼做 | 提出了新的技術用於跨模態檢索的視覺語義嵌入學習。通過對多模態嵌入的常見損失函數進行簡單修改,並**受到硬負採樣和排名損失函數的啟發**,在檢索效果方面取得了顯著進展。 | | 3 | [**SCAN**](https://arxiv.org/pdf/1803.08024.pdf) (2018) | 2018 | 對 image-text 和 text-image 都做 Attention 得到更好的表徵 | Image-Text Stacked Cross Attention、Text-Image Stacked Cross Attention、Alignment的loss function、Bottom-Up Attention | 提出了**堆疊交叉注意力機制 (Stacked Cross Attention)**,它利用圖像區域和句子中的單詞作為上下文來發現完整的潛在對齊,推斷圖像與文字之間的相似性,以捕捉視覺和語言之間微妙的交互作用。 | #### BERT/Transformer 融合與多任務預訓練 (2019–2020) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 4 | [**ViLBERT**](https://arxiv.org/pdf/1908.02265.pdf) (2019) | 2019 | 把文字和圖片特徵交叉丟到 **co-attentional** 的 BERT | co-attention transformer layer、Extending BERT to Jointly Represent Images and Text、Training Tasks and Objectives | 將 BERT 架構擴展為多模態**雙流模型**,通過**共注意力變換層**相互交互,用於學習影像內容和自然語言的任務無關聯合表徵模型。 | | 5 | [**VisualBERT**](https://arxiv.org/pdf/1908.03557.pdf) (2019) | 2019 | 利用兩個視覺基礎任務來預訓練 BERT | architecture、joint contextualized representations、Task-Agnostic Pre-Training、Task-Specific Pre-Training | 是一個用於建模各種視覺和語言任務的靈活框架,由一串 Transformer 層組成,通過**自注意力**隱式對齊輸入文本和相關圖像中的區域元素,並提出了兩種基於視覺的語言模型目標進行預訓練。 | | 6 | [**LXMERT**](https://arxiv.org/pdf/1908.07490.pdf) (2019) | 2019 | 我們用了 3 個 encoder,1 個對文字、1 個對圖像、1 個跨模態 | Sentence Embeddings、Image Embeddings、Single-Modality Encoders、Cross-Modality Encoder、5個Pre-Training Tasks | 由三個編碼器組成:**物體關係編碼器、語言編碼器和跨模態編碼器**。通過大量的圖像-句子對進行預訓練,使用**五個不同的任務**,賦予模型連接視覺和語言語義的能力。 | | 7 | [**VL-BERT**](https://arxiv.org/pdf/1908.08530.pdf) (2019) | 2019 | 把文字和圖像區域的 embedding 丟進去 BERT 預訓練 | Model Architecture、Token Embedding、Visual Feature Embedding、Segment Embedding、Sequence Position Embedding | 提出了用於視覺-語言任務的通用表徵。它使用了簡單而強大的 Transformer 模型作為基礎架構,並擴展其功能,可以接受**視覺和語言嵌入特徵作為輸入**,以更好地對齊視覺-語言的線索。 | | 8 | [**Unified VLP**](https://arxiv.org/pdf/1909.11059.pdf) (2019) | 2019 | 統一視覺語言理解和生成,用 bidirectional 和 seq2se2 預訓練 | unified encoder-decoder、bidirectional objective、sequence to sequence objective、Self-attention mask | 這篇論文的摘要實質上描述了 **Oscar** 模型:提出 Oscar(Object-Semantics Aligned Pre-training),利用影像中檢測到的**物件標籤**作為錨點,顯著簡化對齊的學習。 | | 9 | [**UNITER**](https://arxiv.org/pdf/1909.11740.pdf) (2019) | 2019 | 加入圖像文字匹配和字區域對齊任務訓練一個通用 encoder | Masked Language Modeling、Masked Region Modeling、mageText Matching、Word-Region Alignment、Optimal Transport | 介紹了 UNITER,一種通用的影像文字表徵方法。設計了四種預訓練任務,並提出了利用**最佳化運輸 (Optimal Transport)** 的詞-區域對齊 (WRA) 任務,明確鼓勵細粒度對齊。 | | 10 | [**Pixel-BERT**](https://arxiv.org/pdf/2004.00849.pdf) (2020) | 2020 | 圖像特徵,從 region-based 換成 **pixel-based** | Revisit Transformer、Sentence Feature Embedding、Image Feature Embedding、Cross-Modality Module、Pixel Random Sampling | 透過深度多模態 Transformer,將**圖像像素與文字進行對齊**,共同學習視覺和語言嵌入在一個統一的框架中。它旨在直接從圖像和句子配對中建立更準確、更全面的圖像像素與語言語義之間的關聯。 | | 11 | [**Oscar**](https://arxiv.org/pdf/2004.06165.pdf) (2020) | 2020 | 除了文字、區域影像,**物件標籤 (Object-Semantics)** 也一起丟進去模型預訓練 | VLP Ambiguity和grounding問題、Word-Tag-Image triple、Masked Token Loss、Contrastive Loss | 提出 Oscar(Object-Semantics Aligned Pre-training),利用影像中檢測到的**物件標籤**作為錨點,顯著簡化了對齊的學習。 | | 12 | [**UNIMO**](https://arxiv.org/pdf/2012.15409.pdf) (2020) | 2020 | 除了視覺和語言外,結合了**跨模態的對比學習** | Cross-Modal Contrastive Learning、Visual Learning、Language Learning、Text Rewriting、Image/Text Retrieval | 提出了統一模態預訓練架構 UNIMO,通過**跨模態對比學習 (CMCL)** 將文字和視覺資訊對齊到一個統一的語義空間,使其能有效地適應單模態和多模態理解與生成任務。 | #### 提升視覺表徵與簡化架構 (2021) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 13 | [**VinVL**](https://arxiv.org/pdf/2101.00529.pdf) (2021) | 2021 | 用更大的模型、更多的資料、更好的方法得到更好的**視覺表徵** | Object Detection Pre-training、Model Architecture Selection、Efficient region feature extractor、OSCAR+ | 專注於改進視覺語言任務的視覺表徵,發展了一個改進的物體檢測模型,以提供圖像的物體中心表徵。證明改進的視覺特徵對於視覺語言模型非常重要。 | | 14 | [**VL T5**](https://arxiv.org/pdf/2102.02779.pdf) (2021) | 2021 | 把所有預訓練任務統一,直接讓模型預測 text labels | Visual Embeddings、Text Embeddings、Architecture、Task-Specific和Unified Framework的比較 | 提出了一個統一的框架,採用單一的**多模態條件文本生成**目標,在單一架構中學習不同的任務,根據視覺和文本輸入生成文本標籤。 | | 15 | [**ViLT**](https://arxiv.org/pdf/2102.03334.pdf) (2021) | 2021 | 簡化 embedding,結合 BERT 訓練方式和 ViT 模型 | Patch Projection、Image Text Matching、Masked Language Modeling、Whole Word Masking、Image Augmentation | 提出了一個簡化的 VLP 模型,在處理視覺輸入時僅使用與處理文本輸入相同的**無卷積**方法,大幅提升了速度效率,同時保持了競爭性的性能。 | | 16 | [**SimVLM**](https://arxiv.org/pdf/2108.10904.pdf) (2021) | 2021 | 不用複雜的訓練任務,只用簡單的 ViT 模型和 **PrefixLM** 方法 | Prefix Language Modeling、Architecture、zero-shot generalization | 提出了一個簡約的預訓練框架,通過利用大規模**弱監督**來減少訓練的複雜性,並使用單一的**前綴語言建模目標**進行端到端訓練,實現零樣本泛化能力。 | | 17 | [**ALIGN**](https://arxiv.org/pdf/2102.05918.pdf) (2021) | 2021 | 即使資料雜訊多,但規模大也能訓練出好模型 | Image-based filtering、Text-based filtering、Noisy Image-Text Pairs、Image-Text Matching & Retrieval、Visual Classification | 利用超過十億個**有雜訊**的圖像替代文字對,通過一個簡單的**雙編碼器架構**和**對比損失**來對齊視覺和語言表示,證明數據規模可以彌補數據本身的雜訊。 | | 18 | [**CLIP**](https://arxiv.org/pdf/2103.00020.pdf) (2021) | 2021 | 用大量的數據簡單粗暴的將圖像和文字通通映射到同一個空間 | 創建Large Dataset、Pre-Training Method、Scaling Model、Zero-Shot Transfer、Representation Learning、Distribution Shift | 使用**4 億張圖片和文字配對**的資料集,讓電腦自己學習圖像,自然語言能夠描述新的概念,並將模型**零樣本地轉移**到其他任務上。 | | 19 | [**ViLD**](https://arxiv.org/pdf/2104.13921.pdf) (2021) | 2021 | **知識蒸餾 (Knowledge Distillation)** 配 CLIP 架構讓 zero-shot detection 超越 supervised | Image and Text embedding、Replacing classifier with text embeddings、Distilling image embeddings、model ensembling | 提出 ViLD,通過**視覺和語言知識蒸餾**的訓練方法,推進開放詞彙的物件檢測。它將預先訓練的開放詞彙圖像分類模型(教師)的知識,提煉到兩階段檢測器(學生)中。 | | 20 | [**Frozen**](https://arxiv.org/pdf/2106.13884.pdf) (2021) | 2021 | **凍結語言模型 (Frozen Language Models)**,直接讓 visual embedding 適應 LM | Frozen Language Models、Vision Encoder和Prefix、Training和Inference、Few-Shot Learner | 提出將少樣本學習能力轉移到多模態設置中,訓練一個視覺編碼器,將每個圖像表示為一系列連續的嵌入(**前綴**),以便**預先訓練的凍結語言模型**在提示這個前綴後生成適當的標註。 | | 21 | [**ALBEF**](https://arxiv.org/pdf/2107.07651.pdf) (2021) | 2021 | 提出 **Align before Fuse** 策略,在文字和圖像 embedding 合起來前,先用對比學習對齊 | Architecture、Image-Text Contrastive Learning、masked language modeling、Image-Text Matching、Momentum Distillation | 介紹了 ALBEF,它在跨模態注意力進行融合前,使用**對比損失**方法對齊圖像和文本表示。同時引入了**動量蒸餾 (Momentum Distillation)** 來提高從充滿雜訊的網路數據中學習的效果。 | | 22 | [**CoOp**](https://arxiv.org/pdf/2109.01134.pdf) (2021) | 2021 | 引入**可學習的提示 (prompt)**,讓 VLM 更好的適應下游任務 | Models、Zero-Shot Inference、Context Optimization、Unified Context、Class-Specific Context | 提出了「**上下文優化**」(CoOp),專門用於適應類似 CLIP 的 VLM 進行後續圖像識別。CoOp 通過**可學習的向量**來建模提示的上下文詞,同時保持整個預訓練參數不變。 | | 23 | [**WiSE-FT**](https://arxiv.org/pdf/2109.01903.pdf) (2021) | 2021 | 探討微調 zero-shot 模型時的**領域偏移**問題 | Distribution shifts、Effective robustness、Zero-shot models、Standard fine-tuning、Weight-space ensembling | 引入了一種簡單有效的方法來提高微調時的穩定性:將 zero-shot 模型和微調模型的**權重進行整合 (Weight-space ensembling)**,以在分佈變化下提供大幅提高的準確度。 | | 24 | [**PICa**](https://arxiv.org/pdf/2109.05014.pdf) (2021) | 2021 | 將圖像表示成文字,把 **GPT-3 當成知識庫**來 prompt | GPT-3 for In-context Learning、GPT-3 for VQA、In-context Examples、In-context example selection、Multi-query ensemble | 提出 PICa,通過使用圖像標題(或標註)來提示 GPT-3,用於基於知識的 VQA。將 GPT-3 視為一個**隱式且無結構的知識庫**,可以共同獲取和處理相關知識。 | | 25 | [**CLIP-Adapter**](https://arxiv.org/pdf/2110.04544.pdf) (2021) | 2021 | 把 CLIP 上面加上 **adapter** 來做 PEFT | Classifier Weight Generation、CLIP-Adapter、Bottleneck Layer、Context Optimization | 提出 CLIP-Adapter,在視覺或語言分支上使用**特徵適配器**進行微調。CLIP-Adapter 採用額外的**瓶頸層 (Bottleneck Layer)** 來學習新特徵,並將原始預訓練特徵與剩餘風格的特徵混合。 | | 26 | [**DeCLIP**](https://arxiv.org/pdf/2110.05208.pdf) (2021) | 2021 | 原本的 CLIP 需要太多資料訓練,弄個 **Data efficient** 版本的吧 | CLIP、Self-Supervision within each modality、Multi-View Supervision、Nearest-Neighbor Supervision | 提出了一種新的訓練範式:「高效數據使用的 CLIP (DeCLIP)」,通過利用圖像-文本配對中的普遍監督,包括在每個模式內部的**自我監督**、跨模式的**多視圖監督**,以及來自相似配對的**最近鄰監督**,更有效地學習通用的視覺特徵。 | | 27 | [**VLMo**](https://arxiv.org/pdf/2111.02358.pdf) (2021) | 2021 | 基於**混合專家 (MoE)** 的視覺語言模型 | Mixture-of-Modality-Experts Transformer、Pre-Training Tasks、Stagewise Pre-Training、Fine-Tuning VLMO | 提出了 VLMo,它同時學習雙編碼器和融合編碼器,並使用了**模態混合專家 (MoME) Transformer 網絡**,其中每個區塊包含一組模態特定專家和一個共享的自注意力層。 | | 28 | [**FILIP**](https://arxiv.org/pdf/2111.07783.pdf) (2021) | 2021 | 透過**跨模態後期互動機制 (cross-modal late interaction)** 實現更細粒度的對齊 | Fine-grained contrastive learning、cross-modal late interaction、Prompt Ensemble and Templates、Augmentation | 提出了 FILIP,通過一種**跨模態的後期交互機制**實現更精細的對齊。它使用視覺區塊和文本詞語之間的最大相似性來引導對比目標,成功利用了更精細的表達性。 | | 29 | [**LiT**](https://arxiv.org/pdf/2111.07991.pdf) (2021) | 2021 | 把**圖像 encoder 鎖住**,只去 tune 文字 encoder | Contrastive pre-training、Contrastive-tuning、Locked-image Tuning | 介紹了**對比調整 (contrastive-tuning)** 的簡單方法。最佳策略是將預訓練圖像模型鎖定,只解鎖文字模型,稱為「鎖定圖像調整」(LiT)。 | | 30 | [**CLIPCap**](https://arxiv.org/pdf/2111.09734.pdf) (2021) | 2021 | 我只要訓練**映射網路 (Mapping Network)** 把 CLIP Embedding 映射到 GPT-2 就好 | Language model fine-tuning、Mapping Network Architecture、Inference | 提出一個簡單的方法來應對圖像標題生成,使用 CLIP 編碼作為標題的**前綴 (Prefix)**,通過訓練一個簡單的映射網路,然後對語言模型(GPT-2)進行微調以生成圖像標題。 | | 31 | [**Florence**](https://arxiv.org/pdf/2111.11432.pdf) (2021) | 2021 | 把視覺任務擴展到**空間-時間-模態三個面向**訓練基礎模型 | Unified Image-Text Contrastive Learning、Florence 、Object-level Visual & Fine-Grained V+L Representation Learning | 是一個新的電腦視覺基礎模型,它將表徵**從粗到細、靜態到動態、從 RGB 到多種模式**擴展,以適應各種電腦視覺任務。 | | 32 | [**DenseCLIP**](https://arxiv.org/pdf/2112.01518.pdf) (2021) | 2021 | 將 CLIP 和 prompt 模式用到 **dense 任務**,如分割、目標偵測上 | Language-Guided Dense Prediction、Context-Aware Prompting、Instantiations | 提出了一個新的密集預測框架,將 CLIP 中的原始圖像-文本匹配問題轉換為**像素-文本匹配問題**,並使用像素-文本分數圖來引導密集預測模型的學習。 | | 33 | [**MaskCLIP**](https://arxiv.org/pdf/2112.01071.pdf) (2021) | 2021 | 不用標註和微調,我也可以把 CLIP 用在**影像分割**上 | Conventional Fine-Tuning Hinders Zero-Shot Ability、MaskCLIP、Key Smoothing and Prompt Denoising、MaskCLIP+ | 旨在探討 CLIP 在像素級密集預測(語義分割)方面的潛力。通過輕微修改,MaskCLIP 可以在沒有標註和微調的情況下,對**開放概念**達到非常好的分割結果。 | | 34 | [**FLAVA**](https://arxiv.org/pdf/2112.04482.pdf) (2021) | 2021 | **MMM、MIM、MLM** 全部整合在一起 | model architecture、Multimodal pretraining objectives、Unimodal pretraining objectives、Public Multimodal Datasets | 提出 FLAVA 作為一個全面的**通用基礎模型**,同時針對所有模式(視覺、語言、跨模態、多模態),整合了多種預訓練目標。 | | 35 | [**GLIP**](https://arxiv.org/pdf/2112.03857.pdf) (2021) | 2021 | 統一 **object detection** 和 **phrase grounding** 任務 | Equivalence between detection and grounding、Language-Aware Deep Fusion、Pre-training with Scalable Semantic-Rich Data | 介紹了 GLIP 模型,它結合了物件檢測和短語對齊作為預訓練的基礎,用於學習物件級別、具有語言感知和豐富語義的視覺表徵。 | | 36 | [**RegionCLIP**](https://arxiv.org/pdf/2112.09106.pdf) (2021) | 2021 | 讓 CLIP 能學習**區域等級**的視覺表徵,達到更好的 alignment | Visual and Semantic Region Representation、Visual-Semantic Alignment for Regions、Transfer Learning | 提出 RegionCLIP,將 CLIP 擴展至學習區域級別的視覺表徵,以解決直接應用 CLIP 於圖像區域物體檢測時存在的**領域偏移**問題。 | | 37 | [**SLIP**](https://arxiv.org/pdf/2112.12750.pdf) (2021) | 2021 | 把 CLIP 結合**自監督學習 (Image Self-Supervision)** 來做多任務學習 | Contrastive Language-Image Pre-training、Image Self-Supervision、SLIP Framework、Improved Training Procedure | 提出 SLIP,這是一種將自我監督學習和 CLIP 預訓練結合的**多任務學習框架**,旨在探討自我監督學習是否能夠幫助語言監督用於視覺表示學習。 | #### 開放詞彙偵測與生成式統一 (2022) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 38 | [**Detic**](https://arxiv.org/pdf/2201.02605.pdf) (2022) | 2022 | 訓練 detector 的 classifiers,讓他學會更多**字彙量** | Open-vocabulary object detection、Non-prediction-based losses、Relation to prediction-based assignments | Detic 是一種物件偵測方法,它通過在影像分類數據上訓練偵測器的分類器,從而將偵測器的詞彙擴展到數以萬計的概念,用於**開放詞彙物件偵測**。 | | 39 | [**LSeg**](https://arxiv.org/pdf/2201.03546.pdf) (2022) | 2022 | 把物件文字標籤和圖片像素對齊,來做**語言驅動影像分割** | Text encoder、Image encoder、Word-pixel correlation tensor、Spatial regularization、Training details | 提出 LSeg,使用文本編碼器計算描述性輸入標籤的嵌入,同時使用基於 Transformer 的圖像編碼器計算每個像素的密集嵌入,通過對比目標將**像素嵌入對齊到相應語義類別的文本嵌入**,使其能夠在測試時泛化到未見過的類別。 | | 40 | [**BLIP**](https://arxiv.org/pdf/2201.12086.pdf) (2022) | 2022 | 統一多模態模型**理解和生成**任務 | Unimodal encoder、Image-grounded text encoder、Image-grounded text decoder、ITC、ITM、LM、CapFilt | 提出了 BLIP,一個新的 VLP 框架,可以靈活應用於視覺語言理解和生成任務。它通過啟動標題的 **CapFilt (Captioning and Filtering) 機制**,有效利用含有雜訊的網路數據。 | | 41 | [**OFA**](https://arxiv.org/pdf/2202.03052.pdf) (2022) | 2022 | 不管單模態還是多模態,通通統一成 **seq2seq** 來預訓練 | I/O & Architecture、Tasks & Modalities、Pretraining Datasets、Training & Inference、Scaling Models | 提出了 OFA,一個支持任務全面性的**任務無關和模態無關框架**。OFA 在簡單的**序列到序列 (seq2seq) 學習框架**中統一了各種跨模態和單模態任務,並在預訓練和微調階段都遵循基於指令的學習。 | | 42 | [**GroupViT**](https://arxiv.org/pdf/2202.11094.pdf) (2022) | 2022 | 可以學習任何形狀的表徵,並且只用**文字監督**訓練 | Grouping Vision Transformer、Learning from Image-Text Pairs、Zero-Shot Transfer to Semantic Segmentation | 提出了**分層分組視覺 Transformer (GroupViT)**,它學習將圖像區域分組成逐漸更大的**任意形狀段落**。僅通過文本監督,GroupViT 就能學會將語義區域分組在一起,並以零微調方式遷移到語義分割任務中。 | | 43 | [**CoCoOp**](https://arxiv.org/pdf/2203.05557.pdf) (2022) | 2022 | 在 CoOp 上加入 **meta-net**,生成**條件標記**,讓泛化能力更好 | Contrastive Language-Image Pre-training、Context Optimization、Conditional Context Optimization | 提出了有條件的上下文優化(CoCoOp),它通過學習一個輕量級神經網絡,為每個圖像生成一個**依賴輸入的條件標記(向量)**,提供動態提示,解決 CoOp 過度擬合基本類別的問題。 | | 44 | [**VPT**](https://arxiv.org/pdf/2203.12119.pdf) (2022) | 2022 | 把語言模型 **prompt tuning** 概念搬到視覺領域 | VPT-Shallow、VPT-Deep、Storing Visual Prompts、Ablation on Model Design Variants | 提出了**視覺提示微調(VPT)**,作為全參數微調的高效替代方法。VPT 在輸入空間中只引入了**少量可訓練參數**,同時保持模型架構凍結。 | | 45 | [**UniCL**](https://arxiv.org/pdf/2204.03610.pdf) (2022) | 2022 | 把監督式學習和 CLIP 自監督學習概念合起來 | Unified Image-Text-Label Contrast、Connections to Cross-Entropy、SupCon、CLIP | 提出了一種新的學習範式,稱為**統一對比學習(UniCL)**,具有單一的學習目標,旨在將圖像標籤數據的監督學習和圖像文本對的語言-圖像對比學習結合到**共同的圖像-文本-標籤空間**中。 | | 46 | [**Flamingo**](https://arxiv.org/pdf/2204.14198.pdf) (2022) | 2022 | 在訓練好的 CV 和 NLP 模型,加個小 adapter 做 **in-context learning** | Perceiver Resampler、gated cross-attention dense layers、per-image/video attention masking、in-context learning | 介紹了 Flamingo,一個具有**上下文少樣本學習能力**的視覺語言模型(VLM)家族。它提出了重要的架構創新,例如引入 **Perceiver Resampler** 和 **gated cross-attention** 層,以橋接預訓練的視覺和語言模型。 | | 47 | [**CoCa**](https://arxiv.org/pdf/2205.01917.pdf) (2022) | 2022 | 整合 **Captioning loss** 和 **Contrastive loss**,讓下游任務更好做 | Single-Encoder Classification、Dual-Encoder Contrastive Learning、Encoder-Decoder Captioning、Contrastive Captioners | 介紹了「**對比式標題生成器 (CoCa)**」的設計,目標是聯合預訓練圖像-文字編碼器-解碼器基礎模型,結合對比式方法和生成式方法的能力。在多模態解碼器輸出上進行生成文本記憶的同時,應用了單模圖像和文本嵌入之間的對比損失。 | | 48 | [**OWL-ViT**](https://arxiv.org/pdf/2205.06230.pdf) (2022) | 2022 | 基於 CLIP 的想法,創建**開放領域目標檢測**應用 | Open-vocabulary object detection、One- or Few-Shot Transfer、Image-Level Contrastive Pre-Training、Training the Detector | 提出一個有效的方法,將圖像-文本模型遷移到開放詞彙的目標檢測中。使用了標準的 **Vision Transformer 架構**,進行對比式圖像-文本預訓練,並進行端到端的檢測微調。 | | 49 | [**GIT**](https://arxiv.org/pdf/2205.14100.pdf) (2022) | 2022 | 把 image embedding 當成 prefix 丟進語言模型訓練 | Network Architecture、text prefix、Pre-training、Fine-tuning、Model and data scaling | 介紹了 **Generative Image-to-text Transformer(GIT)**,用於統一視覺語言任務。它將架構簡化為單一的圖像編碼器和文本解碼器,在**單一的語言建模任務**下進行訓練。 | | 50 | [**BEiT v3**](https://arxiv.org/pdf/2208.10442.pdf) (2022) | 2022 | 基於 **Multiway Transformer**,使用 **MMoE** 架構劃分不同 expert | Multiway Transformers、Masked Data Modeling、Scaling Up、Vision-Language Downstream Tasks | 引入了**多路 Transformer (Multiway Transformers)**,以進行通用建模,並以統一的方式對圖像(Imglish)、文本(English)和圖像-文本對(”平行句子”)進行了**遮罩”語言”建模**。 | | 51 | [**PaLI**](https://arxiv.org/pdf/2209.06794.pdf) (2022) | 2022 | Transformer + ViT,架構簡單、效果好、又容易拓展 | architecture、ViT-e、The language component、The overall model、Training mixture | 提出了 PaLI(Pathways Language and Image model),它將大型預訓練的編碼器-解碼器語言模型和 Vision Transformers(ViTs)進行了**聯合擴展 (Jointly-Scaled)**,支援多語言和多模態任務。 | | 52 | [**Pix2Struct**](https://arxiv.org/pdf/2210.03347.pdf) (2022) | 2022 | 輸入網頁頁面截圖,輸出 **html 的結構性輸出** | Architecture、Screenshot parsing inputs & outputs、reading curriculum | 是一個預訓練的圖像到文本模型,預訓練目標是學習將網頁的**屏幕截圖解析成簡化的 HTML**,這個目標涵蓋了 OCR、語言建模和圖像標註等常見的預訓練訊號。 | #### 大型語言模型 (LLM) 整合與指令調整 (2023) | 編號 | 模型名稱 | 發布年份 | 簡單摘要 (核心思想) | 關鍵技術與閱讀重點 | 基本原理 (核心機制) | | :--- | :--- | :--- | :--- | :--- | :--- | | 53 | [**BLIP-2**](https://arxiv.org/pdf/2301.12597.pdf) (2023) | 2023 | 兩階段分別 Boostrap,參數凍結的 **image encoder** 和 **LLM** | Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder、Generative Learning from a Frozen LLM | 提出高效的**兩階段預訓練策略**,利用輕量級的**查詢 Transformer** 彌補模態差異,以啟動視覺語言的預訓練,實現零樣本圖像到文本生成。 | | 54 | [**SAM**](https://arxiv.org/pdf/2304.02643.pdf) (2023) | 2023 | 可以 **prompt** 的分割模型,和一個超巨大的分割資料集 | Image encoder、Prompt encoder、Mask decoder、Resolving ambiguity、Data Engine、Dataset | 推出「Segment Anything(SA)」計畫,模型設計和訓練成**可提示式 (promptable)**,能夠在零樣本情況下適應新的影像分佈和任務。同時發布了包含超過 10 億個遮罩的超大數據集 SA-1B。 | | 55 | [**SEEM**](https://arxiv.org/pdf/2304.06718.pdf) (2023) | 2023 | **Visual Prompt、Text Prompt、Ref Prompt** 通通都可分割 | Model Design、Versatile、Compositional、Interactive、Semantic-aware、Model Pipeline and Loss Functions | 提出了 SEEM,一個可提示和互動的模型,能夠在一張圖像中同時進行全域的所有區段分割。它提出了一種新的解碼機制,能夠針對各種分割任務進行多樣的提示,統一了不同空間查詢和提示方式。 | | 56 | [**LLaVA**](https://arxiv.org/pdf/2304.08485.pdf) (2023) | 2023 | 基於 **LLaMA** 且目前最普遍使用的開源 VLM 模型 | GPT-assisted Visual Instruction Data Generation、Visual Instruction Tuning、LLaVA-Bench、Limitations | 通過使用 **GPT-4 輔助生成**多模態語言-圖像指示數據,引入了 LLaVA,這是一個端對端訓練的大型多模態模型,將視覺編碼器和 LLM 連接起來,用於通用的視覺和語言理解。 | | 57 | [**MiniGPT-4**](https://arxiv.org/pdf/2304.10592.pdf) (2023) | 2023 | 輸入影像的 **ViT** 和文字的 **Vicuna** 鎖住,只 tune 中間的 **MLP** | first pretraining stage、Initial aligned image-text generation、Data post-processing | 提出了 MiniGPT-4,它將一個**凍結的視覺編碼器**與一個**凍結的先進 LLM (Vicuna)** 通過單個**投影層**對齊,展示了先進的多模態生成能力。 | | 58 | [**Visual ChatGPT**](https://arxiv.org/pdf/2303.04671.pdf) (2023) | 2023 | ChatGPT 雖然不會看圖片,但加一個視覺模型 **prompt** 就可以 | Prompt Managing of System Principles、Foundation Models、User Querie、Foundation Model Outputs | 建立了一個名為「Visual ChatGPT」的系統,結合不同的視覺基礎模型,設計了一系列提示,將視覺模型的訊息注入 ChatGPT,使 ChatGPT 能夠處理和生成圖像,並提供複雜的視覺問題或編輯指令。 | | 59 | [**InstructBLIP**](https://arxiv.org/pdf/2305.06500.pdf) (2023) | 2023 | 在 BLIP 上面加上 **instruction tuning** (指令調整) | Training and Evaluation Protocols、Instruction-aware Visual Feature Extraction、Balancing、Inference、Architecture | 基於預訓練的 BLIP-2 模型,進行了系統和全面的**視覺與語言指令調整**。它引入了一個**指令感知的 Query Transformer**,其可提取適合給定指令的訊息特徵。 | | 60 | [**VisionLLM**](https://arxiv.org/pdf/2305.11175.pdf) (2023) | 2023 | 以 **LLM 為中心**,引入 image tokenizer 來解決各種不同的任務 | Architecture、Unified Language Instruction、Language-Guided Image Tokenizer、Open-Ended Task Decoder | 提出 VisionLLM,將圖像視為一種**外語**,通過將以視覺為中心的任務與可以使用**語言指令**進行靈活定義和管理的語言任務對齊,基於 LLM 的解碼器可以針對**開放性任務**進行適當的預測。 | | 61 | [**Improved LLaVA**](https://arxiv.org/pdf/2310.03744.pdf) (2023) | 2023 | LLaVA 的改良版,用了**更大的 CLIP** 和**更多的數據** | Response formatting prompts、MLP vision-language connector、Academic task oriented data、Additional scaling | 通過對 LLaVA 進行簡單修改,即使用 **CLIP-ViT-L-336px** 搭配 **MLP 投影**,以及添加以**學術任務為導向的 VQA 數據**和簡單的回答格式提示,建立了更強的基準線。 | | 62 | [**PaLI-3**](https://arxiv.org/pdf/2310.09199.pdf) (2023) | 2023 | 把 CLIP 換成 **SigLIP** 用在 PaLI 上,表現得更好 | Visual component、Full PaLI model、Unimodal pretraining、Multimodal training、Resolution increase | 介紹了 PaLI-3,一種更小、更快、更強大的 VLM,它比較了使用分類目標預訓練的模型和對比式 **SigLIP** 預訓練模型,發現 SigLIP 在各種多模態基準測試中表現優越。 | | 63 | [**MiniGPT v2**](https://arxiv.org/pdf/2310.09478.pdf) (2023) | 2023 | MiniGPT 改良版,基礎架構換成 **LLaMA 2** | Visual backbone、Linear projection layer、Large language model、Multi-task Instruction Template & Training | 提出了 MiniGPT-v2,致力於建立一個能夠應對多種視覺與語言任務的統一介面。它提出在訓練模型時為不同任務使用**獨特的識別符號 (identifiers)**,以更好地辨識每個任務指令。 | | 64 | [**CogVLM**](https://arxiv.org/pdf/2311.03079.pdf) (2023) | 2023 | 在 Transformer 裡面多加一個針對視覺的 **QKV 矩陣 expert** | ViT encoder、MLP adapter、Pretrained large language model、Visual expert module | 提出了 CogVLM,通過在注意力和 FFN 層中加入**可訓練的視覺專家模組 (Visual Expert)**,將凍結的預訓練語言模型和圖像編碼器之間的差距,實現視覺語言特徵的**深度融合**。 | | 65 | [**VCD**](https://arxiv.org/pdf/2311.16922.pdf) (2023) | 2023 | 在視覺輸入加入雜訊,讓 VLM 做**自監督學習** | Decoding of Vision-Language Models、Visual Uncertainty Amplifies Hallucinations、Visual Contrastive Decoding | 引入了**視覺對比解碼 (Visual Contrastive Decoding, VCD)**,這是一種無需額外訓練的方法,它通過對比從原始和扭曲的視覺輸入中獲得的輸出分佈,以**緩解物件幻覺 (Object Hallucinations)** 問題。 | | 66 | [**CogAgent**](https://arxiv.org/pdf/2312.08914.pdf) (2023) | 2023 | 把 CogVLM 當作 **agent**,來瀏覽網路和手機螢幕 (GUI) | Architecture、High-Resolution Cross-Module、Pre-training、Multi-task Fine-tuning and Alignment | 是一個專門用於理解和導航**圖形使用者介面(GUI)**的 VLM,它利用低解析度和高解析度圖像編碼器,支持高解析度輸入(1120 x 1120),能夠識別微小的頁面元素和文字。 | *** ### 觀點洞察與發展趨勢 綜觀這些 VLM 模型: 1. **模態交互的演變:** 發展從早期的多模態嵌入對齊(如 VSE),迅速演進到利用 **Transformer** 進行深度融合(如 ViLBERT、LXMERT)。隨後,**CLIP** 證明了大規模數據下,僅透過簡單的雙編碼器和對比學習就能實現強大的零樣本能力。 2. **架構效率的提升:** 為了提高效率和可擴展性,模型開始簡化視覺輸入處理,例如 **ViLT** 採用無卷積方法,而 **BLIP-2**、**MiniGPT-4** 則通過**凍結**大型預訓練組件和訓練輕量級連接器(如 Query Transformer 或 MLP),實現了參數效率。 3. **任務統一與生成式學習:** 許多模型致力於將多種任務(理解、檢索、生成)統一到一個框架中,例如 **OFA** 將所有任務視為序列到序列 (seq2seq) 學習,**CoCa** 則整合了對比與標題生成兩種損失。 4. **指令與通用性:** 2023 年,**視覺指令調整 (Visual Instruction Tuning)** 成為關鍵(如 LLaVA、InstructBLIP),目的是賦予 VLM 遵循自然語言指令的通用能力。**VisionLLM** 甚至將圖像視為一種「外語」,以 LLM 為中心解碼器,解決開放性視覺任務。 VLM 的發展趨勢是從「如何將視覺和語言結合」,轉向「如何高效且通用地利用大型語言模型的能力來處理視覺信息」。這使得 VLM 不再是單純的視覺任務解決方案,而是具備多模態、通用推理能力的基礎模型。

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password
    or
    Sign in via Google Sign in via Facebook Sign in via X(Twitter) Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    By signing in, you agree to our terms of service.

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully