本系列筆記筆記基於2023.07 CVPR研討會Recent Advances in Vision Foundation Models 視覺基礎模型回顧的論文,與研討會5場演講(附上投影片與影片連結),更新近期視覺與多模態模型的發展趨勢與前沿技術
主題 | 資源 | 演講者 | 個人筆記連節 |
---|---|---|---|
Opening Remarks & Visual and Vision-Language Pre-training CH2 Visual Understanding |
Slides, YouTube | Zhe Gan | 筆記連結 |
From Representation to Interface: The Evolution of Foundation for Vision Understanding CH2 Visual Understanding |
Slides, YouTube | Jianwei Yang | 筆記連結 |
Alignments in Text-to-Image Generation CH3 Visual Generation |
Slides, YouTube | Zhengyuan Yang | 筆記連結 |
Large Multimodal Models | Slides, Notes, YouTube | Chunyuan Li | |
Multimodal Agents: Chaining Multimodal Experts with LLMs | Slides, YouTube | Linjie Li |
圖1.1 表展示了語言和視覺/多模態基礎模型發展的軌跡。它分為四個類別:
- 任務特定模型(Task-Specific Models):這些是為特定應用(如情感分析或翻譯)設計的模型。對於語言,如情感分析和翻譯;對於視覺和多模態,如分類、檢索和風格轉換。
- 預訓練模型(Pre-trained Models):這些模型在大量數據上進行預訓練,以學習通用的表徵,然後可以用於各種任務。語言模型包括BERT和GPT-2,而視覺和多模態模型則包括MoCo、CLIP和DALL-E。
- 具有新興能力的統一模型(Unified Models with Emerging Capabilities):這些模型將預訓練模型的概念推進到更進一步,不僅能夠處理多種任務,還展示了新興的能力,如在上下文中學習(in-context learning)和思維鏈(chain-of-thought)。在這一類中,語言模型有GPT-3和LLaMA,而視覺和多模態模型則有Flamingo和Palm-E。
- 通用助手(General-purpose Assistants):這些是高度靈活的模型,可以進行指令跟隨、互動等更高級的任務。語言領域的代表有ChatGPT和GPT-4。
這個發展軌跡顯示從任務特定模型到通用助手的演進過程,其中包括了從專門為特定目的訓練的模型到能夠進行多種任務的統一模型的轉變。這一過程對於語言和視覺/多模態領域都是相似的,但仍需要更多的研究來確定最佳的模型配方。圖中的問號表示多模態基礎模型的未來發展仍不確定,例如多模態GPT-4和Gemini是否會變得公開
圖 1.2 展示了多模態基礎模型在這篇論文中旨在解決的三個代表性問題:視覺理解任務、視覺生成任務,以及具備語言理解和生成能力的通用界面。
這三個問題是:
如何學習視覺表徵(Q1: how to learn visual representations?):這是關於如何教導AI系統從視覺數據中提取關鍵信息,這些信息能幫助AI理解所觀察到的內容,就像人類如何從眼睛接收的圖像中識別物體、場景和動作一樣。
如何進行視覺生成(Q2: how to do visual generation?):這涉及到如何使AI能夠創建視覺內容,例如圖片或視頻,這可能基於文字描述(如GPT-3和其他類似模型所展示的能力)或其他視覺提示。
如何統一視覺模型與靈活、可升級的界面而無需LLM(Q3: how to unify vision models with flexible, promotable interfaces, without LLM?)**:這個問題探討如何整合視覺模型來進行多種任務,而不僅僅依賴於大型語言模型。
- 如何訓練多模態LLM(Q4: how to train multimodal LLM?):這關注於如何開發並訓練能夠理解和生成多種類型數據(如圖像和文字)的大型語言模型。
- 如何將多模態專家與LLM鏈接(Q5: how to chain multimodal experts with LLM?):這是關於如何將專門處理視覺或語言任務的AI系統與LLM結合起來,以創造一個能夠處理更複雜多模態任務的通用AI助手。
在圖中,我們看到「視覺編碼器」(Visual Encoder)是負責消化和理解視覺數據的部分,而「視覺生成器」(Visual Generator)則是負責創建視覺輸出的部分。這兩部分通過「LLM for language understanding and generation」這個模塊聯繫起來,這意味著LLM不僅處理語言任務,還要能理解和生成與視覺相關的任務,從而達成一個通用的目的。
多模態基礎模型(Multimodal Foundation Models)是一種結合了視覺和語言處理能力的先進AI模型,它們在近年來成為人工智能領域的一個重要趨勢。這類模型的發展可以分為四個階段:任務特定模型、預訓練模型、具有新興能力的統一模型和通用助手。
在語言領域,這一進程表現為從BERT、GPT-2這樣的預訓練模型,到GPT-3和LLaMA這樣能夠統合不同語言任務的模型,再到如ChatGPT和GPT-4這樣的通用助手。這些模型不僅跟隨指令,還能進行交互式學習。
在視覺和多模態領域,這個發展軌跡也相似。早期的模型專注於特定的視覺任務如分類、檢索和風格轉換,例如MoCo、CLIP、DALL-E和Flamingo等。隨著技術進步,我們正在見證多模態基礎模型的轉變,從特定目的的預訓練模型到統一模型,最終發展為通用助手。然而,這一領域仍在探索階段,尚需研究以確定最佳的發展策略。
本文將多模態基礎模型的範圍限定在視覺和視覺語言領域。近期相關的綜述論文涵蓋了圖像理解模型、圖像生成模型和視覺語言預訓練(Vision-Language Pre-training, VLP)。現有的VLP綜述文獻主要涵蓋了預訓練時代之前特定視覺語言問題的VLP方法,以及核心視覺任務和/或視頻-文字任務。此外,還有研究探討如何將視覺模型與大型語言模型(LLMs)整合。
視覺理解模型 (Visual Understanding Models):
視覺生成模型 (Visual Generation Models):
這類模型專注於根據大規模的圖像-文字數據來創建基礎的圖像生成模型。技術上包括了向量量化的變分自編碼器(vector-quantized VAE)方法、基於擴散的(diffusion-based)模型和自回歸(auto-regressive)模型。這些技術使得模型能夠基於文字描述生成高保真度的圖像和視頻,從而開啟了新的視覺內容創造方式
通用目的接口 (General-purpose Interface):
這些多模態基礎模型原本設計來解決特定的計算機視覺(CV)問題或任務。最近,我們看到了以AI代理為基礎的通用模型L
Figure 1.3提供了論文 "Multimodal Foundation Models" 結構的概覽,詳細介紹了第2到第6章的內容。這裡將圖中的各部分進行了分類,並提供了相應的標題和部分代表性模型或概念的參考。
多模態基礎模型 (Multimodal Foundation Models):
這是整個結構的核心,包含了專門針對特定目的預訓練的模型、視覺理解和視覺生成,以及通往更一般通用助手的過渡。
- 特定目的預訓練模型 (Specific-Purpose Pre-trained Models):
分為「視覺理解」和「視覺生成」兩大塊- 通用助手 (General-Purpose Assistants):
這裡著重在大型多模態模型和其與LLM結合的訓練,以及多模態代理與LLM的工具鏈接
在此節中,我們首先回顧了語言模型和自然語言處理(NLP)在過去幾年的演進。在2018年之前,不同的NLP任務會使用到特定的任務專用模型,如翻譯、語義解析、摘要等。隨著變換器架構(Transformer architecture)的出現,不同NLP任務的語言模型得以統一,例如以解碼器為中心的架構,比如GPT模型。之後,GPT模型通過下一個詞預測任務進行學習,進一步微調以遵循人類指令,從而產生了ChatGPT 1,這徹底改變了我們對AI系統能做什麼的期望。這樣的演進促使我們思考是否可以以類似方式建立通用目的的視覺系統。
這一章節深入探討了大型多模態模型,重點關注於圖像到文字生成模型的基本原理以及這些模型在不同案例研究中的代表性實例。此外,還討論了當前最先進的OpenAI多模態GPT-4模型並識別出該領域存在的研究差距。為了更好地理解大型語言模型中指令調整(instruction tuning)的過程,本節探討了其重要性以及它在自我指令和開源語言模型中的角色。接下來,本章節探討了經過指令調整的大型多模態模型,闡述了它們的基本原理、重要性以及應用。此外,第5.4節討論了多模態模型的進階主題,以提供對這一領域更深入的理解。最後,本章評估了該領域當前的進展,並探討了我們與實現OpenAI多模態GPT-4這一重要里程碑的距離
目前的大型多模態模型(LMMs)主要是圖像到文字的生成模型,它接收圖像作為輸入並輸出文字序列。所有這些模型變體共享非常類似的模型架構和訓練目標。
本節介紹了穩定擴散模型(Stable Diffusion, SD)的案例研究,這是一個廣泛使用的開源圖像到圖像(Text-to-Image, T2I)模型。SD利用一種基於擴散的圖像生成方法,透過多次迭代的去噪過程逐漸將隨機噪聲細化成有意義的圖像,並結合了文字輸入。
SD模型包含三個主要部分:一個圖像變分自編碼器(VAE)、一個去噪U-Net,以及一個條件編碼器。VAE將RGB圖像編碼成一個連續的潛在隨機變量,再將這個潛在變量解碼回圖像。去噪U-Net是圖像生成過程的核心,預測每個去噪時間步中要減去的噪聲,從而逐步將初始隨機噪聲演變成有意義的圖像潛在變量。條件編碼器則是使用CLIP文字編碼器來編碼輸入的文字條件。
此外,本節還討論了區域控制的T2I生成,即如何通過增加文字詞彙的空間坐標標記來控制特定區域的內容。ReCo模型是一個代表性的工作,它通過擴展文字編碼器的詞彙並排列不同的標記來表示基於地面的文字輸入。這種方法允許用戶更輕鬆地指定所需的圖像,例如在特定位置精確地描述一個區域。GLIGEN則是另一項代表性的工作,它採用插入式方法:凍結原始T2I模型並訓練額外的閘控自注意力層來學習新的定位技能。
控制網(ControlNet)則是將密集的空間條件(如邊緣圖、深度圖等)納入T2I模型的一個顯著例子,它在穩定擴散模型的基礎上增加了一個可訓練的ControlNet分支,為文字提示增加了額外的輸入條件。這些技術的進一步研究進行了改進,以便單一模型能夠理解多種輸入條件類型,甚至可以結合兩種條件。
總結與趨勢方面,與早期研究相比,現在的趨勢是將空間條件與文字條件整合在一起。T2I模型可能會有一個微調階段,允許它們理解圖像和文字輸入。在這種情況下,盒子坐標可以通過文字融入,而密集控制可以作為圖像輸入提供。
指令調整是在大型語言模型(LLM)中的一個關鍵過程。這包括了使用ViT-L/14 CLIP文字編碼器將輸入的文字查詢轉化為文字特徵。例如,穩定擴散(Stable Diffusion)模型在每個去噪時間步長t中預測要減去的噪聲,逐步將初始隨機噪聲演變為有意義的圖像潛在特徵
在大型語言模型的訓練過程中,區域控制的文字到圖像(T2I)生成是一個逐漸增強的趨勢。這樣的模型可以產生高解析度的圖像,但缺乏空間控制能力,例如使用自由形式的文字描述精確指定一個特定區域的內容。為了解決這個限制,研究人員探索了對區域控制T2I生成的研究,例如ReCo模型,它通過擴展文字編碼器的文字詞彙和排列不同的標記來代表定位的文字輸入,以便細化圖像生成過程。GLIGEN模型則採用了凍結原始T2I模型並訓練額外的自我注意力層以學習新的地面技巧,這些技巧在預訓練的T2I模型中加入了新的真實文字輸入
本節介紹如何以開源資源建立多模態GPT-4的最小原型。特別使用LLaVA (Liu et al., 2023c) 作為例子,此概念亦在MiniGPT-4 (Zhu et al., 2023a) 的同時提出。近年來,多模態領域的研究常受NLP最新進展啟發,一成功的策略是探索將NLP的創新想法應用於視覺語言社群。但多模態研究中的獨特挑戰是缺乏公開的多模態導師。因此,研究問題成為:如何使用語言模型如GPT-4創建多模態指令跟隨數據。
本節概述了最近的指令調整LMM歷史,強調了自GPT-4推出後三個月內的迅速研究進展。提出了多種模型,如Alpaca、Vicuna、MiniGPT-4和LLaVA,這些模型將語言模型擴展到視覺領域。討論了
進入新模型範式,從獨立解決特定問題的模型轉變為將多種工具或專家與LLM結合起來,解決更複雜的開放性問題。這種系統可以不透過訓練,僅透過示範範例(指令調節)教導LLM產生對現有工具的正確調用。這一節突顯了與傳統方法相比,新範式即以LLM鏈接工具(chaining tools with LLM ) 的不同之處
Figure 6.1: Evolution of modeling paradigm.
多模態代理是結合視覺專家工具使用的代表性作品,如VISPROG和Visual ChatGPT。這些代理能夠實現基於程式語言的工具鏈接,並使對話型圖像編輯成為可能。MM-REACT 通過結合各種先進的視覺專家,展示了ChatGPT在執行複雜多模態動作和推理方面的能力。此節提供了多模態代理框架的概覽,以及它們如何與用戶交互、規劃和執行以達成用戶的目標
Figure 6.2: The surge of multimodal agents from November 18, 2022 to July 26th, 2023.
Table 6.1: Glossary of representative works on chaining tools with LLMs.
MM-REACT設計了一個系統範式,將眾多多模態工具與ChatGPT組合起來,以支持包括文字、圖像和視頻在內的多模態輸入和輸出。這種系統設計允許將核心LLM升級到更新、更強大的模型,並且無需重新訓練。同時,這種架構允許通過插拔機制添加更多工具,從而無需訓練即可擴展系統
MM-REACT 展示了包括視覺數學、文字推理、視覺條件化笑話/迷因理解、空間/坐標理解、視覺規劃和預測、多圖像推理、多跳文檔理解、開放世界概念理解以及視頻分析和摘要等在內的多模態推理和行動能力
多模態代理的一個優勢是系統可從兩個方面輕鬆擴展和增強:一是升級系統核心LLM,二是擴展外部工具的數量。例如,HuggingGPT利用了huggingface上托管的所有開源模型,而Chameleon不僅整合了huggingface模型,還包
括GitHub上的開源模型、Bing搜索API和Python編譯器,顯示了通過添加更多工具來擴展現有多模態代理的潛力
本節關注於空間可控制的圖像生成(T2I)模型,這些模型能結合文字和空間條件來指導圖像生成過程。最新的研究趨勢是將空間條件與文字條件整合,例如 ReCo 透過擴大文字詞彙與位置標記合併空間坐標控制到文字輸入中,而從 ControlNet 延伸的研究則整合了「圖像式」條件到T2I框架中,從而捕獲廣泛的密集條件。這指出了未來T2I模型可能包含一個微調階段,以理解圖像和文字輸入
多模態代理的改進包括使用不需要額外模型訓練的推論時間空間引導(inference-time spatial guidance),這能夠在不進行額外訓練的情況下實現T2I生成的空間控制。例如,使用物件偵測損失來引導生成過程,但這可能不會產生如微調方法般精確的結果
多模態代理的應用正在進一步擴展,涵蓋了從生成人類舞蹈影片的 ControlNet 到能夠處理各種空間條件的 Uni-ControlNet 和 UniControl。這些研究展示了通過統一輸入條件,單一模型能夠理解多種輸入條件類型,或甚至處理兩種條件的組合
評估多模態代理的效能時,應考慮其在不同條件下生成圖像的能力,如使用 ReCo 和 ControlNet 所提供的空間控制能力,以及未來可能的微調階段,這將允許T2I模型理解圖像和文字輸入 。
當現有工具無法滿足新情境需求時,CREATOR 提出即時編寫Python代碼創建數學推理工具,而非依賴API如Wolfram Alpha。Cai等(2023)展示了LLMs作為工具製造者和使用者共同解決問題的能力。在多模態領域,挑戰是創建能處理多模態輸入的工具,例如指導LLMs利用現有Python包生成程式。AutoML GPT 展望利用LLMs自動化模型訓練流程,展示了為特定用戶需求定製多模態深度學習工具的潛力。
在實際應用中,許多信息儲存在數據庫裡,檢索增強模型可以從外部記憶體中提取相關文檔以回應輸入文字。這些模型利用視覺和/或文字知識提升如圖像分類、標題生成和問答等任務的表現。例如,RAC 通過檢索改善長尾分類,而K-LITE 和 REACT 強化文字提示與圖文任務轉移表現。特別的是,RA-CM3 為首個構建的檢索增強LLM,能檢索多模態文檔並生成文字和圖像。這些方法顯示了結合外部知識以增強核心模型功能的強大聯繫,並為多模態代理提供了廣闊的應用前景。在多模態體系中,圖像本身可以作為獲取外部知識的查詢,無論是從知識庫中檢索,還是從其他預訓練的視覺專家模型中提取
在空間控制生成的早期研究中,像是layout-to-image和mask-to-image生成通常與T2I(Text-to-Image)生成並行處理。然而,隨著先進的大規模T2I模型的出現,最近的研究開始傾向於將空間條件與文字條件結合起來。我們識別出兩個主要趨勢:首先,如ReCo那樣的區域可控T2I生成通過擴大文字詞彙與位置代幣合併空間座標控制到文字輸入中。其次,從ControlNet延伸的研究將一個額外的「圖像式」條件整合到T2I框架中,從而捕獲廣泛的密集條件。未來的T2I模型可能會有一個微調階段,允許它們理解圖像和文字輸入
我們預見,未來的T2I模型將有一個統一的對齊調整階段,這將使一個預訓練的T2I模型轉變為一個更能與人類意圖共鳴的模型。這樣的模型將能夠無縫處理文字和圖像輸入,產生預期的視覺內容,而不需要多個針對不同對齊挑戰量身定制的模型。與LLM開發中建立的人類對齊調整實踐相比,我們預計這部分的技術將合併到一個全面的第二階段調整中,用於生成基礎模型開發。這個對齊調整階段的兩個主要目的是,首先它擴展了T2I的文字輸入以包含交錯的圖像-文字輸入;其次,它通過使用數據損失和旨在與人類期望對齊的獎勵,對基礎T2I模型進行微調
New Paradigm:
Sandalone models on finite scenarios =>
Chaining tools for open problems
Multimodal Agents
從畫面做出駕駛判斷
這篇科普文章會比較好入門些,建議先從這篇看起,這裡有簡體中文翻譯。
簡體中文翻譯多模态和多模态大模型 (LMM)[译]
大綱
- Part 1. Understanding Multimodal
- Part 2. Fundamentals of Multimodal Training
- CLIP: Contrastive Language-Image Pre-training
- Flamingo: the dawns of LMMs
- Part 3. Research Directions for LMMs
- Multimodal systems for instruction-following
Representation
第一个基本挑战是学习如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异质性使得构建这样的表示具有挑战性。例如,语言通常是象征性的,而音频和视觉形式将被表示为信号。
单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表征是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Joint Representation
- 联合表征(Joint Representation)将多个模态的信息一起映射到一个统一的多模态向量空间,Joint结构注重捕捉多模态的互补性,融合多个输入模态
获得多模态表征 ,进而使 完成某种预测任务
來自不同模態的數據被融合到一個共享的表示空間,即在同一個模型中處理所有模態,並通過如Cross-Attention這樣的機制來直接對齊和整合特徵。這種方法嘗試捕捉模態之間的交互和互補訊息Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Coordinated Representation
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
每個模態獨立產生自己的表示,然後這些表示被協調以進行後續的任務,如匹配、排序或其他形式的比對。這通常涉及到分別訓練的模型或模型部分,它們通過某種方式(例如距離度量或對比學習)被對齊,CLIP的概念接近於Coordinated Representation。Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Alignment
第三个挑战是从两种或多种不同的模态中识别(子)元素之间的直接关系。例如,我们可能希望将食谱中的步骤与显示正在制作的菜肴的视频对齐。为了应对这一挑战,我们需要测量不同模式之间的相似性并处理可能的长期依赖和歧义。
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Explicit Alignment
- 如果模型的主要目标是对齐来自两个或多个模态的子元素,那么我们将其分类为执行显式对齐。显式对齐的一个重要工作是相似性度量。大多数方法都依赖于度量不同模态的子组件之间的相似性作为基本构建块。
直接找到不同模態元素之間的對應關系。在多模態學習中,這意味著模型會被訓練來識別和對齊來自不同模態的特定特徵或部分。例如,將圖像中的對象與文字描述中的相應詞匯明確匹配。 ControlNet 、可提示(promptable)的多模態模型例如 SAM,通過明確的用戶指令來控制模型輸出,屬於此類。Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Implicit Alignment
- 隐式对齐用作另一个任务的中间(通常是潜在的)步骤。 这允许在许多任务中有更好的表现,包括语音识别、机器翻译、媒体描述和视觉问题回答。这些模型不显式地对齐数据,也不依赖于监督对齐示例,而是学习如何在模型训练期间潜在地对齐数据
模型內部利用不同模態間的潛在關系來解決問題,但不一定直接對應於明確的元素或特徵。這種對齊通常是模型學習過程中自動發生的,不需要外部明確指定每個對齊關係。CLIP概念接近於此類Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Fusion
- 第四个挑战是结合来自两个或多个模态的信息来执行预测。例如,对于视听语音识别,将嘴唇运动的视觉描述与语音信号融合以预测口语。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,并且可能在至少一种模态中丢失数据
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Cross-Attention 是一種常見於多模態轉換器(Transformer)模型中的機制,它允許模型在處理一種模態時明確(Explicit)考慮另一種模態的上下文信息。在此過程中:
這種整合方式稱為 Joint Representations,因為它結合了來自不同模態的信息進入一個統一的表示空間。在這個表示空間中,模型進行 Explicit Alignment,直接對齊和整合來自不同模態的特徵,並且這個過程是有目的和明確的。
在某些多模態應用中,如交互式視覺和語言任務,Cross-Attention 機制可以指定文字提示在圖像中框選或分割特定的區域(這通常稱為視覺問答或圖像分割)。反之亦然,也可以根據指定的圖像區域生成描述性文字。
Cross-Attention的對應關係在Latent space對觀察者不一定顯而易見,但它們是模型內部精確對齊過程的一部分。
ps: 這邊指的是Stable Diffusion中的Cross-Attention