Cosmos 世界基礎模型平台:物理 AI https://notebooklm.google.com/notebook/cc80fbdc-6c8b-4ca8-97c3-e714366df1a3/audio [Cosmos World Foundation Model Platform for Physical AI](https://arxiv.org/pdf/2501.03575) 1. 概述 Cosmos World Foundation Model Platform 是一個用於物理 AI 的基礎模型平台,旨在捕捉現實世界的物理知識和自然行為。該平台包含兩個主要組成部分: Cosmos Tokenizer: 一個輕量級且計算效率高的編碼器-解碼器架構,用於將原始圖像和視頻轉換為連續或離散的標記,以便進行有效的表示和處理。 世界基礎模型 (WFMs): 經過預訓練的通用模型,利用標記器捕捉的視覺信息來學習和預測物理世界的行為。WFMs 採用兩種可擴展的深度學習範式構建:擴散模型和自迴歸模型。 該平台強調時間因果機制,確保模型在處理視頻數據時只考慮當前和過去的幀,這對於物理 AI 應用中的時間因果設置至關重要。 2. Cosmos Tokenizer (第 3.2.1 節,第 4 節,圖 7, 8, 9,表 5, 6, 7, 8, 9) Cosmos Tokenizer 的核心功能是將任意長度的原始視頻分割成沒有鏡頭變化的片段。這個過程涉及以下步驟: 鏡頭檢測分割: 將原始視頻分割成鏡頭片段,並生成每個鏡頭的開始和結束幀索引。 時長短於 2 秒的片段會被丟棄,因為它們可能屬於鏡頭轉換或視覺效果。 時長長於 60 秒的片段會被進一步分割,以確保最大長度為 60 秒。 隨後的過濾步驟將確定這些片段是否包含對學習世界物理學有用的信息。 架構: Cosmos Tokenizer 採用編碼器-解碼器架構。 編碼器 (ℰ): 將輸入視頻轉換為空間和時間上都經過壓縮的標記視頻。 解碼器 (𝒟): 從這些標記重建輸入視頻。數學表示為:$\hat{x}{0:T} = \mathcal{D} (\mathcal{E} (x{0:T}))$。 採用時間因果設計,確保每一階段只處理當前和過去的幀,獨立於未來幀。 與常見方法不同,該標記器在小波空間中運行,利用小波變換對輸入視頻進行分組處理,以消除像素信息中的冗餘並聚焦於更語義化的壓縮。 編碼器階段使用一系列殘差塊和下採樣塊,並採用時空分解 3D 卷積來捕捉空間和時間動態。 利用因果時空分解自注意力機制來捕捉長距離依賴。 使用 Layer Normalization (LayerNorm) 而非 Group Normalization,以防止潛在空間或重建輸出中出現大幅值。 解碼器結構與編碼器類似,將下採樣塊替換為上採樣塊。 標記類型:連續標記器: 使用自動編碼器 (AE) 模型化潛在空間。潛在維度為 16。 離散標記器: 採用 Finite-Scalar-Quantization (FSQ) 作為潛在空間量化器。潛在維度為 6,對應 (8, 8, 8, 5, 5, 5) 的 FSQ 層級。這種配置產生了 64,000 的詞彙量大小。 訓練策略: 採用圖像和視頻 mini-batches 交替的聯合訓練策略。只監督標記器解碼器的最終輸出,不使用潛在空間的輔助損失。 壓縮率: 圖像標記器 (CI 和 DI) 以 8×8 和 16×16 兩種壓縮率訓練。視頻標記器 (CV 和 DV) 以 4×8×8, 8×8×8, 和 8×16×16 三種壓縮率訓練 (表示為 T×H×W)。 變體:Cosmos-0.1-Tokenizer: 使用較小的視頻幀數量 (CV 為 49 幀,DV 為 17 幀) 的 mini-batches 訓練。 Cosmos-Tokenize1: 使用較大的視頻幀數量 (CV 為 121 幀,DV 為 49 幀) 的 mini-batches 訓練。 性能: Cosmos Tokenizer 在 DAVIS 和 TokenBench 數據集上顯示出良好的重建品質(以 PSNR 和 SSIM 衡量)和視圖合成品質 (以 rFVD 衡量),與其他標記器相比,尤其是在更高的壓縮率下。在 runtime 性能方面,Cosmos Tokenizer 比現有技術快 2 倍到 12 倍,同時模型尺寸最小。 3. 世界基礎模型 (WFMs) (第 5 節,表 19, 20) 預訓練的 WFMs 是能夠捕捉現實世界物理和自然行為的通用模型。該平台採用兩種可擴展的深度學習範式來構建兩大家族的 WFMs: 擴散模型: 將困難的生成問題分解為一系列更容易的去噪問題。 自迴歸模型: 將困難的生成問題分解為一系列下一標記預測問題。自迴歸模型使用 Cosmos-Tokenize1-DV8×16×16-720p 作為標記器。 WFMs 在包含 10,000 個 NVIDIA H100 GPU 的集群上訓練了三個月。 訓練細節:使用不確定性加權方法,將不同噪聲水平上的優化視為一種多任務學習形式,以解決訓練過程中噪聲水平平衡惡化的問題。 利用網絡中的交叉注意力層來整合文本信息,使用 T5-XXL 嵌入作為鍵和值。 在訓練早期階段,對查詢和鍵進行查詢-鍵歸一化,以解決注意力 logits 增長不穩定導致的注意力熵崩潰問題。使用 Root Mean Square Normalization (RMSNorm)。 記憶體效率: 針對 NVIDIA H100 GPU 的 80GB HBM3 限制,採用 Fully Sharded Data Parallelism (FSDP) 和 Context Parallelism (CP) 將記憶體需求分佈到多個 GPU 上。FSDP 通過在設備之間分片模型參數、梯度和優化器狀態來提高記憶體效率。CP 減少了激活記憶體。 評估:3D 一致性: 使用 Sampson 誤差和新視圖合成來評估生成的視頻與真實 3D 世界的一致性。 Sampson 誤差: 衡量對應點到對應極線的距離的第一階近似。使用 SuperPoint 和 LightGlue 檢測和匹配關鍵點對應關係,並使用 OpenCV 的 8-點 RANSAC 算法估計 Fundamental matrix (F)。 新視圖合成: 留出每 8 幀作為測試幀,並使用其餘訓練幀擬合 3D Gaussian splatting 模型,然後使用 PSNR、SSIM 和 LPIPS 指標量化合成測試視圖的品質。 物理對齊: 使用合成數據評估模型預測物理場景的能力。 數據集: 使用 PhysX 和 Isaac Sim 生成了八個 3D 場景,旨在評估不同的物理效應(自由落體、斜坡、U 形斜坡、穩定/不穩定堆疊、多米諾骨牌、蹺蹺板、陀螺儀)。 評估: 通過將模擬的 ground-truth 視頻與 WFM 直接生成的輸出進行比較來評估對物理定律的遵循程度。在 ground truth 視頻的前幾幀(1 或 9 幀)上調節 WFMs。在適用時,還在描述過去觀察中模擬對象運動狀態的文本提示上進行調節。 指標: 使用像素級 (PSNR, SSIM)、特徵級 (DreamSim) 和對象級 (Avg. IoU) 指標來量化預測與 ground truth 之間的準確性。 4. 應用與未來工作 訓練好的世界模型可以應用於各種領域,包括: 驗證 基於規劃的模型預測控制 基於模型的強化學習 計算機遊戲 現實世界機器人 自動駕駛 該平台特別強調了在自動駕駛領域的潛在應用,並提到了 Real Driving Scene (RDS) 數據集,該數據集包含約 360 萬個 20 秒的環視視頻片段,並包含多種數據屬性標籤(車輛密度、天氣、光照、自車速度和行為、道路類型/人口密度)。 5. 主要貢獻 開發了一種高效的視覺標記器 (Cosmos Tokenizer),能夠處理圖像和視頻,並在壓縮率和重建品質之間實現出色的權衡。 構建了兩大家族的預訓練世界基礎模型 (WFMs),利用擴散模型和自迴歸模型捕捉物理世界知識。 在大規模計算基礎設施上(10,000 個 NVIDIA H100 GPU)進行了 extensive 訓練,展示了平台的可擴展性。 評估了模型的 3D 一致性和物理對齊能力,展示了其在模擬和預測物理場景方面的潛力。 強調了時間因果機制對於物理 AI 應用的重要性。 總結: Cosmos World Foundation Model Platform 為物理 AI 的發展提供了一個全面的框架,結合了高效的視覺標記化和強大的世界基礎模型。通過利用先進的深度學習技術、大規模訓練和對物理原理的重點關注,該平台旨在推動具備對現實世界理解和預測能力的 AI 系統的發展,尤其是在自動駕駛和機器人等領域。