Cosmos World Foundation Model Platform for Physical AI

Cosmos World Foundation Model Platform for Physical AI --- ## 摘要要訓練 Physical AI，首要工作是在數位環境中進行。這需要兩個「數位雙生」：一個是策略模型本身，另一個是對應的「世界模型」。本研究提出 Cosmos 世界基礎模型平台，協助開發者為其 Physical AI 系統打造專屬的世界模型。我們將「世界基礎模型（WFM）」定位為可經微調而生成下游專用世界模型的通用模型。平台內容涵蓋：影片資料整理流程預訓練世界基礎模型世界模型後訓練範例影片 tokenizer 套件為協助 Physical AI 解決社會最關鍵難題，Cosmos 採開源、開權重、寬鬆授權，透過 NVIDIA Cosmos-Predict1 提供。 ## 第 1 章 Physical AI 指配備感測器與致動器的 AI 系統：感測器用於觀察世界，致動器用於互動與改變世界，可將人類從危險、繁重或枯燥的實體工作中解放出來。雖然近十年多數 AI 領域因資料與算力擴張而長足進步，Physical AI 的前進速度卻相對緩慢；原因在於要取得可用訓練資料必須同時包含連續的「觀測—動作」序列，而動作會擾動實體世界並可能造成損害，尤以 AI 尚處探索階段時最為顯著。世界基礎模型（WFM）——一個可安全互動的「實體世界數位雙生」——被視為解決 Physical AI 資料規模瓶頸的關鍵。本論文提出 Cosmos WFM 平台，專注「視覺型世界模型」，亦即以影片做觀測，動作可透過多種形式表現。我們採「先預訓練，再後訓練」架構：預訓練 WFM：利用大規模影片資料，讓模型暴露於多元視覺經驗，成為通才。後訓練 WFM：針對特定 Physical AI 環境之資料集微調，產生專才模型。圖 1 展示預訓練與後訓練 WFM 的生成範例。 ![image](https://hackmd.io/_uploads/rkLQdbPXlg.png) ![image](https://hackmd.io/_uploads/HyGVuZv7eg.png) 資料規模決定模型上限。為打造高上限的預訓練 WFM，我們建立影片資料整理流程：自 2,000 萬小時片源中擷取約 1 億段、長度 2–60 秒的「豐富動態、高畫質」片段。每 256 幀由 VLM 生成字幕說明。 ![image](https://hackmd.io/_uploads/Skawu-wXlg.png) Figure 2 說明預訓練的 WFM 是通才型世界模型，使用大規模且多樣化的影片資料集，涵蓋真實世界物理的多種面向。這些預訓練世界基礎模型可透過後訓練（post-training）專門化，以符合目標 Physical AI 環境。後訓練所需的資料集通常是由目標環境收集而得的「提示（prompt）—影片」配對；提示形式可以是動作指令、行車軌跡、自然語指示等。由於預訓練 WFM 已奠定良好基礎，後訓練所需的資料集規模可以大幅縮小。此「先預訓練、再後訓練」的策略，提供了一條高效率打造 Physical AI 系統的途徑。圖中的虛線代表資料循環流程。影片擴散模型透過逐步去除高斯雜訊來生成影片；自回歸模型則依照預設順序，根據已生成內容逐片段（piece-by-piece）產生影片。兩種方法皆把困難的影片生成問題拆分為較易處理的子問題，使之更可行。我們採用最先進的 Transformer 架構以確保可擴充性。第 5.1 節介紹基於 Transformer 的擴散模型設計，展現強大的世界生成能力；第 5.2 節則說明用於世界生成的 Transformer 自回歸模型設計。無論是 Transformer-擴散模型或 Transformer-自回歸模型，皆以 token 作為影片的表示：前者採連續向量 token，後者採離散整數 token。影片分碼（tokenization）——即將影片轉為 token 序列——極具挑戰：影片蘊含豐富視覺資訊，為降低 WFM 訓練之計算複雜度，必須在盡量保留原始內容的前提下，將影片壓縮為精簡 token 序列。某種程度上，建立影片分碼器類似於設計影片編解碼器。我們於第 4 章提出以注意力機制為核心的編碼器-解碼器架構，分別學習連續與離散 token 的影片分碼。 ## 第２章. 世界基礎模型平台設 $x_{0:t}$ 為從時間 0 到 t 的真實世界視覺觀測序列，$c_t$ 為對世界的擾動。如圖 3 所示，**世界基礎模型 (WFM)** 記為 $\mathcal{W}$，其任務是根據過去觀測 $x_{0:t}$ 與當前擾動 $c_t$，預測未來觀測 $\hat{x}_{t+1}$。在本文中，$x_{0:t}$ 為 RGB 影片，而 $c_t$ 可採多種形式：Physical AI 的動作、隨機擾動、或以文字描述的擾動等。 ![image](https://hackmd.io/_uploads/Sysx9bDXxe.png) > **圖 3**　世界基礎模型 $\mathcal{W}$ 會根據過去觀測 $x_{0:t}$ 與當前擾動 $c_t$，產生下一時刻的世界狀態 $\hat{x}_{t+1}$。 --- ### 2.1　Future Cosmos 我們認為 WFM 對 Physical AI 開發者具有多方面價值，包括（但不限於）： 1. **策略評估** 可在數位環境中測試策略模型，而非直接部署至實體系統，降低成本並加快迭代；亦能在真實世界無法取得的場域中驗證策略效能。 2. **策略初始化** 透過已學得世界動態的 WFM 為策略模型提供良好初始權重，緩解 Physical AI 資料匱乏問題。 3. **策略訓練** 在強化學習架構下，WFM 配合獎勵模型可作為物理環境的代理，讓代理人透過與 WFM 互動獲取經驗。 4. **規劃或模型預測控制 (MPC)** WFM 能模擬不同動作序列導致的未來狀態，藉由成本／回饋函數挑選最佳動作序列，或於滾動時域內持續優化。 5. **合成資料產生** WFM 可生成帶有深度圖、語意圖等渲染中介資訊的合成資料，支援 Sim2Real 應用。 > 本文僅描述可能性，暫未提供 Cosmos WFM 在上述應用的實證結果，後續研究將加以驗證。 --- ### 2.2　Current Cosmos ![image](https://hackmd.io/_uploads/rJYZ9bvQex.png) > **圖 4**　Cosmos WFM 平台主要組成：影片整理器、影片 tokenizer、預訓練 WFM、後訓練範例，以及安全防護機制 (Guardrail)。 Cosmos 平台於本文提供以下元件： 1. **影片整理器 (Video Curator)** * 建立可擴充的影片資料整理流程。 * 每段影片先以場景切割成連續鏡頭，再經多重篩選，挑出高品質且動態豐富的片段。 * 使用視覺語言模型 (VLM) 為每 256 幀產生字幕並執行語意去重，獲得多樣但精簡的資料集。 2. **影片分碼器 (Video Tokenizers)** * 提供多種壓縮率、具因果性的連續／離散分碼器。 * 因果設計使其在僅輸入單張影像時亦可作為影像分碼器，便於結合大型影像資料集；亦更符合 Physical AI 的因果世界。 3. **WFM 預訓練** * **擴散式路徑**：先做 Text-to-World 生成，再做 Video-to-World 生成。 * **自回歸路徑**：先做純影片下一 token 生成，再加入文字條件的 Video-to-World 生成。 * 提供不同容量模型家族，並評估其在下游任務中的表現。 * 另以預訓練擴散 WFM 微調為「擴散解碼器」，強化自回歸模型的生成品質；並利用大型語言模型建構「提示增補器」。 4. **世界模型後訓練 (Post-Training)** * 相機姿態條件 → 可自由導航的虛擬 3D 世界。 * 機器人「影片-動作」序列 → 改進未來狀態預測。 * 自駕多視角任務 → 高解析、高一致性的駕駛模擬器。 5. **安全防護 (Guardrail)** * **pre-Guard** 阻擋危險輸入、**post-Guard** 檢測並過濾危險輸出，確保開發與部署安全。 Cosmos 預訓練 WFM 與分碼器皆以 **NVIDIA Open Model License** 釋出，允許開發者在遵守許可條款下進行研究與商用。儘管本文在 WFM 設計方面已有進展，可靠的世界基礎模型仍非易事，尚需持續研究以推動技術前沿。 ## 第３章資料整理（Data Curation）我們設計了一條影片整理流程，用以產出適合 **Tokenizer** 與 **WFM** 訓練的高品質資料集。流程分為五大步驟（見圖 5）： 1. **切割（Splitting）** 2. **過濾（Filtering）** 3. **標註（Annotation）** 4. **去重（Deduplication）** 5. **分片（Sharding）** 每一步均針對資料品質與模型訓練需求進行最佳化。以下先說明原始資料，再依序描述每個步驟。 --- ### 圖 5　Cosmos 影片整理器流程 ``` Raw Video → 1. Splitting → 2. Filtering → 3. Annotation → 4. Dedup → 5. Sharding ``` * **Splitting**：將長影片切分為場景不變的鏡頭，並轉碼為獨立片段。 * **Filtering**：移除對世界模型學習價值有限的片段。 * 動態過濾（Motion Filtering） * 影像品質過濾（Quality Filtering） * 文字浮水印過濾（Overlay Text Filtering） * 影片型態過濾（Video Type Filtering） * **Annotation**：利用 VLM 生成每段影片描述；並以 GPU 進行硬體加速轉碼。 * **Dedup**：語意去重，確保資料多樣性。 * **Sharding**：依解析度與長寬比將片段分片，方便後續並行訓練。 --- ### 3.1　資料集我們結合專屬資料與公開網際網路影片，以支援多元 **Physical AI** 應用。針對以下九大類別進行蒐集與比例配置： 1. 行車場景（11%） 2. 手部動作與物件操作（16%） 3. 人體動作與活動（10%） 4. 空間感知與導航（16%） 5. 第一人稱視角（8%） 6. 自然動態（20%） 7. 動態相機運動（8%） 8. 合成渲染影片（4%） 9. 其他（7%）多樣化內容有助於提升 WFM 的泛化能力，支持各類下游任務。然而，如此龐大且非結構化的資料同時帶來演算法與基礎建設挑戰： * 影片使用不同編碼格式、解析度、長寬比與長度。 * 部分影片經後製或特效處理，若未妥善處理，將在生成結果中產生不良偽影，影響模型表現。我們累積約 **2,000 萬小時**、解析度介於 720p–4K 的原始影片。由於相當比例內容在語意上冗餘，或不利於學習物理知識，我們透過上述五步驟篩選最有價值的片段。此外，我們亦蒐集靜態影像資料，用於聯合影像-影片訓練；實務證明此舉可提升生成品質並加速收斂。得益於模組化設計，該流程可同時處理影像與影片，並產出 **預訓練** 與 **微調** 所需資料集。最終，我們為預訓練生成約 **1×10⁸** 支影片片段，為微調生成約 **1×10⁷** 支影片片段。 ### 3.2 分割（Splitting）我們的原始影片長度不一，且多數深度學習模型無法直接處理過長的影片。此外，許多影片內含「鏡頭轉換」（shot transition）：同一檔影片可能先呈現紐約廚房裡的對話畫面，隨即跳轉到非洲大草原上獅子追逐斑馬的場景；若不加以切割，模型將學不到合乎物理邏輯的連貫變化，而只會模擬後製剪輯的效果。因此，我們必須依鏡頭變化切分影片，取得在視覺上連貫的片段（clip）。 #### 3.2.1 鏡頭偵測（Shot Detection）分鏡步驟的目標是把任意長度的原始影片，依鏡頭邊界切分為片段，並輸出各片段的起迄畫格索引。 * **小於 2 秒**的片段會被捨棄，因為它們往往剛好落在鏡頭轉場或視覺特效處。 * **超過 60 秒**的片段則再行切割，確保單段最長 60 秒，供後續步驟判定其對物理學習是否有價值。鏡頭邊界偵測屬於經典電腦視覺問題，方法大致以「畫面特徵變化」為核心，但提取特徵的方式各異。我們比較了下列演算法（表 1）： | 方法 | 主要特徵 | | ----------------- | ------------------------------------------ | | **PySceneDetect** | 以 HSV 色彩直方圖變化門檻判斷，為業界常用函式庫；MovieGen 亦採用此法。 | | **Panda70M** | 在 PySceneDetect 基礎上加入 CLIP 向量拼接與過濾邏輯。 | | **TransNetV2** | 端到端神經網路，讀取連續 100 幀，輸出各幀為轉場的機率。 | | **AutoShot** | 同為神經網路方法，輸入與 TransNetV2 類似。 | 為評估不同方法在「高剪輯、強特效」影片上的穩健性，我們自建 **ShotBench²** 基準集，整合 RAI、BBC Planet Earth、ClipShots 與 SHOT 等資料集。結果顯示，端到端學習方法（TransNetV2、AutoShot）明顯優於手工特徵或混合法（PySceneDetect、Panda70M）。TransNetV2 在複雜鏡頭上表現最佳，且可直接透過 GPU 加速，提高分鏡吞吐量，因此被我們採用。 > ²ShotBench 開源網址：[https://github.com/NVlabs/ShotBench](https://github.com/NVlabs/ShotBench) #### 3.2.2 轉碼（Transcoding）原始影片採用多種編碼格式與設定，給資料整理帶來不便。我們將分鏡得到的片段重新編碼為統一的高品質 MP4（`h264_nvenc`），大幅提升後續載入與訓練穩定度。經硬體與軟體配置實測（表 2），在 NVIDIA L40S GPU 上以 **PyNvideoCodec + ffmpeg** 並批次轉碼 16 個片段，吞吐量可達 0.370 影片/秒，相較基線組（H100 + ffmpeg + libx264）約提升 65 倍。 --- ### 3.3 過濾（Filtering）切割後的片段品質參差不齊。過濾步驟目標： 1. 移除未達視覺品質底線的片段。 2. 精選適合微調（fine-tuning）的高品質片段。 3. 依需求調整資料分布，以利 WFM 訓練。我們依序進行 **動態篩選、影像品質篩選、文字浮水印篩選、影片類型篩選**。 #### 3.3.1 動態篩選（Motion Filtering）目的： 1. 剔除靜態或隨機晃動（常見於手持攝影）的片段。 2. 標記鏡頭運動類型（平移、推拉、俯仰等），作為訓練輔助訊息。方法：以光流（optical flow）或編碼器輸出的 motion vector 為輸入，訓練 ViT 架構之輕量分類器。我們比較 H.264 motion vector、Farneback 光流與 TensorRT 加速光流，最終採用精度最高的 TensorRT 光流版本。 #### 3.3.2 影像品質篩選（Visual Quality Filtering） * **失真檢測**：以根據 DOVER 標註影片訓練之品質評估模型，評分並捨棄最低 15%（含雜訊、模糊、曝光失衡等）。 * **外觀美感**：對抽樣畫格使用圖像美學模型，閾值設 35（較寬鬆），避免過度排除。 #### 3.3.3 文字浮水印篩選（Text Overlay Filtering）我們僅想學習場景本身之物理特性，須排除後製疊加文字（如大型字幕、廣告條）之影片。 * 以 **InternVideo2** 特徵餵入 MLP 二元分類器，資料由內部 VLM 自動標註並人工校正，驗證集準確度高。 #### 3.3.4 影片類型篩選（Video Type Filtering）為調整訓練分布並剔除不利動態學習之片段，我們建立涵蓋「內容類型＋視覺風格」的分類體系，並訓練分類器對每段片段標籤。 * 濾除抽象動畫、電玩實況、強特效影片等； * 上採樣與 Physical AI 關聯度高的類別（如人-物互動），下採樣較弱關聯類別（如純風景）。分類器同樣以 InternVideo2 嵌入為輸入，標籤由 VLM 自動產生並人工驗證。 --- 透過上述流程，我們自約 **2,000 萬小時**原始影片中，精煉出約 **1×10⁸** 段高品質片段供預訓練，並額外產製約 **1×10⁷** 段片段用於微調。 ### 3.4　標註（Annotation）在世界模型訓練中，影片通常需搭配文字描述作為監督訊號或條件。我們使用視覺語言模型（VLM）為每段影片片段產生高品質且一致的字幕，並將 VLM 的焦點設定於「影片中的客觀事實與細節」，避免像 Alt text 那樣格式多變、文體不一，降低模型學習負擔。我們評估了多種最新方法（VFC、Qwen2-VL、VILA 等），透過小規模人工評估發現 **VILA** 的描述最為精確。最終採用 13B 參數版本的內部 VILA，並以長上下文視窗（輸入 5,904 token、輸出 256 token）支援多幀輸入。為提升推論效率，我們使用 FP8 量化的 TensorRT-LLM 引擎，較 PyTorch FP16 基線快 10 倍（參見表 3）。 * 提示詞（prompt）：「Elaborate on the visual and narrative elements of the video in detail」。 * 輸入：從片段均勻取 8 幀。 * 產生字幕平均長度：559 字（約 97 個英文單字）。 **表 3　VILA 在單張 H100 GPU 上的推論吞吐比較** | 引擎 | 精度 | 批次 | 片段/s | Token/s | | ------- | ---- | -- | -------- | --------- | | PyTorch | FP16 | 1 | 0.21 | 49.6 | | TRT-LLM | FP16 | 1 | 0.40 | 95.6 | | TRT-LLM | FP16 | 16 | 1.09 | 260.9 | | TRT-LLM | FP8 | 16 | **1.96** | **470.6** | --- ### 3.5　去重（Deduplication）在龐大資料量中，重複或近似重複樣本不可避免；若不去重，將降低資料多樣性並浪費訓練資源。我們採 **SemDeDup** 與 **DataComp** 的可擴充語意去重方法： 1. 重用前述 InternVideo2 特徵，先以 GPU 多節點 k-means（k = 10 000）聚類。 2. 在每一群內計算嵌入兩兩距離；如判定重複，保留解析度最高之影片。 3. 透過分塊計算上三角距離矩陣（256×256 區塊）以節省 GPU 記憶體。最終約移除 **30 %** 訓練資料。此外，利用嵌入與聚類結果，我們建立可自由檢索的視覺搜尋引擎（支援文字與影片查詢），便於偵錯並了解資料與下游任務之落差。 --- ### 3.6　分片（Sharding）為使訓練載入器能直接消化處理後影片，我們將片段打包成 **webdataset**。 * 依解析度、長寬比、時長分片，符合課程式訓練策略。 * 除預訓練資料集外，亦利用更嚴格過濾條件製作微調資料集。 --- ### 3.7　基礎設施（Infrastructure）資料處理基礎架構採 **AnyScale Ray**，實作串流式管線以服務跨地理叢集，緩解兩大挑戰： 1. **同質節點間資源利用率**：並行化各階段，使網路傳輸、NVDEC 解碼、GPU 計算可同時運作。 2. **遠端儲存高延遲**：資料傳輸與運算解耦，記憶體需求隨「管線複雜度」而非「資料量」縮放，支援無界串流。我們將 **Fragmentation Gradient Descent** 演算法擴充為多資源最佳化排程器，動態調整各階段規模，使網路、解碼器與 GPU 加速器維持平衡吞吐。 ## 第４章分碼器（Tokenizer）分碼器是現代大型模型的基礎模組。其作用在於透過「瓶頸化」的潛在空間（latent space）——以無監督方式學得——將原始資料轉換為更為精簡的表示。對視覺資料而言，分碼器會把冗餘的影像或影片壓縮成緊湊且具語意的 token，如此才能有效處理高維度視覺訊號。一旦壓縮完成，不僅可提升大型 Transformer 訓練效率，也能讓推論階段在有限硬體資源上運行。圖 6 示意分碼器訓練流程：編碼器將輸入影片轉換為 token，解碼器再從這些 token 重建原影片；訓練目標在於使 token 儘量保留輸入影片的視覺資訊。分碼器可區分為 **連續（continuous）** 與 **離散（discrete）** 兩種類型（圖 7）。 * 連續分碼器會把視覺資料轉為連續向量潛表示，常見於潛在擴散模型（如 Stable Diffusion、VideoLDM）。 * 離散分碼器則把資料量化成索引（整數 token），適用於以交叉熵訓練的自回歸 Transformer（如 VideoPoet）。分碼器成敗關鍵在於於**高壓縮率**與**高重建品質**之間取得平衡：壓縮率愈高，儲存與計算成本愈低，但過度壓縮會遺失關鍵視覺細節。 --- ### 4.1 Cosmos Tokenizer 我們提出 **Cosmos Tokenizer**，涵蓋影像與影片的連續與離散分碼器，具備： * 輕量架構、計算效率高 * **時間因果性**：採因果時間卷積與因果時間注意力，維持幀序一致，單一模型即可同時處理影像（T = 0）與影片（T > 0） * 直接於高解析影像與長時影片訓練， **不限制** 類別與長寬比（支援 1:1、3:4、4:3、9:16、16:9 等） * 推論時不受訓練長度侷限，可處理更長影片表 4 比較現有視覺分碼器，Cosmos Tokenizer 同時支援因果、影像/影片聯合、連續及離散 token，在功能上最完整。 --- ### 4.2 評估我們在標準影像／影片資料集（MS-COCO 2017、ImageNet-1K、DAVIS）以及自行蒐集、涵蓋魚眼、機器人、行車、人類活動、空間導航等類別的 **TokenBench** 影片集上進行測試。圖 8 呈現壓縮率（橫軸，對數尺度）與重建 PSNR（縱軸）之關係： * **連續分碼器**：Cosmos-Tokenize1（CV 8×8×8-720p 等配置）在相同或更高壓縮率下，比 FLUX、Omni、CogVideoX 等分碼器平均提升 ≥ 4 dB PSNR。 * **離散分碼器**：Cosmos-Tokenize1（DV 8×16×16-720p 等配置）在高壓縮設定亦保持領先，優於 LlamaGen、Open-MAGVIT2、VideoGPT 等方法。效能方面，Cosmos Tokenizer 在單張 NVIDIA A100 80 GB GPU 上可一次性編碼 8 秒 1080p 或 10 秒 720p 影片，速度較同級方案快至 12 倍，且不會耗盡記憶體。 ### 4.1 架構（Architecture） **Cosmos Tokenizer** 採用編碼器—解碼器（encoder-decoder）架構。給定輸入影片 $\mathbf{x}_{0:T} \in \mathbb{R}^{(1+T)\times H \times W \times 3}$，其中 $H$、$W$、$T$ 分別為高度、寬度與影格數，編碼器 $\mathcal{E}$ 會將其轉換為 $\mathbf{z}_{0:T'} \in \mathbb{R}^{(1+T')\times H' \times W' \times C}$ 的 **token 影片**，其空間壓縮因子為 $s_{HW}=H/H'=W/W'$，時間壓縮因子為 $s_{T}=T/T'$。接著，解碼器 $\mathcal{D}$ 以這些 token 重建輸入影片，得到 $\hat{\mathbf{x}}_{0:T} \in \mathbb{R}^{(1+T)\times H \times W \times 3}$。數學表示為 $$ \hat{\mathbf{x}}_{0:T}= \mathcal{D}\!\bigl(\,\mathcal{E}(\mathbf{x}_{0:T})\,\bigr). \tag{1} $$ --- #### 時間因果性設計本架構採**時間因果**（temporal causality）設計：各階段僅處理當前與過去影格，不依賴未來影格。 #### Wavelet 空間與一般方法不同，Cosmos Tokenizer 先將輸入影片送入 **三維小波轉換（2 級 Haar Wavelet3D）** 以 4 倍（x, y, t）下採樣，移除畫素冗餘；之後各編碼階段在更精簡的表示上進行語意壓縮。例如輸入 $\{\mathbf{x}_0,\mathbf{x}_1,\dots,\mathbf{x}_{12}\}$ 先分組為 $\{g_0,g_1,g_2,g_3\}$，再依因果順序 $\{g_0\},\{g_0,g_1\},\{g_0,g_1,g_2\}$ …… 送入編碼器，最終輸出 token $\mathbf{z}_{0:T'}$。 #### 編碼器與解碼器結構 * **編碼器**（Wavelet 之後）由多層殘差區塊組成，區塊內部使用**時空分解 3D 卷積**： * 先以 $1 \times k \times k$ 之 2D 卷積捕捉空間特徵； * 再以 $k \times 1 \times 1$ 之時間卷積捕捉動態，左側填補 $k-1$ 以保持因果性。 * 另加入**時空分解因果自注意力**（causal self-attention），最後一層的全域視野可達 $1+T'$。 * 非線性採 **Swish**；正規化使用 **LayerNorm** 取代 GroupNorm，以避免潛在空間或重建畫面局部數值過大。 * **解碼器**結構對稱，將下採樣替換為上採樣以恢復解析度。 > **圖 9** > 左：時間因果處理示意——序列輸入 $\mathbf{x}_{0}\dots\mathbf{x}_{12}$ 依因果順序分組。 > 右：整體編碼器—解碼器結構——包含 3D Haar Wavelet、因果殘差區塊、因果下採樣／上採樣、因果自注意力。 --- #### 連續與離散潛空間 * **連續分碼器**：採傳統 **自編碼器 (AE)**；潛向量維度 16。 * **離散分碼器**：採 **FSQ（Finite-Scalar-Quantization）**；潛向量維度 6（量化層級 8-8-8-5-5-5），對應詞彙量 64 000。 --- ### 4.2 訓練策略（Training Strategy）採**影像—影片交替**聯合訓練：按既定頻率交替取影像與影片 mini-batch。僅對解碼器最終輸出加入監督，**不**使用額外潛空間損失（如 VAE 的 KL 或 VQ-VAE 的 commitment loss）。 * **階段 1：像素與感知損失** * **L1 損失**： $$ \mathcal{L}_1=\lVert\hat{\mathbf{x}}_{0:T}-\mathbf{x}_{0:T}\rVert_1 \tag{2}\] $$ * **感知損失（VGG-19）**： $$ \mathcal{L}_{\text{Perceptual}} =\frac{1}{L}\sum_{l=1}^{L}\sum_{t}\lambda_l \lVert \text{VGG}^l(\hat{\mathbf{x}}_t)-\text{VGG}^l(\mathbf{x}_t)\rVert_1 \tag{3}\] $$ * **階段 2：時間平滑與銳利度** * **光流損失（OF）**：確保重建影片的時間連續性。 * **Gram 矩陣損失（GM）**：提升細節銳利度。 * 在高壓縮率微調階段，再加入**對抗損失**，強化細節。 **壓縮率配置** * 影像分碼器（CI／DI）：8×8 與 16×16。 * 影片分碼器（CV／DV）：4×8×8、8×8×8、8×16×16。並提供兩種訓練變體： 1. **Cosmos-0.1-Tokenizer**：mini-batch 抽較少影格（CV 49 幀，DV 17 幀）。 2. **Cosmos-Tokenize1**：mini-batch 抽較多影格（CV 121 幀，DV 49 幀）。 ### 4.3 結果（Results） #### 評估基準 * 影像：MS-COCO 2017 驗證集（5 000 張）、ImageNet-1K 驗證集（50 000 張）。 * 影片：提出 **TokenBench**（含機器人、行車、第一人稱、網路影片）與 DAVIS 1080p。指標：PSNR、SSIM、影像 rFID、影片 rFVD。 #### 量化結果 * **連續影片分碼器**（表 5）：在 4×8×8 壓縮率下，Cosmos Tokenizer 於所有指標皆優於現有最佳；即便壓縮率提高 2× 或 8×（8×8×8、8×16×16），仍維持領先。 * **離散影片分碼器**（表 6）：Cosmos Tokenizer 在 4×8×8 下全面超越 VideoGPT、Omni 等方法；更高壓縮率仍具優勢。 * **影像分碼器**（表 7、8）：在 8×8 壓縮率領先；16×16 壓縮率下，其品質常與他法 8×8 相當甚至更佳。 #### 執行效率表 9 顯示在單張 A100 80 GB GPU 上之平均編碼／解碼時間：Cosmos 分碼器於影像與影片皆 **快 2–12 倍**，且模型參數量最小，證明其高效能。 ## 第５章世界基礎模型預訓練（World Foundation Model Pre-training）預訓練 WFM 旨在學得真實世界物理與自然行為的「通才」知識。我們採用兩條可大規模擴充的深度學習路徑來建構 WFM 族群： | 路徑 | 核心思想 | 子問題拆分方式 | | --------- | ----------- | -------------------------- | | **擴散式模型** | 逐步去雜訊 | 將複雜生成問題拆成一連串「去除高斯雜訊」子任務 | | **自回歸模型** | 下一 Token 預測 | 將生成問題拆為連續的「預測下一個 token」子任務 | 為打造高容量 WFM，我們在 10,000 張 **NVIDIA H100** GPU 上訓練三個月，並以多款 GPU 平行化技巧確保可擴充性。 --- #### 5.1 Cosmos WFM 譜系（表 10） | 類型 | 基礎模型 | 衍生模型 | 專用分碼器 | 輔助模組 | | -------- | ------------------------------ | --------------------------------- | ------------------------------------- | -------------------------------------- | | **擴散式** | Cosmos-Predict1-7B Text2World | → Cosmos-Predict1-7B Video2World | Cosmos-Tokenize1-CV 8×8×8-720p (連續) | Cosmos-UpsamplePrompt1-12B（提示增補器） | | | Cosmos-Predict1-14B Text2World | → Cosmos-Predict1-14B Video2World | 同上 | 同上 | | **自回歸式** | Cosmos-Predict1-4B | → Cosmos-Predict1-5B Video2World | Cosmos-Tokenize1-DV 8×16×16-720p (離散) | Cosmos-Predict1-7B Diffusion Decoder\* | | | Cosmos-Predict1-12B | → Cosmos-Predict1-13B Video2World | 同上 | 同上 | \*Diffusion Decoder：將離散 token (DV 8×16×16) 轉回高品質連續 token (CV 8×8×8)，降低過度壓縮造成的失真。 --- #### 5.2 擴散式路徑 1. **Text2World (7B/14B)** * 輸入：文字提示 * 輸出：57 幀視覺世界影片 2. **Video2World（依上微調）** * 輸入：當前觀測影片＋文字擾動 * 輸出：未來世界影片 *訓練文字提示* 透過 VLM 自動產生；因其敘事風格不同於人類描述，我們以 **Cosmos-UpsamplePrompt1-12B**（基於 Mistral-NeMo-12B-Instruct）將人類輸入轉換為擴散模型偏好的文字風格。 --- #### 5.3 自回歸路徑 1. **基礎模型（4B / 12B）** * 從零開始以 GPT-like 架構訓練，只學「影片→未來影片」(無語言能力)。 2. **Video2World（5B / 13B）** * 新增 cross-attention，注入 **T5** 文字嵌入，使模型能結合語言條件預測未來影片。 3. **Diffusion Decoder** * 為修正離散分碼器高壓縮導致之失真，將 DV 8×16×16 token 轉成 CV 8×8×8 連續 token，再用擴散模型生成高品質畫面。 --- #### 5.4 訓練要點 * **並行化策略**：資料並行、模型並行、流水線並行等混合技術，最大化 H100 叢集使用率。 * **硬體效益**：三個月完成全族群 WFM 預訓練。 * **標記來源**：影片字幕由 VLM 生成；影片 token 由 Cosmos Tokenizer 提供。 0 ### 5.1　基於擴散之世界基礎模型（Diffusion-based WFM） **擴散式 WFM** 採用潛在擴散模型架構，在分碼器學得的潛在空間中運作，使影片得以以精簡維度表示，進而降低訓練與推論計算量並簡化去雜訊任務（Hoogeboom 等，2024；Rombach 等，2022）。本節模型皆使用 **Cosmos-Tokenize1-CV 8×8×8-720p** 將影片轉為連續潛在 token。 --- #### 5.1.1　數學式我們採用 **EDM**（Karras 等，2022, 2024）的訓練流程。對於噪聲層級 $\sigma$，去雜訊網路 $D$ 的 **去雜訊分數匹配損失** 定義為 $$ \mathcal{L}(D_\sigma)=\mathbb{E}_{\mathbf{x}_0,\mathbf{n}} \!\left[\! \bigl\lVert D(\mathbf{x}_0+\mathbf{n};\sigma)-\mathbf{x}_0\bigr\rVert_2^{\,2} \right], \tag{5} $$ 其中 $\mathbf{x}_0\sim p_{\text{data}}$ 為乾淨影像／影片，$\mathbf{n}\sim\mathcal{N}(0,\sigma^{2}\mathbf{I})$ 為獨立同分布高斯雜訊。總訓練損失為不同噪聲層級的加權期望 $$ \mathcal{L}(D)=\mathbb{E} \Bigl[ w(\sigma)\, e^{u(\sigma)}\, \mathcal{L}(D_\sigma) +u(\sigma) \Bigr], \tag{6} $$ 其中 $w(\sigma)=(\sigma^{2}+\sigma_{\text{data}}^{\,2})^{2}\,(\sigma\,\sigma_{\text{data}})^{2}$， $\ln\sigma\sim\mathcal{N}(\mu_\text{P},\sigma_\text{P}^{2})$。函式 $u(\sigma)$ 透過簡單 MLP 參數化，視為各噪聲層級的不確定度，能動態調整權重並鼓勵模型降低該不確定度。該框架雖不同於近來流行的 Gaussian Flow Matching（Kong 等，2024；Polyak 等，2024），但理論上二者等價（Gao 等，2024）；我們在實務上亦未遇到 EDM 造成的性能瓶頸。 --- #### 5.1.2　網路架構我們以 **DiT**（Peebles 與 Xie，2023）為基礎，並針對可控影片生成進行下列改動（見圖 11）： 1. **三維切塊（3D patchification）** * 先將潛在張量 $T\times C\times H\times W$ 依 $(p_t,p_h,p_w)=(1,2,2)$ 非重疊切塊，映射為長度 $\tfrac{THW}{p_tp_hp_w}$ 的時空序列 token。 2. **FPS 感知 3D RoPE + 可學絕對位置嵌入** * 將特徵維度分三塊，分別對時間、高度、寬度軸套用 Rotary Positional Embedding；時間頻率再按影片 FPS 縮放，並於每層加入可學絕對位置嵌入以減少「融化」假象。 3. **跨注意力（Cross-attention）整合文字** * 於每層自注意力後加入跨注意力，使用 **T5-XXL** 嵌入作為鍵值 (K/V)。 4. **查詢-鍵正規化** * 於自注意力與跨注意力內對 Q、K 做 RMSNorm，以防 early training 不穩。 5. **AdaLN-LoRA** * 參考 W\.A.L.T（Gupta 等，2024），對 AdaLN 的線性層使用 LoRA；7B 模型因此將參數量自 11B 壓到 7B，效能持平。 **模型設定**（表 11）： * 7B：層數 28、維度 4096、注意力頭 32 … * 14B：層數 36、維度 5120、注意力頭 40 … （完整數值見原表） --- #### 5.1.3　訓練策略 1. **影像-影片交替訓練** * 透過獨立估計充分統計量之正規化，使影像／影片潛表示分布對齊，並對影片潛表示做逐幀 + 通道標準化。 * 為平衡梯度，影片 batch 之噪聲標準差按 $\sqrt{\text{frames}}$ 倍增。 2. **漸進式訓練（Progressive training）** * 先以 512 p、57 幀訓練；再升至 720 p、121 幀；最後以高品質子集 fine-tune（表 12）。 3. **多長寬比訓練** * 建立 1:1、3:4、4:3、9:16、16:9 五個 bucket，採 longest-side resize＋反射填補。 4. **混合精度** * 參數 FP32+BF16 雙份、計算用 BF16；損失縮放 10 倍並調整 AdamW β、ε 以穩定訓練。 5. **文字條件** * 採 **T5-XXL**；使用 classifier-free guidance，但不隨機清零文字嵌入。 6. **影像／影片條件** * Video2World 透過在時間維度串接條件幀並加入二值遮罩；訓練時為條件幀加隨機噪聲，推論可接單張或多張條件幀。 --- #### 5.1.4　擴充至大規模 * 內存需求：7B/14B 模型分別需約 140 GB/280 GB 參數+梯度+優化器狀態；高解析訓練激活額外 \~310 GB。 * **FSDP**：7B/14B 採分片 32/64； * **Context Parallelism (CP)**：長序列使用 CP\_SIZE=8，顯著降低激活內存。 * 與 HunyuanVideo、MovieGen 相比，儘管未用 TP/SP，仍達相似 MFU。 --- #### 5.1.5　提示增補器（Prompt Upsampler）為縮短使用者簡短提示與訓練期詳細字幕之落差，我們： * **Text2World**：以 **Mistral-NeMo-12B-Instruct** 微調，將 VLM 切割的「短→長」字幕對作為訓練資料，產生 **Cosmos-UpsamplePrompt1-12B**。 * **Video2World**：使用開源 **Pixtral-12B** 加零樣本提示工程（無需再微調）。增補後的提示維持關鍵語意，且更貼近訓練分布，可促使模型生成更高品質畫面。 --- #### 5.1.6　結果 * **Text2World**：圖 12 的 7B 與 14B 模型均生成高畫質、動態流暢且貼合文字的影片；14B 能呈現更細緻的視覺與複雜動作。 * **Video2World**：圖 13 展示了在圖片或影片條件下的 7B／14B 生成；支援自回歸擴片，14B 在場景豐富度與運動穩定性上再次領先。 --- ### 5.2　基於自回歸的世界基礎模型（Autoregressive-based WFM） --- 在自回歸 WFM 中，我們將世界模擬視為類似語言模型的「下一 token 預測」問題。首先，影片會經 **Cosmos-Tokenize1-DV 8 × 16 × 16-720p** 離散分碼器轉換為 token 序列 $$ \mathcal V=\{v_1,v_2,\dots,v_n\}. $$ 接著以 Transformer 解碼器（Vaswani 等，2017）預測下一個影片 token，損失函數為 $$ \mathcal{L}_{\text{NLL}} =\sum_i -\log P\bigl(v_i \mid v_1,\dots,v_{i-1};\Theta\bigr), \tag{9} $$ 其中 $P$ 由參數 $\Theta$ 的 Transformer 模型估計。 --- #### 5.2.1　網路架構 > 概觀如圖 14，主要改動包含 > > 1. **3D 位置嵌入**（相對：3D RoPE；絕對：3D APE） > 2. **跨注意力**（cross-attention）以注入文字條件 > 3. **QK 正規化**（QKNorm）提升訓練穩定度 1. **3D RoPE（相對位置）** * 對時間、高度、寬度三軸分塊施加 RoPE。 * 隨訓練階段延長序列，僅在時間軸以 **YaRN**（Peng 等，2023）擴展視野。 2. **3D APE（絕對位置）** * 於每層加入以正弦函數生成的 3D APE，加總至輸入張量，可減少影像變形。 3. **詞彙（Vocabulary）** * 採 FSQ 量化 6 維潛空間（8-8-8-5-5-5 級），詞彙量 $8\!\times\!8\!\times\!8\!\times\!5\!\times\!5\!\times\!5=64\,000$。 4. **跨注意力** * 使用 **T5-XXL** 編碼之文字向量作為 K/V，每層自注意力後接一層跨注意力。 5. **QK 正規化（QKNorm）** * 對 Q、K 做 RMSNorm，再以可學參數縮放內積，以防 softmax 飽和。 6. **z-loss（de Brébisson & Vincent，2016）** * 加入 $\mathcal{L}_{\text{z}}=\lambda\sum_i z_i^{\,2}$，其中 $\lambda=3\times10^{-4}$，抑制 logits 過大並穩定梯度。 --- #### 5.2.2　擴充技巧（Scaling Up） * **顯存組成** * 參數：BF16+FP32（6 B/參數） * 梯度：BF16（2 B/參數） * 優化器狀態：FP32（8 B/參數） * 激活：約 $2\times\text{layers}\times17\times\text{seq}\times\text{batch}\times d_\text{model}$ B * **Tensor Parallelism (TP)** * 線性層按輸出／輸入維度切分，減少跨 GPU 通訊。 * **Sequence Parallelism (SP)** * 進一步沿序列切分 LayerNorm、Dropout 等層之激活，降低重複儲存。 --- #### 5.2.3　訓練策略 * **階段 1**：僅影片預測，序列長度 17 幀（1 + 16）。 * **階段 1.1**：序列延長至 34 幀，時間軸用 YaRN 延伸 RoPE。 * **階段 2**：加入文字條件（跨注意力），並採影像-影片交替訓練。 * **Cooling-down**：高品質資料 30 k 步，線性將學習率降至 0。 --- #### 5.2.4　推論最佳化（Real-time） * **常規優化**：Key–Value 快取、Tensor Parallel、`torch.compile`。 * **Medusa speculative decoding**（Cai 等，2024） * 在最後隱層後加 1 層 FFN「Medusa heads」，一次預測多個 token，再行驗證。 * 實驗顯示 9 顆 Medusa head 在效率與品質間最佳。 * 4B 模型在 8× H100 上 token 吞吐提升至 20×，forward pass 減少 46×。 * **低解析度微調**（320 × 512 @ 10 FPS） * 重新微調離散分碼器與 4B 模型；加入 Medusa 後，可 1 秒生成 10 幀（表 17）。 --- #### 5.2.5　擴散解碼器（Diffusion Decoder）為修正離散分碼器高壓縮造成之模糊，我們： 1. 將同一影片同時經連續分碼器 **CV 8×8×8** 與離散分碼器 **DV 8×16×16**。 2. 以離散 token 嵌入（16 維）上採樣 2× 空間，作為擴散去雜訊器的條件訊號。 3. 微調 **Cosmos-Predict1-7B-Text2World** 去除噪聲，學得「離散→連續」反向映射。 4. 推論時先用去雜訊器產生連續 token，再經 CV 解碼為 RGB 影片。 * 圖 18 顯示解碼器可顯著增進清晰度。 --- #### 5.2.6　結果 * **無文字**：12 B 模型動態與細節皆優於 4 B（圖 17 上）。 * **有文字**：13 B 模型優於 5 B，場景更豐富、運動更穩定（圖 17 下）。 * **解碼增強**：擴散解碼器能在保持內容的前提下去除模糊（圖 18）。 --- #### 5.2.7　限制生成影片偶現「物體自下方突然冒出」等異常（圖 19）。以 100 筆 Physical AI 測試集評估（單張與 9 幀條件）： | 模型 | 單張條件失敗率 | 9 幀條件失敗率 | | --------- | ------- | -------- | | 4B / 5B | 較高 | < 2 % | | 12B / 13B | 較低 | < 2 % | 大型模型對單張條件更穩健，但此問題仍需後續改進。。 ### 5.3　評估（Evaluation）預訓練 WFM 為視覺世界模擬的「通才」，其能力需從多層面衡量。本文著重兩項指標： 1. **3D 一致性** 理想 WFM 應從幾何上生成合理的 3D 世界影片。 2. **物理符合度** 生成的動態應符合物理定律。 > *其他評估維度亦相當重要，留待後續工作擴充。* --- #### 5.3.1　3D 一致性（3D Consistency） WFM 藉由影片生成來模擬 3D 世界，因此須檢驗其產出是否與 3D 結構一致，確保時序上遵循場景物理原理，方能服務下游 Physical AI 應用。 **測試資料與基線** * 取自 **RealEstate10K** 測試集隨機 500 段靜態場景影片（Zhou 等，2018）。 * 以內部 VLM 產生「靜態場景」描述文字當作提示，避免動態干擾。 * 基線模型：**VideoLDM**（Blattmann 等，2023）。 **評估指標** 1. **幾何一致性** * **Sampson 誤差**：衡量特徵點與對應極線之距離；越小越好。 * **相機姿態估成功率**：SfM 成功重建相機路徑之比例；越高越好。 2. **視圖合成一致性** * 留出每 8 幀作「測試視圖」，以 **3D Gaussian Splatting**（Kerbl 等，2023）重建 3D 場景，再合成留出幀。 * 指標：PSNR、SSIM、LPIPS；越高（或 LPIPS 越低）越佳。 > Sampson 誤差公式 > > $$ > \operatorname{Samp}=\frac{1}{N}\sum_{i=1}^{N} > \frac{|\bar y_i^{\top}F\bar x_i|} > {\sqrt{\lVert S F\bar x_i\rVert_2^{2}+\lVert S F^{\top}\bar y_i\rVert_2^{2}}}, > \quad > S=\begin{bmatrix}1&0&0\\0&1&0\\0&0&0\end{bmatrix} > $$ > > 其中 $\bar x_i,\bar y_i$ 為齊次座標特徵點，$F$ 為基本矩陣。 **結果（表 19，翻譯）** | 方法 | Sampson↓ | 姿態成功率↑ | PSNR↑ | SSIM↑ | LPIPS↓ | | --------------------- | --------- | ---------- | --------- | --------- | --------- | | VideoLDM | 0.841 | 4.4 % | 26.23 | 0.783 | 0.135 | | Cosmos-7B Text2World | **0.355** | **62.6 %** | **33.02** | **0.939** | **0.070** | | Cosmos-7B Video2World | 0.473 | 68.4 % | 30.66 | 0.929 | 0.085 | | Cosmos-4B | 0.433 | 35.6 % | 32.56 | 0.933 | 0.090 | | Cosmos-5B Video2World | 0.392 | 27.0 % | 32.18 | 0.931 | 0.090 | | **真實影片** | 0.431 | 56.4 % | 35.38 | 0.962 | 0.054 | Cosmos WFM 在幾何與視圖一致性均大幅優於基線，部分指標已接近甚至優於真實影片，證明其生成世界具備 3D 合理性。 --- #### 5.3.2　物理符合度（Physics Alignment）理想 WFM 應具備物理常識，產生符合力學的未來觀測。雖然我們的模型已有一定物理解讀能力，但仍可生成違反物理的影片；需更嚴格的資料過濾與模型設計。 **控制式基準資料集** * 參考 Kang 等（2024），以 **PhysX** 與 **Isaac Sim** 建立 8 類 3D 場景，測試牛頓力學與剛體動力： 1. 自由落體 2. 斜坡滾下 3. U 型坡 4. 穩固堆疊 5. 不穩堆疊 2. 多米諾 7. 翹翹板 8. 陀螺 * 每類隨機物件尺寸 / 材質 / 背景，4 固定鏡頭，輸出 800 段 1080p、100 幀影片。 **評估方式** * WFM 以「首 1 幀或 9 幀 + 文字提示」為條件，生成 33 幀未來影片。 * 指標： 1. **像素級**：PSNR、SSIM 2. **特徵級**：DreamSim 相似度（Fu 等，2023） 3. **物件級**：平均 IoU（SAMURAI 跟蹤 + 真值分割對比） > 數值對 33 幀、全影片、4 隨機種子平均。 **結果（表 20，摘譯）** | 模型 | 條件 | PSNR↑ | SSIM↑ | DreamSim↑ | Avg IoU↑ | | ---------------------- | ----- | --------- | --------- | --------- | --------- | | Cosmos-7B Video2World | 文+1 幀 | 17.34 | 0.538 | 0.836 | 0.332 | | Cosmos-7B Video2World | 文+9 幀 | **21.06** | **0.691** | 0.859 | **0.592** | | Cosmos-14B Video2World | 文+9 幀 | 20.21 | 0.635 | **0.860** | 0.598 | | Cosmos-4B | 1 幀 | 17.91 | 0.486 | 0.827 | 0.394 | | Cosmos-4B | 9 幀 | 18.13 | 0.482 | 0.859 | 0.481 | | Cosmos-13B Video2World | 文+9 幀 | 18.26 | 0.482 | 0.865 | 0.482 | **觀察** * 條件幀愈多（9 幀 > 1 幀），模型更能推斷速度、加速度等高階量，物理預測指標顯著提升。 * 擴散式 WFM 在 9 幀條件下，像素級品質優於自回歸 WFM（PSNR、SSIM）。 * 物理解讀尚未隨模型參數線性增長 —— 大模型影像品質佳，但物理遵循度仍待改進。 **常見失敗類型** * 物件持續性不足（突然出現 / 消失） * 形變不合理 * 違反重力或動量守恆這些合成場景有助於系統化發現缺陷；未來將加入更複雜情景、提升寫實度，並細化評估指標，以全面檢驗模型物理理解。 ## 第　６　章後訓練世界基礎模型（WFM）在本章中，我們示範如何將 Cosmos 世界基礎模型（WFMs）微調，以支援多元的 Physical AI 應用。我們分別展示三種後訓練範例： 1. **相機控制**——將 WFM 加入相機姿態條件，生成可導航的 3D 視覺世界； 2. **機器人操作**——在兩種機械手臂平台上，分別進行「指令驅動」及「動作條件」的影像預測； 3. **多視角自駕**——以六視角資料微調，用於自動駕駛代理的訓練。 | 子節 | 後訓練模型 | 條件輸入 | | --- | ------------------------------------------------------------- | ---------- | | 6.1 | Cosmos-Predict1-7B-Video2World-Sample-CameraCond | 文字＋影像＋相機路徑 | | 6.2 | Cosmos-Predict1-7B-/-5B-Video2World-Sample-Instruction | 文字＋影像 | | 6.2 | Cosmos-Predict1-7B-/-5B-Video2World-Sample-ActionCond | 動作向量＋影像 | | 6.3 | Cosmos-Predict1-7B-Text2World-Sample-MultiView | 文字 | | 6.3 | Cosmos-Predict1-7B-Text2World-Sample-MultiView-TrajectoryCond | 文字＋軌跡 | | 6.3 | Cosmos-Predict1-7B-Video2World-Sample-MultiView | 影像＋多視角 | > 註：以上模型名稱均以「-Sample」結尾，僅作示範用途，開發者需再以自身資料集針對特定 Physical AI 系統進一步微調。 --- ### 6.1 相機控制後訓練透過相機姿態條件，我們將 **Cosmos-Predict1-7B-Video2World** 擴充為 3D 世界模擬器，稱為 **CameraCond** 版本。本模型從單張參考影像生成時序一致且 3D 結構連貫的影片，並依照輸入相機路徑正確改變視角。 #### 6.1.1 資料集使用 **DL3DV-10K** 靜態場景影片，每支影片切分為 256 幀片段；並以 **GLOMAP** 重建全幀相機姿態。首幀設為單位姿態，其餘幀以相對姿態表達。影片再經內部視覺語言模型（VLM）產生靜態場景描述。 #### 6.1.2 微調方法將相機 Plücker 座標嵌入與視覺潛向量（latent embeddings）串接。由於使用 **Cosmos-Tokenize1-CV8×8×8-720p**，時間壓縮率為 8×，因此每 8 幀取第 4 幀的 Plücker 向量。輸入影格統一至 704 × 1252 後以反射填補至 704 × 1280，訓練時隨機取樣 57 幀，其餘超參與基礎 Diffusion WFM 相同。 #### 6.1.3 評估 * **測試集**：RealEstate10K 取 500 範例之首幀與相機路徑； * **影像品質**：FID 及 FVD； * **3D 一致性**：以 SfM 重新估計相機軌跡，計算平均旋轉誤差與平移誤差。結果顯示，CameraCond 版本在影像品質與相機可控性均明顯優於 **CamCo** 基線（FID 14.30 vs 57.49；SfM 成功率 82 % vs 43 %）。圖 21：相機控制模型之定性比較給定輸入影像與相機軌跡（時間序以紅→紫漸變標示），我們比較 Cosmos-Predict1-7B-Video2World-Sample-CameraCond 與 CamCo（Xu et al., 2024）於未來影格生成與重新估算相機姿態的表現。CamCo 受限於訓練-測試分布差異，常產生軌跡偏差甚至失真影像，導致相機姿態無法估算；反之，Cosmos 相機控制模型能在維持高影像品質與 3D 一致性的同時，產生符合輸入軌跡之未來影格。 ![image](https://hackmd.io/_uploads/r1j8HLEmex.png) 我們亦在圖 21 中提供視覺比較。CamCo 在生成超出輸入影像內容的畫面時表現不佳，而 Cosmos-Predict1-7B-Video2World-Sample-CameraCond 能夠產生符合 3D 世界結構的影像。須注意，兩模型皆使用 DL3DV-10K 進行後訓練，並以 RealEstate10K 進行評估，此舉導入了顯著的訓練–測試分布差異。Cosmos 模型成功克服此差異，並展現對未知相機軌跡的良好泛化能力。 --- ### 6.2 機器人操作後訓練 #### 6.2 機器人操作之 WFM 後訓練世界基礎模型（WFM）可作為機器人操作的強大規劃器與模擬器。本節說明如何將預訓練 WFM 微調至兩項任務：(1) 指令導向影片預測與 (2) 動作導向下一幀生成。指令導向影片預測：輸入為機器人的當前影格與文字指令；輸出為機器人依指令行動之預測影片。動作導向下一幀生成：輸入為機器人的當前影格與描述「當前→下一幀」的動作向量；輸出為執行該動作後的下一幀。給定一串動作，模型可自回歸地生成機器人完整執行過程的影片。 ##### 6.2.1 資料集為上述兩任務，我們整理兩套專用資料： Cosmos-1X（指令導向影片預測）來源：1x.Tech 之人形機器人 EVE 的第一人稱視角影片，涵蓋導航、摺衣、擦拭桌面、拾取物件等多元任務。規模：約 200 小時原始影片，擇取約 12,000 段（1–9 秒）。標註：每段配一行文字指令，再以內部視覺語言模型（VLM）擴充。格式：30 FPS，解析度 512 × 512。 Bridge（動作導向下一幀生成）來源：公開 Bridge 資料庫，為廚房場域中機械手臂的第三人稱視角影片。規模：約 20,000 段；解析度 320 × 256，5 FPS。動作向量：每幀對應 7 維手爪座標系動作 (Δx, Δy, Δz, Δr, Δp, Δy, ΔGripper)，格式同 OpenVLA。定性結果圖 22 展示以類搖桿方式控制相機（前進、後退、左轉、右轉）時的生成成果，說明使用者可透過搖桿在模擬世界中導航，模型同步預測未來影格。Physical AI 代理亦可利用此控制模式，預測不同情境下世界的未來狀態。 ![image](https://hackmd.io/_uploads/r1ZfU8EQex.png) ![image](https://hackmd.io/_uploads/ryn0UUVQlx.png) ![image](https://hackmd.io/_uploads/Hkv1wINQxg.png) ![image](https://hackmd.io/_uploads/r1YgD8EQgg.png) ![image](https://hackmd.io/_uploads/Bkm-wUNXeg.png) 為了說明模型的生成多樣性，圖 23 以相同輸入影像與相機路徑、搭配不同隨機種子，產生多組結果。Cosmos-Predict1-7B-Video2World-Sample-CameraCond 能生成多種場景，同時維持影片在三維空間與時間上的一致性。此能力可用於在既定當前狀態下，模擬多種可能的未來情形。 1. **指令驅動影片預測** * **資料集**：內部 **Cosmos-1X**，約 200 h 人形機器人 EVE 的第一人稱影片，解析度 512 × 512，共 12 k 片段；每段包含一句任務指令。 * **模型**：7 B 與 5 B 兩版 WFM 加入 T5 指令嵌入； * **評估**：人評四維度——指令遵循、物體持續性、真實性、整體合理。7 B 版本總體偏好 82.6 %，明顯優於 VideoLDM-Instruction。 2. **動作條件單幀預測** * **資料集**：公開 **Bridge**，三視角廚房機械臂，解析度 320 × 256；每幀對應 7D 動作向量。 * **模型**：於 WFM 中新增動作嵌入 MLP，再透過 cross-attention（5 B）或時間戳加成（7 B）注入； * **結果**：兩模型皆能準確預測下一幀，視覺與真實影片高度一致。 6.2.2 微調方法──繁體中文翻譯（以下為完整段落翻譯，不含原文）我們將 Cosmos-Predict1-7B-Video2World（第 5.1 節）與 Cosmos-Predict1-5B-Video2World（第 5.2 節）分別微調，用於下列兩項任務：指令式影片預測（instruction-based video prediction）動作式下一幀預測（action-based next-frame prediction）。 (A) 指令式影片預測以兩個基礎 WFM 為底，建立 Cosmos-Predict1-7B-Video2World-Sample-Instruction Cosmos-Predict1-5B-Video2World-Sample-Instruction 作法：先計算指令文字的 T5 嵌入向量，在微調階段透過 cross-attention 注入模型。 (B) 動作式下一幀預測同樣以兩個基礎 WFM 為底，建立 Cosmos-Predict1-7B-Video2World-Sample-ActionCond Cosmos-Predict1-5B-Video2World-Sample-ActionCond 因「動作」在預訓練時未曾出現，需額外設計條件化模組： 5B 版本：加入 Action Embedder MLP，將 7 維動作向量投影成張量，再以 cross-attention 注入。 7B 版本：同樣加入 Action Embedder MLP，但將投影張量直接加到 DiT 模組的時間戳嵌入（timestamp embedding），達成條件控制。 #### 6.2.3 評估（Evaluation）—— (一) 指令式影片預測的人評結果圖 24 彙整了在 Cosmos-1X 資料集上的人評比較。基準模型為 VideoLDM-Instruction（以 VideoLDM 微調而得），對照模型為 Cosmos-Predict1-7B-Video2World-Sample-Instruction Cosmos-Predict1-5B-Video2World-Sample-Instruction 評估維度共四項： Instruction Following：生成影片是否符合文字指令。 Object Permanence：場景中出現之物件在整段影片中是否持續存在。 Verity：畫面是否真實，無不合理或憑空生成之物件。 Overall：整體合理度，是否足以讓機器人據此規劃動作。十位評估者針對 23 段測試影片進行配對比較（隱去模型身分），結果如下： Cosmos-Predict1-7B 在四個維度皆顯著優於基準，整體偏好達 78.3 %（基準僅 13 %，其餘為平手）。 Cosmos-Predict1-5B 亦全面領先，整體偏好 56.5 %。 ![image](https://hackmd.io/_uploads/SJA3O847xx.png) 如圖所示，Cosmos-Predict1-7B-Video2World-Sample-Instruction 與 Cosmos-Predict1-5B-Video2World-Sample-Instruction 在四項評估維度上皆優於 VideoLDM-Instruction。其中，7 B 版本於「整體偏好」取得 78.3 %，遠高於基準模型的 13.0 %；5 B 版本亦顯著領先 diffusion-based 的 VideoLDM-Instruction。圖 25 所示之範例影格，可直觀呈現兩款微調模型所生成影片的品質。在動作式下一幀預測部分，我們以 Bridge 資料集微調兩款模型，並將經同樣資料集微調的 IRASim-Action（Zhu et al., 2024）做為基準。接著以自回歸方式，根據動作序列逐幀生成影片，再於官方 Bridge 測試集隨機抽取 100 段影片，將生成結果與真實影像比對，以評估影片生成品質。 ![image](https://hackmd.io/_uploads/S1nmKU4meg.png) ![image](https://hackmd.io/_uploads/rkiHOL47eg.png) 圖 25：Cosmos-1X 資料集之指令式影片預測範例左側為 Cosmos-Predict1-7B-Video2World-Sample-Instruction 模型生成結果，右側為 Cosmos-Predict1-5B-Video2World-Sample-Instruction 模型生成結果。 ![image](https://hackmd.io/_uploads/H1YEd8V7xe.png) ##### 圖 26 可見，兩版本預測影格與真實影格高度一致；7 B 版本在四項指標均領先，其 FVD 僅為基準的三分之一。 --- ### 6.3 針對自駕任務的世界模型後訓練於真實道路情境下的世界模型，可作為訓練自駕代理的強大模擬引擎。由於大多數自駕車均裝載多顆相機向不同方向取景，理想的自駕世界模型亦應支援多視角輸入，並盡可能吻合目標車輛的感測器配置。本節示範如何將預訓練 WFM 微調為自駕任務所需的多視角世界模型。 #### 6.3.1 資料集我們整理了一套內部資料庫 Real Driving Scene（RDS）。概述如下：規模：約 360 萬段、每段 20 秒的環景影片（約 2 萬小時）。來源：NVIDIA 內部測試車平台。視角：六路相機——前方、左側、右側、後方、左後、右後。同步：以前方相機時間戳記對齊其他視角影格。軌跡：資料集中包含自車運動（ego-motion）資訊，可構建行車軌跡。為符合目標分布，我們自龐大標註語料中篩選並標籤下列屬性：周遭車流密度：無、低、中、高天氣：晴、雨、雪、霧光照：日間、夜間自車速度：靜止、低速、市區速、公路速自車行為：高／中／低曲率路徑與加速度道路型態／人口密度（對應 OpenStreetMap）：鄉村、住宅區、都會區此外，經第二輪資料探勘，確保少見道路結構（收費亭、橋樑、隧道、減速丘等）之最少樣本數。 **RealDrive-Scenes（RDS）**：六視角車載 57 幀片段，覆蓋車流密度、天氣、光照、車速、路型等多維度，並額外擴充罕見場景（收費站、橋梁、隧道等）。每視角以固定模板生成個別字幕。 #### 6.3.2 微調方法我們以 RDS 資料集將 Cosmos-Predict1-7B-Text2World（第 5.1 節）微調成多視角世界模型。為確保六視角影片在時間與空間上的一致性，我們稍微調整第 5.1 節的架構，使模型能同時生成六路相機畫面。建立的三款多視角模型模型名稱條件輸入功能說明 Cosmos-Predict1-7B-Text2World-Sample-MultiView 文字給定文字提示，生成六視角影片 Cosmos-Predict1-7B-Text2World-Sample-MultiView-TrajectoryCond 文字＋軌跡在文字提示之外，再依指定行車軌跡生成影片 Cosmos-Predict1-7B-Video2World-Sample-MultiView 影片接續上一模型之影片，延伸後續 57 幀三款模型均輸出 6 視角 × 57 幀 × 848 × 480 的影片序列。核心技術細節視角獨立的位置嵌入（Positional Embedding）未將視角加入 3D RoPE，而是對每一視角分別使用與第 5.1 節相同的時間–空間位置嵌入。透過新增**全域視角嵌入（View Embedding）**傳遞「此畫面屬於哪一視角」的資訊。視角依賴的交互注意力（View-dependent Cross-Attention）同一場景六路影像各有不同文字描述；對於每一視角，其 cross-attention 僅關注該視角對應的文字，避免互相干擾。軌跡控制條件（Trajectory Control）軌跡定義：3D 空間中 64 個點，間隔 0.1 s，從起點 (0,0,0) 走到終點。將軌跡嵌入後，作為條件訊號注入去雜函數 (denoiser)，使生成影片同時符合文字情境與真實行車路徑。更細粒度的「連續動作向量」控制可參考 prior works 或第 6.2 節的機器人任務，留待後續研究。 ![image](https://hackmd.io/_uploads/S1KP9L4mgl.png) #### 6.3.3 結果 ![image](https://hackmd.io/_uploads/HkvucLVQlg.png) 圖 27：文字條件六視角範例本圖展示 Cosmos-Predict1-7B-Text2World-Sample-MultiView 生成之 57 幀六視角影片，並由 Cosmos-Predict1-7B-Video2World-Sample-MultiView 延伸至 8 秒（201 幀）。六個視角同組顯示，每列對應一個時間點。左側範例為高速公路場景：機車並行於大型卡車旁；右側範例則為大雪中，ego 車跟隨一輛轎車右轉。接續圖 27的定性分析：我們先以 Text2World-MultiView 生成 57 幀六視角影片，再用 Video2World-MultiView 將長度擴充至 201 幀。 ![image](https://hackmd.io/_uploads/rk2yjUVQle.png) 圖 28 顯示預訓練世界模型的泛化能力，可產生 RDS 資料集少見或域外情境（例如「車輛行駛在河面上」）。 ![image](https://hackmd.io/_uploads/H1GZsIN7ll.png) 圖 29 為 Cosmos-Predict1-7B-Text2World-Sample-MultiView-TrajectoryCond 的成果，ego 車能精準遵循輸入軌跡。多視角一致性（Multi-view Consistency）我們採用第 5.3.1 節擴充之 Sampson 誤差（Hartley & Zisserman, 2003；Sampson, 1982）評估六視角幾何一致性。由於 RDS 參考影片的魚眼鏡頭內參近似，我們先以中位標定值將關鍵點去扭曲為 960 × 540、水平視角 120° 的 pinhole 模型，再計算： TSE（Temporal Sampson Error）衡量同一視角在相鄰幀間的時序一致性（取中位數）。 CSE（Cross-view Sampson Error）衡量不同視角隨時間的整體一致性（跨視角 Sampson 誤差，對所有時間累積關鍵點估算基本矩陣後計算）。結果（表 24）： Cosmos-Predict1-7B-Text2World-Sample-MultiView 與其 TrajectoryCond 版本的 TSE/CSE 皆顯著低於 VideoLDM-MultiView。加入軌跡控制條件後，一致性再度提升，排名最佳。軌跡一致性（Trajectory Consistency） (A) Trajectory Agreement Error（TAE）我們參考 Teed & Deng (2021)，建構即時多視角相機定位流程（含動態遮罩與稠密 Bundle Adjustment），分別以「前 + 左前」及「前 + 右前」兩組鏡頭估算前視相機軌跡。指標： ATE（絕對軌跡誤差） RPE-R（旋轉分量相對誤差） RPE-t（平移分量相對誤差）為公平比較，將軌跡長度正規化為 1.0，並排除極小移動（如紅燈靜止）。方法 TAE-ATE ↓ TAE-RPE-R ↓ TAE-RPE-t ↓ VideoLDM-MultiView 0.88 22.94 0.77 Cosmos 7B MultiView 0.77 4.25 0.29 Cosmos 7B MultiView-TrajCond 0.54 4.31 0.18 參考實片 0.49 4.60 0.14 洞察：Cosmos 系列模型的軌跡一致性大幅優於基準，並逼近真實影片水準；含軌跡條件版本效果最佳。 (B) Trajectory Following Error（TFE）僅對具軌跡控制模型計算：以同上流程定位前視相機，將推論軌跡與輸入軌跡比對。結果（表 25）顯示 Cosmos 7B TrajectoryCond 與真實軌跡之距離誤差僅 ≈ 20 cm，比真實參考值（≈ 13 cm）僅多 < 7 cm，證明模型能準確遵循指定路徑，對訓練自駕代理至關重要。 ![image](https://hackmd.io/_uploads/rJEUi8VXlx.png) ## 第７章防護機制 Cosmos WFM 之安全框架分為前置防護（pre-Guard）與後置防護（post-Guard）兩道程序（見圖 30）： ![image](https://hackmd.io/_uploads/r1Ky2L4Qge.png) 前置防護文字輸入 1. 關鍵詞阻擋 2. Aegis LLM 守門阻擋含暴力、性剝削、仇恨等高風險提示後置防護視覺輸出 1. 影片內容安全分類器 2. 臉部馬賽克偵測不當畫面；大於 20×20 px 之人臉像素化 #### 7.1　前置防護（Pre-Guard）關鍵詞阻擋（7.1.1）使用 WordNetLemmatizer 先將輸入詞彙詞形還原，再與大規模違規字詞表比對。任一詞命中即拒絕整段提示，作為第一道快速防線。 Aegis LLM 守門（7.1.2）採用 Aegis-AI-Content-Safety-LlamaGuard-LLM-Defensive 1.0（NVIDIA 內部 13 類風險標籤）。防禦版（defensive）邊界較嚴，若提示屬於暴力、性、犯罪計畫、武器、濫用藥物、自殺、兒少性剝削、仇恨、騷擾、威脅、髒話…等即判定為不安全，直接拒絕生成並回傳錯誤訊息。 #### 7.2　後置防護（Post-Guard）影片內容安全分類器（7.2.1）逐幀取 SigLIP 向量 → MLP 多類別分類。訓練資料來源： RDS 等資料集隨機抽樣； WFM 合成稀有場景；專業標註者手動標金標（gold labels）。若任一影格被判為「不安全」，整段影片即遭隔離。臉部馬賽克（7.2.2）以 RetinaFace 偵測人臉；> 20 × 20 px 區域進行像素化處理，兼顧隱私與場景完整度。 #### 7.3　紅隊測試（Red Team Effort）內部紅隊累積測試 > 10 000 組「提示-影片」對，涵蓋各風險類型。逐一標註不安全片段起訖影格，並對關鍵詞阻擋、Aegis、影片分類器、臉部馬賽克進行獨立滲透測試，持續修補邊緣案例。 ## 第 8 章　相關研究（Related Work） ### 8.1　世界模型（World Models）「世界模型」概念源於 Ha 與 Schmidhuber（2018）的開創性研究：透過神經網路學習對真實世界的表示，根據當前狀態與輸入預測未來狀態。早期自動化／機器人領域仰賴基於物理定律的數學模型（Murray et al., 2017），多限於低維狀態空間，難以在新任務重複利用。深度學習與生成式 AI 的進展使研究者得以直接從視覺觀測資料學習高維世界模型。現代世界模型依骨幹架構大致分兩類：遞迴式潛空間模型：以自編碼器學得潛變量，並用 RNN 追蹤（Ha & Schmidhuber, 2018；Hafner et al., 2019, 2021, 2023）。生成式視覺模型：視世界模型為條件式影片生成（動作→影像，文字→影像等），可採自回歸（Bruce et al., 2024；Liu et al., 2024）或擴散式方法（Alonso et al., 2024；Ding et al., 2024；Valevski et al., 2024）。生成式模擬器（Generative Simulation）：結合生成式 AI 與物理模擬（Hua et al., 2024；Nasiriany et al., 2024）。應用層面涵蓋：驗證（Hu et al., 2023）、模型預測控制（Bar et al., 2024）、模型導向強化學習（Alonso et al., 2024）。成功案例遍及電玩（Hafner et al., 2021）、實體機器人（Wu et al., 2023）、自駕車（Kim et al., 2021；Hu et al., 2023）。 #### 8.2　影片生成模型（Video Generative Models）影片生成近年突飛猛進：由早期低解析度短片到現今 Sora、Dream Machine、Gen 3、Kling 等高畫質模型（OpenAI, 2024；Luma, 2024；KuaiShou, 2024；Runway, 2024）。主流任務為文字→影片（Blattmann et al., 2023；Yang et al., 2024），亦有影像→影片、影片→影片、動作→影片等。擴散式框架仍為視覺品質最佳；自回歸式模型則能與 LLM 技術無縫銜接（Deng et al., 2024；Kondratyuk et al., 2024）。 Cosmos 平台同時提供 Diffusion（Cosmos-Diffusion）與 Autoregressive（Cosmos-Autoregressive）兩路 WFM，方便 Physical AI 開發者取長補短。 #### 8.3　帶相機控制的影片生成早期視角合成／3D 重建（Mildenhall et al., 2020；Wang et al., 2021）追求 3D 一致性。單張影像 3D 合成需強大先驗（Tucker & Snavely, 2020），近年亦改以大型 Transformer 直接學資料驅動視角轉換（Dosovitskiy et al., 2021；Rombach et al., 2021）。擴散式方法擴充至 3D 資產生成（Li et al., 2024）、並在大規模影片訓練下可望達成完整 3D 一致（Brooks et al., 2024）。相機可控性已成熱門題（He et al., 2024；Xu et al., 2024），極具機器人與自駕應用潛力。 #### 8.4　生成式模型於機器人控制 Diffusion 作為視覺運動策略成功提升仿冒學習（Chi et al., 2023；Ke et al., 2024）。視覺子目標規劃：生成中繼影像而非直接動作，提升環境泛化（Black et al., 2023；Du et al., 2024）。大規模影片預訓練：先學未來影格，再微調動作＋影格（Cheang et al., 2024；He et al., 2024）。 #### 8.5　生成式模型於自駕車影片生成可條件於文字、影像、軌跡、地圖等（Gao et al., 2024；Hu et al., 2023），惟現有研究多受限於資料量、解析度或視角數。 Cosmos WFM 透過大規模預訓練與多視角微調，目標提供高解析、高幀率且視角一致的可擴充自駕模擬器。 #### 8.6　Tokenizer（視覺分碼器）自 1990 年代起即有將視覺資料壓縮成潛向量的研究（Hinton et al., 1995）。連續 Tokenizer（AE/VAE）為擴散式模型提供高效潛空間（Rombach et al., 2022）；離散 Tokenizer 加入量化器，易於與 LLM 融合（van den Oord et al., 2017；Mentzer et al., 2023）。 Cosmos Tokenizer 參考 FSQ 與因果架構（Yu et al., 2023），旨在建立一系列高效率、高品質之視覺分碼器，以支援大型 WFM 訓練。 ## 第 9 章　結論與討論 Cosmos 世界基礎模型（WFM）朝向建構通用實體世界模擬器邁出重要一步。本研究說明了完整方法：包含資料收集流程、連續／離散分碼器設計、擴散式與自回歸式 WFM 架構，以及面向多元 Physical AI 任務的微調策略。我們展示了預訓練 WFM 在 3D 世界導航、機器人操作與自駕車系統等關鍵應用中的適應力，這些任務同時要求 3D 一致性與動作可控性。限制　儘管取得進展，世界基礎模型仍處於早期階段，離可靠的實體世界模擬器尚有距離。我們觀察到模型仍存在物件持續性不足、接觸動力學不準確、指令遵循不一致等問題；生成影片的物理合理性（重力、光線、流體等）亦未臻完善。評估同樣是一大挑戰：人工作業難以制定客觀一致的物理真實度量表，且主觀評分未必與下游任務指標正相關。未來可結合多模態 LLM 自動評估器，或利用既有物理模擬器進行可重複且互動式測試，以降低對人工評估的依賴。自回歸 vs. 擴散式 WFM　3D 一致性與機器人影片生成結果顯示，擴散式 WFM 目前在生成品質上較佳，且經微調後能靈活整合相機姿態、末端執行器位置、自駕軌跡等控制訊號，輸出多視角影片等新格式。然而，自回歸式 WFM 仍具潛在優勢：可接續大型語言模型（LLM）權重，繼承龐大世界知識；能利用因果注意力的推論優化技術，加速生成。若這些能力充分落實，自回歸式 WFM 於互動控制或即時處理（如機器人規劃）領域將更具吸引力。擴散與自回歸之間的邊界並非絕對：近期研究顯示，具雙向注意力的擴散變壓器可蒸餾成具因果注意力且支援快取的學生模型（Yin et al., 2024）；相反地，自回歸模型亦可引入局部雙向注意力並以擴散頭生成影像（Zhou et al., 2024）。探索此類混合架構及其權衡，仍是值得關注的研究方向。我們計畫於後續工作中深入探討並完整分析。