How Open World Models are Powering the Next Breakthroughs in Physical AI

# How Open World Models are Powering the Next Breakthroughs in Physical AI ## NVIDIA GTC 2026 產業技術研究報告 --- **Session ID**：S81667 **講者**：NVIDIA VP Generative AI Research **NVIDIA Technology**：Cosmos **主題定位**：Physical AI / World Foundation Models / Sim-to-Real --- ## 一、場次定位與核心命題 Physical AI 的主要瓶頸之一，是「生成足夠逼真（photorealistic）的資料」與「具備穩健推理（reasoning）的世界理解能力」，以支援機器在真實世界的複雜性下仍能可靠感知、理解與適應。NVIDIA Cosmos 世界基礎模型（world foundation models）與其 open models/tools，是用來加速資料產生、訓練客製、與加速部署的核心平台。本場次將探討開發者如何使用 Cosmos open models and tools 來加速訓練、客製管線、以及更快部署至機器人、自駕車、視覺 AI 代理等場域。同時也會介紹 Cosmos 最新更新如何推進 physics-aware learning、強化 sim-to-real 能力、以及幫助建立下一代智慧適應性 AI 系統。 --- ## 二、背景：Physical AI 為什麼卡在「資料」與「世界理解」 ### 2.1 Physical AI 的資料困境機器人、AV（自駕/ADAS）、以及視覺型代理（vision AI agents）要在真實環境可靠運作，通常需要： | 資料需求 | 為什麼難 | |----------|----------| | 罕見事件（edge cases）與危險情境 | 真實蒐集昂貴且風險高 | | 多感測器、多視角、跨時間長序列 | 資料量與標註成本爆炸 | | 具備物理一致性的資料 | 動作、碰撞、摩擦、遮擋、慣性等需要正確呈現 | | 跨場域泛化資料 | 不同工廠/道路/室內環境差異大 | Cosmos 的論述是：必須把「世界」本身當成可學習與可生成的對象，用 world foundation models 來支撐合成資料、推理與模擬到真實（sim-to-real）。 ### 2.2 世界模型在 Physical AI 的角色 Cosmos 的研究脈絡把 Physical AI 系統拆成三個部分： | 組成 | 說明 | |------|------| | 機器本體的數位孿生 | 機器人/車輛/設備的虛擬化表示 | | 控制/策略模型（Policy） | 決策與動作生成 | | 世界模型（World Model） | 對環境的理解、預測與推理 | World foundation model 被定位為「可微調成領域世界模型的通用基座」——從通用世界理解能力出發，針對特定場域客製。 --- ## 三、Cosmos 平台組成 Cosmos 被定義為面向 Physical AI 的「developer-first 世界基礎模型平台」，包含以下核心模組： ### 3.1 Cosmos Core Models（世界基礎模型）一組用於「physics-aware 影片生成」的開放模型套件，包含 diffusion 與 autoregressive transformer 類模型。用來生成世界狀態與影片，或對影片做時空推理。 | 模型特性 | 說明 | |----------|------| | 架構類型 | Diffusion + Autoregressive Transformer | | 核心能力 | Physics-aware 影片生成、世界狀態推理 | | 定位 | 通用世界基座 → 微調為領域專用世界模型 | | 開放性 | Open models，開發者可取用與客製 | ### 3.2 Cosmos Curator（資料處理與策展）加速資料處理與生成，支援對大量感測資料進行篩選、標註、去重等，降低資料工程成本。 - 資料清理與去重 - 自動標註與屬性化 - 品質篩選與場景分類 - 降低 Physical AI 最大成本來源（資料工程）的人力負擔 ### 3.3 Cosmos Dataset Search（CDS）對資料集做「即時查詢並取回特定情境（scenarios）」，對於找 edge cases、回放特定事件、建立訓練/驗證切分非常關鍵。 ### 3.4 Guardrails（安全護欄）在生成/使用世界模型時做安全與治理：輸出限制、內容/場景約束、避免不合理生成擾亂訓練。 ### 3.5 Cosmos Cookbook（實務工作流程）提供 step-by-step workflows、技術配方與範例，用來重現成功部署並支援客製化。 ### 平台模組總覽 | 模組 | 功能 | 解決的問題 | |------|------|-----------| | Core Models | Physics-aware 影片/世界狀態生成 | 合成資料不足、世界理解能力 | | Curator | 資料清理、去重、標註 | 資料工程成本過高 | | Dataset Search | 情境檢索與子集建立 | Edge case 找不到、測試覆蓋不足 | | Guardrails | 安全護欄與內容約束 | 生成品質控管、治理合規 | | Cookbook | 實作配方與部署範式 | 從模型可用到系統可部署 | --- ## 四、開發者如何用 Cosmos 加速訓練、客製、部署 ### 4.1 資料段：Curator + Dataset Search | 步驟 | 工具 | 目的 | |------|------|------| | 資料清理與去重 | Curator | 降低資料噪音與儲存浪費 | | 自動標註與品質篩選 | Curator | 降低人工標註成本 | | 情境檢索 | Dataset Search | 快速找特定情境，形成訓練/測試集或失效案例集 | 這段的目的是把 Physical AI 最大成本來源（資料工程）變成可規模化的 pipeline。 ### 4.2 模型段：Core Models → 下游客製 | 步驟 | 說明 | |------|------| | 基座選用 | 以 world foundation model 作為通用世界模型基座 | | 領域微調 | 針對你的 domain（工廠、手術室、室內機器人、道路情境）微調成專用世界模型 | | 合成資料生成 | 用客製後的世界模型產生 physics-aware 合成影片/世界狀態 | 這是 Cosmos 論文對「world foundation model → customized world model」的核心定位。 ### 4.3 部署段：工具鏈加速落地 Cookbook 與 docs 的定位是把「模型可用」轉成「系統可部署」：包含資料管線、模型使用方式、護欄與部署範式。 --- ## 五、Physics-Aware Learning 與 Sim-to-Real ### 5.1 為什麼 Physics-Aware 是關鍵傳統合成資料（如純 3D 渲染）常見的問題： | 問題 | 後果 | |------|------| | 視覺不夠逼真 | Domain gap 導致模型在真實世界退化 | | 物理行為不一致 | 碰撞、慣性、摩擦等不符實際，策略模型學到錯誤行為 | | 場景多樣性不足 | 長尾事件仍然覆蓋不到 | Cosmos 的 physics-aware learning 目標是讓合成世界更貼近真實物理行為，從而讓用合成資料訓練出的模型在真實世界表現更穩健。 ### 5.2 Sim-to-Real 的價值鏈 ``` World Foundation Model（Cosmos Core） │ 領域微調 │ Physics-Aware 合成資料生成 │ 真實 + 合成混合訓練 │ Sim-to-Real 驗證 │ 真實世界部署 ``` Physics-aware 的程度直接決定 sim-to-real 的 gap 大小。這是本場次最核心的價值主張之一。 --- ## 六、典型落地架構以下是「用 Cosmos 驅動 Physical AI」的端到端參考架構，可套用到機器人/AV/vision agent 專案： | 步驟 | 內容 | 對應 Cosmos 模組 | |------|------|-----------------| | ① 資料匯入 | 感測資料（影像/多視角影片/雷達等）進資料湖 | — | | ② 資料策展 | 清理、去重、標註/屬性化 | Curator | | ③ 情境檢索 | 建立 scenario 子集（edge cases、長尾事件） | Dataset Search | | ④ 合成資料生成 | 產生 physics-aware 合成影片/世界狀態 | Core Models | | ⑤ 訓練 | 用「真實＋合成」混合資料訓練感知/預測/策略模型 | Core Models（微調後） | | ⑥ 驗證 | 以 scenario 子集做 regression、失效追蹤 | Dataset Search + Guardrails | | ⑦ 部署 | 上線到機器人/AV/視覺代理系統 | Cookbook + Guardrails | --- ## 七、應用場域對照 | 應用場域 | 典型場景 | Cosmos 的主要價值 | |----------|----------|-------------------| | 機器人 | 工廠自動化、倉儲 AMR、服務機器人 | 合成場景訓練、physics-aware 避障/導航 | | 自駕車 / ADAS | 道路情境生成、edge case 覆蓋 | 長尾事件合成、sim-to-real 驗證 | | Vision AI Agents | 智慧監控、零售分析、安全巡檢 | 多場景視覺理解、情境推理 | | 醫療 AI | 手術場景模擬、醫療影像生成 | 合成資料補充稀缺臨床資料 | --- ## 八、評估指標與風險點 ### 8.1 建議評估指標 | 面向 | 指標 | |------|------| | 資料面 | 去重率、標註覆蓋率、scenario 覆蓋率（長尾事件比例） | | 模型面 | 真實測試集表現、長尾事件表現、跨 domain 泛化 | | Sim-to-Real 面 | 合成資料比例提升後，真實世界性能是否提升或退化 | | 系統面 | 訓練週期縮短、部署頻率提升、回歸測試時間縮短（MLOps 指標） | ### 8.2 主要風險點 | 風險 | 說明 | 緩解方式 | |------|------|----------| | 合成偏差（Synthetic Bias） | 合成世界與真實分佈偏離，模型學到錯誤捷徑 | 持續監控 real vs synthetic 分佈差異，混合比例調整 | | 物理不一致 | Physics-aware 若不足，策略/控制類模型風險更高 | 以真實資料做 regression 驗證，建立物理一致性 benchmark | | 資料與版本治理 | Scenario 切分、合成版本、模型版本需可追溯 | 完整的 data lineage + model registry | | 安全護欄 | 生成內容、情境約束與輸出可控性 | 導入 Cosmos Guardrails，設定生成邊界與審計 | --- ## 九、決策者應帶走的關鍵結論 | 結論 | 說明 | |------|------| | Physical AI 的瓶頸在資料與世界理解 | 不是模型能力不夠，而是高品質、物理一致的資料太難取得 | | World Foundation Model 是新的基座概念 | 類比 LLM 的基座模型，但目標是「理解並生成世界」 | | Open models 降低導入門檻 | 開發者可直接取用 Cosmos 開放模型，客製成領域專用 | | 資料工程是最大成本 | Curator + Dataset Search 把資料管線規模化是導入的第一步 | | Physics-aware 程度決定 sim-to-real gap | 合成資料的物理一致性直接影響真實部署性能 | | Guardrails 是量產必備 | 安全護欄不是附加功能，是生成式 AI 用於 Physical AI 的前提 | | 先用 Cookbook 跑通再客製 | 從官方配方出發，驗證可行後再做領域微調 | --- ## 十、延伸學習資源 | 主題 | 建議資源 | |------|----------| | GTC26 S81667 場次資訊 | GTC Session Catalog（場次摘要） | | Cosmos 官網 | NVIDIA Cosmos 官方頁（平台模組：Core Models、Curator、Dataset Search） | | Cosmos 官方文件 | NVIDIA Cosmos Docs（平台定義、guardrails、資料管線） | | Cosmos Cookbook | Cosmos Cookbook（step-by-step 實作配方與工作流程） | | Cosmos WFM 技術介紹 | NVIDIA Blog：Cosmos World Foundation Models | | Cosmos 研究論文 | arXiv：Cosmos World Foundation Model Platform | | 先修內容 | GTC25：An Introduction to NVIDIA Cosmos World Foundation Models | | 會後回看 | NVIDIA On-Demand（會後以 S81667 搜尋錄影/投影片） | --- *— 報告完 —*