# How Open World Models are Powering the Next Breakthroughs in Physical AI ## NVIDIA GTC 2026 產業技術研究報告 --- **Session ID**:S81667 **講者**:NVIDIA VP Generative AI Research **NVIDIA Technology**:Cosmos **主題定位**:Physical AI / World Foundation Models / Sim-to-Real --- ## 一、場次定位與核心命題 Physical AI 的主要瓶頸之一,是「生成足夠逼真(photorealistic)的資料」與「具備穩健推理(reasoning)的世界理解能力」,以支援機器在真實世界的複雜性下仍能可靠感知、理解與適應。NVIDIA Cosmos 世界基礎模型(world foundation models)與其 open models/tools,是用來加速資料產生、訓練客製、與加速部署的核心平台。 本場次將探討開發者如何使用 Cosmos open models and tools 來加速訓練、客製管線、以及更快部署至機器人、自駕車、視覺 AI 代理等場域。同時也會介紹 Cosmos 最新更新如何推進 physics-aware learning、強化 sim-to-real 能力、以及幫助建立下一代智慧適應性 AI 系統。 --- ## 二、背景:Physical AI 為什麼卡在「資料」與「世界理解」 ### 2.1 Physical AI 的資料困境 機器人、AV(自駕/ADAS)、以及視覺型代理(vision AI agents)要在真實環境可靠運作,通常需要: | 資料需求 | 為什麼難 | |----------|----------| | 罕見事件(edge cases)與危險情境 | 真實蒐集昂貴且風險高 | | 多感測器、多視角、跨時間長序列 | 資料量與標註成本爆炸 | | 具備物理一致性的資料 | 動作、碰撞、摩擦、遮擋、慣性等需要正確呈現 | | 跨場域泛化資料 | 不同工廠/道路/室內環境差異大 | Cosmos 的論述是:必須把「世界」本身當成可學習與可生成的對象,用 world foundation models 來支撐合成資料、推理與模擬到真實(sim-to-real)。 ### 2.2 世界模型在 Physical AI 的角色 Cosmos 的研究脈絡把 Physical AI 系統拆成三個部分: | 組成 | 說明 | |------|------| | 機器本體的數位孿生 | 機器人/車輛/設備的虛擬化表示 | | 控制/策略模型(Policy) | 決策與動作生成 | | 世界模型(World Model) | 對環境的理解、預測與推理 | World foundation model 被定位為「可微調成領域世界模型的通用基座」——從通用世界理解能力出發,針對特定場域客製。 --- ## 三、Cosmos 平台組成 Cosmos 被定義為面向 Physical AI 的「developer-first 世界基礎模型平台」,包含以下核心模組: ### 3.1 Cosmos Core Models(世界基礎模型) 一組用於「physics-aware 影片生成」的開放模型套件,包含 diffusion 與 autoregressive transformer 類模型。用來生成世界狀態與影片,或對影片做時空推理。 | 模型特性 | 說明 | |----------|------| | 架構類型 | Diffusion + Autoregressive Transformer | | 核心能力 | Physics-aware 影片生成、世界狀態推理 | | 定位 | 通用世界基座 → 微調為領域專用世界模型 | | 開放性 | Open models,開發者可取用與客製 | ### 3.2 Cosmos Curator(資料處理與策展) 加速資料處理與生成,支援對大量感測資料進行篩選、標註、去重等,降低資料工程成本。 - 資料清理與去重 - 自動標註與屬性化 - 品質篩選與場景分類 - 降低 Physical AI 最大成本來源(資料工程)的人力負擔 ### 3.3 Cosmos Dataset Search(CDS) 對資料集做「即時查詢並取回特定情境(scenarios)」,對於找 edge cases、回放特定事件、建立訓練/驗證切分非常關鍵。 ### 3.4 Guardrails(安全護欄) 在生成/使用世界模型時做安全與治理:輸出限制、內容/場景約束、避免不合理生成擾亂訓練。 ### 3.5 Cosmos Cookbook(實務工作流程) 提供 step-by-step workflows、技術配方與範例,用來重現成功部署並支援客製化。 ### 平台模組總覽 | 模組 | 功能 | 解決的問題 | |------|------|-----------| | Core Models | Physics-aware 影片/世界狀態生成 | 合成資料不足、世界理解能力 | | Curator | 資料清理、去重、標註 | 資料工程成本過高 | | Dataset Search | 情境檢索與子集建立 | Edge case 找不到、測試覆蓋不足 | | Guardrails | 安全護欄與內容約束 | 生成品質控管、治理合規 | | Cookbook | 實作配方與部署範式 | 從模型可用到系統可部署 | --- ## 四、開發者如何用 Cosmos 加速訓練、客製、部署 ### 4.1 資料段:Curator + Dataset Search | 步驟 | 工具 | 目的 | |------|------|------| | 資料清理與去重 | Curator | 降低資料噪音與儲存浪費 | | 自動標註與品質篩選 | Curator | 降低人工標註成本 | | 情境檢索 | Dataset Search | 快速找特定情境,形成訓練/測試集或失效案例集 | 這段的目的是把 Physical AI 最大成本來源(資料工程)變成可規模化的 pipeline。 ### 4.2 模型段:Core Models → 下游客製 | 步驟 | 說明 | |------|------| | 基座選用 | 以 world foundation model 作為通用世界模型基座 | | 領域微調 | 針對你的 domain(工廠、手術室、室內機器人、道路情境)微調成專用世界模型 | | 合成資料生成 | 用客製後的世界模型產生 physics-aware 合成影片/世界狀態 | 這是 Cosmos 論文對「world foundation model → customized world model」的核心定位。 ### 4.3 部署段:工具鏈加速落地 Cookbook 與 docs 的定位是把「模型可用」轉成「系統可部署」:包含資料管線、模型使用方式、護欄與部署範式。 --- ## 五、Physics-Aware Learning 與 Sim-to-Real ### 5.1 為什麼 Physics-Aware 是關鍵 傳統合成資料(如純 3D 渲染)常見的問題: | 問題 | 後果 | |------|------| | 視覺不夠逼真 | Domain gap 導致模型在真實世界退化 | | 物理行為不一致 | 碰撞、慣性、摩擦等不符實際,策略模型學到錯誤行為 | | 場景多樣性不足 | 長尾事件仍然覆蓋不到 | Cosmos 的 physics-aware learning 目標是讓合成世界更貼近真實物理行為,從而讓用合成資料訓練出的模型在真實世界表現更穩健。 ### 5.2 Sim-to-Real 的價值鏈 ``` World Foundation Model(Cosmos Core) │ 領域微調 │ Physics-Aware 合成資料生成 │ 真實 + 合成 混合訓練 │ Sim-to-Real 驗證 │ 真實世界部署 ``` Physics-aware 的程度直接決定 sim-to-real 的 gap 大小。這是本場次最核心的價值主張之一。 --- ## 六、典型落地架構 以下是「用 Cosmos 驅動 Physical AI」的端到端參考架構,可套用到機器人/AV/vision agent 專案: | 步驟 | 內容 | 對應 Cosmos 模組 | |------|------|-----------------| | ① 資料匯入 | 感測資料(影像/多視角影片/雷達等)進資料湖 | — | | ② 資料策展 | 清理、去重、標註/屬性化 | Curator | | ③ 情境檢索 | 建立 scenario 子集(edge cases、長尾事件) | Dataset Search | | ④ 合成資料生成 | 產生 physics-aware 合成影片/世界狀態 | Core Models | | ⑤ 訓練 | 用「真實+合成」混合資料訓練感知/預測/策略模型 | Core Models(微調後) | | ⑥ 驗證 | 以 scenario 子集做 regression、失效追蹤 | Dataset Search + Guardrails | | ⑦ 部署 | 上線到機器人/AV/視覺代理系統 | Cookbook + Guardrails | --- ## 七、應用場域對照 | 應用場域 | 典型場景 | Cosmos 的主要價值 | |----------|----------|-------------------| | 機器人 | 工廠自動化、倉儲 AMR、服務機器人 | 合成場景訓練、physics-aware 避障/導航 | | 自駕車 / ADAS | 道路情境生成、edge case 覆蓋 | 長尾事件合成、sim-to-real 驗證 | | Vision AI Agents | 智慧監控、零售分析、安全巡檢 | 多場景視覺理解、情境推理 | | 醫療 AI | 手術場景模擬、醫療影像生成 | 合成資料補充稀缺臨床資料 | --- ## 八、評估指標與風險點 ### 8.1 建議評估指標 | 面向 | 指標 | |------|------| | 資料面 | 去重率、標註覆蓋率、scenario 覆蓋率(長尾事件比例) | | 模型面 | 真實測試集表現、長尾事件表現、跨 domain 泛化 | | Sim-to-Real 面 | 合成資料比例提升後,真實世界性能是否提升或退化 | | 系統面 | 訓練週期縮短、部署頻率提升、回歸測試時間縮短(MLOps 指標) | ### 8.2 主要風險點 | 風險 | 說明 | 緩解方式 | |------|------|----------| | 合成偏差(Synthetic Bias) | 合成世界與真實分佈偏離,模型學到錯誤捷徑 | 持續監控 real vs synthetic 分佈差異,混合比例調整 | | 物理不一致 | Physics-aware 若不足,策略/控制類模型風險更高 | 以真實資料做 regression 驗證,建立物理一致性 benchmark | | 資料與版本治理 | Scenario 切分、合成版本、模型版本需可追溯 | 完整的 data lineage + model registry | | 安全護欄 | 生成內容、情境約束與輸出可控性 | 導入 Cosmos Guardrails,設定生成邊界與審計 | --- ## 九、決策者應帶走的關鍵結論 | 結論 | 說明 | |------|------| | Physical AI 的瓶頸在資料與世界理解 | 不是模型能力不夠,而是高品質、物理一致的資料太難取得 | | World Foundation Model 是新的基座概念 | 類比 LLM 的基座模型,但目標是「理解並生成世界」 | | Open models 降低導入門檻 | 開發者可直接取用 Cosmos 開放模型,客製成領域專用 | | 資料工程是最大成本 | Curator + Dataset Search 把資料管線規模化是導入的第一步 | | Physics-aware 程度決定 sim-to-real gap | 合成資料的物理一致性直接影響真實部署性能 | | Guardrails 是量產必備 | 安全護欄不是附加功能,是生成式 AI 用於 Physical AI 的前提 | | 先用 Cookbook 跑通再客製 | 從官方配方出發,驗證可行後再做領域微調 | --- ## 十、延伸學習資源 | 主題 | 建議資源 | |------|----------| | GTC26 S81667 場次資訊 | GTC Session Catalog(場次摘要) | | Cosmos 官網 | NVIDIA Cosmos 官方頁(平台模組:Core Models、Curator、Dataset Search) | | Cosmos 官方文件 | NVIDIA Cosmos Docs(平台定義、guardrails、資料管線) | | Cosmos Cookbook | Cosmos Cookbook(step-by-step 實作配方與工作流程) | | Cosmos WFM 技術介紹 | NVIDIA Blog:Cosmos World Foundation Models | | Cosmos 研究論文 | arXiv:Cosmos World Foundation Model Platform | | 先修內容 | GTC25:An Introduction to NVIDIA Cosmos World Foundation Models | | 會後回看 | NVIDIA On-Demand(會後以 S81667 搜尋錄影/投影片) | --- *— 報告完 —*