# How Open World Models are Powering the Next Breakthroughs in Physical AI
## NVIDIA GTC 2026 產業技術研究報告
---
**Session ID**:S81667
**講者**:NVIDIA VP Generative AI Research
**NVIDIA Technology**:Cosmos
**主題定位**:Physical AI / World Foundation Models / Sim-to-Real
---
## 一、場次定位與核心命題
Physical AI 的主要瓶頸之一,是「生成足夠逼真(photorealistic)的資料」與「具備穩健推理(reasoning)的世界理解能力」,以支援機器在真實世界的複雜性下仍能可靠感知、理解與適應。NVIDIA Cosmos 世界基礎模型(world foundation models)與其 open models/tools,是用來加速資料產生、訓練客製、與加速部署的核心平台。
本場次將探討開發者如何使用 Cosmos open models and tools 來加速訓練、客製管線、以及更快部署至機器人、自駕車、視覺 AI 代理等場域。同時也會介紹 Cosmos 最新更新如何推進 physics-aware learning、強化 sim-to-real 能力、以及幫助建立下一代智慧適應性 AI 系統。
---
## 二、背景:Physical AI 為什麼卡在「資料」與「世界理解」
### 2.1 Physical AI 的資料困境
機器人、AV(自駕/ADAS)、以及視覺型代理(vision AI agents)要在真實環境可靠運作,通常需要:
| 資料需求 | 為什麼難 |
|----------|----------|
| 罕見事件(edge cases)與危險情境 | 真實蒐集昂貴且風險高 |
| 多感測器、多視角、跨時間長序列 | 資料量與標註成本爆炸 |
| 具備物理一致性的資料 | 動作、碰撞、摩擦、遮擋、慣性等需要正確呈現 |
| 跨場域泛化資料 | 不同工廠/道路/室內環境差異大 |
Cosmos 的論述是:必須把「世界」本身當成可學習與可生成的對象,用 world foundation models 來支撐合成資料、推理與模擬到真實(sim-to-real)。
### 2.2 世界模型在 Physical AI 的角色
Cosmos 的研究脈絡把 Physical AI 系統拆成三個部分:
| 組成 | 說明 |
|------|------|
| 機器本體的數位孿生 | 機器人/車輛/設備的虛擬化表示 |
| 控制/策略模型(Policy) | 決策與動作生成 |
| 世界模型(World Model) | 對環境的理解、預測與推理 |
World foundation model 被定位為「可微調成領域世界模型的通用基座」——從通用世界理解能力出發,針對特定場域客製。
---
## 三、Cosmos 平台組成
Cosmos 被定義為面向 Physical AI 的「developer-first 世界基礎模型平台」,包含以下核心模組:
### 3.1 Cosmos Core Models(世界基礎模型)
一組用於「physics-aware 影片生成」的開放模型套件,包含 diffusion 與 autoregressive transformer 類模型。用來生成世界狀態與影片,或對影片做時空推理。
| 模型特性 | 說明 |
|----------|------|
| 架構類型 | Diffusion + Autoregressive Transformer |
| 核心能力 | Physics-aware 影片生成、世界狀態推理 |
| 定位 | 通用世界基座 → 微調為領域專用世界模型 |
| 開放性 | Open models,開發者可取用與客製 |
### 3.2 Cosmos Curator(資料處理與策展)
加速資料處理與生成,支援對大量感測資料進行篩選、標註、去重等,降低資料工程成本。
- 資料清理與去重
- 自動標註與屬性化
- 品質篩選與場景分類
- 降低 Physical AI 最大成本來源(資料工程)的人力負擔
### 3.3 Cosmos Dataset Search(CDS)
對資料集做「即時查詢並取回特定情境(scenarios)」,對於找 edge cases、回放特定事件、建立訓練/驗證切分非常關鍵。
### 3.4 Guardrails(安全護欄)
在生成/使用世界模型時做安全與治理:輸出限制、內容/場景約束、避免不合理生成擾亂訓練。
### 3.5 Cosmos Cookbook(實務工作流程)
提供 step-by-step workflows、技術配方與範例,用來重現成功部署並支援客製化。
### 平台模組總覽
| 模組 | 功能 | 解決的問題 |
|------|------|-----------|
| Core Models | Physics-aware 影片/世界狀態生成 | 合成資料不足、世界理解能力 |
| Curator | 資料清理、去重、標註 | 資料工程成本過高 |
| Dataset Search | 情境檢索與子集建立 | Edge case 找不到、測試覆蓋不足 |
| Guardrails | 安全護欄與內容約束 | 生成品質控管、治理合規 |
| Cookbook | 實作配方與部署範式 | 從模型可用到系統可部署 |
---
## 四、開發者如何用 Cosmos 加速訓練、客製、部署
### 4.1 資料段:Curator + Dataset Search
| 步驟 | 工具 | 目的 |
|------|------|------|
| 資料清理與去重 | Curator | 降低資料噪音與儲存浪費 |
| 自動標註與品質篩選 | Curator | 降低人工標註成本 |
| 情境檢索 | Dataset Search | 快速找特定情境,形成訓練/測試集或失效案例集 |
這段的目的是把 Physical AI 最大成本來源(資料工程)變成可規模化的 pipeline。
### 4.2 模型段:Core Models → 下游客製
| 步驟 | 說明 |
|------|------|
| 基座選用 | 以 world foundation model 作為通用世界模型基座 |
| 領域微調 | 針對你的 domain(工廠、手術室、室內機器人、道路情境)微調成專用世界模型 |
| 合成資料生成 | 用客製後的世界模型產生 physics-aware 合成影片/世界狀態 |
這是 Cosmos 論文對「world foundation model → customized world model」的核心定位。
### 4.3 部署段:工具鏈加速落地
Cookbook 與 docs 的定位是把「模型可用」轉成「系統可部署」:包含資料管線、模型使用方式、護欄與部署範式。
---
## 五、Physics-Aware Learning 與 Sim-to-Real
### 5.1 為什麼 Physics-Aware 是關鍵
傳統合成資料(如純 3D 渲染)常見的問題:
| 問題 | 後果 |
|------|------|
| 視覺不夠逼真 | Domain gap 導致模型在真實世界退化 |
| 物理行為不一致 | 碰撞、慣性、摩擦等不符實際,策略模型學到錯誤行為 |
| 場景多樣性不足 | 長尾事件仍然覆蓋不到 |
Cosmos 的 physics-aware learning 目標是讓合成世界更貼近真實物理行為,從而讓用合成資料訓練出的模型在真實世界表現更穩健。
### 5.2 Sim-to-Real 的價值鏈
```
World Foundation Model(Cosmos Core)
│
領域微調
│
Physics-Aware 合成資料生成
│
真實 + 合成 混合訓練
│
Sim-to-Real 驗證
│
真實世界部署
```
Physics-aware 的程度直接決定 sim-to-real 的 gap 大小。這是本場次最核心的價值主張之一。
---
## 六、典型落地架構
以下是「用 Cosmos 驅動 Physical AI」的端到端參考架構,可套用到機器人/AV/vision agent 專案:
| 步驟 | 內容 | 對應 Cosmos 模組 |
|------|------|-----------------|
| ① 資料匯入 | 感測資料(影像/多視角影片/雷達等)進資料湖 | — |
| ② 資料策展 | 清理、去重、標註/屬性化 | Curator |
| ③ 情境檢索 | 建立 scenario 子集(edge cases、長尾事件) | Dataset Search |
| ④ 合成資料生成 | 產生 physics-aware 合成影片/世界狀態 | Core Models |
| ⑤ 訓練 | 用「真實+合成」混合資料訓練感知/預測/策略模型 | Core Models(微調後) |
| ⑥ 驗證 | 以 scenario 子集做 regression、失效追蹤 | Dataset Search + Guardrails |
| ⑦ 部署 | 上線到機器人/AV/視覺代理系統 | Cookbook + Guardrails |
---
## 七、應用場域對照
| 應用場域 | 典型場景 | Cosmos 的主要價值 |
|----------|----------|-------------------|
| 機器人 | 工廠自動化、倉儲 AMR、服務機器人 | 合成場景訓練、physics-aware 避障/導航 |
| 自駕車 / ADAS | 道路情境生成、edge case 覆蓋 | 長尾事件合成、sim-to-real 驗證 |
| Vision AI Agents | 智慧監控、零售分析、安全巡檢 | 多場景視覺理解、情境推理 |
| 醫療 AI | 手術場景模擬、醫療影像生成 | 合成資料補充稀缺臨床資料 |
---
## 八、評估指標與風險點
### 8.1 建議評估指標
| 面向 | 指標 |
|------|------|
| 資料面 | 去重率、標註覆蓋率、scenario 覆蓋率(長尾事件比例) |
| 模型面 | 真實測試集表現、長尾事件表現、跨 domain 泛化 |
| Sim-to-Real 面 | 合成資料比例提升後,真實世界性能是否提升或退化 |
| 系統面 | 訓練週期縮短、部署頻率提升、回歸測試時間縮短(MLOps 指標) |
### 8.2 主要風險點
| 風險 | 說明 | 緩解方式 |
|------|------|----------|
| 合成偏差(Synthetic Bias) | 合成世界與真實分佈偏離,模型學到錯誤捷徑 | 持續監控 real vs synthetic 分佈差異,混合比例調整 |
| 物理不一致 | Physics-aware 若不足,策略/控制類模型風險更高 | 以真實資料做 regression 驗證,建立物理一致性 benchmark |
| 資料與版本治理 | Scenario 切分、合成版本、模型版本需可追溯 | 完整的 data lineage + model registry |
| 安全護欄 | 生成內容、情境約束與輸出可控性 | 導入 Cosmos Guardrails,設定生成邊界與審計 |
---
## 九、決策者應帶走的關鍵結論
| 結論 | 說明 |
|------|------|
| Physical AI 的瓶頸在資料與世界理解 | 不是模型能力不夠,而是高品質、物理一致的資料太難取得 |
| World Foundation Model 是新的基座概念 | 類比 LLM 的基座模型,但目標是「理解並生成世界」 |
| Open models 降低導入門檻 | 開發者可直接取用 Cosmos 開放模型,客製成領域專用 |
| 資料工程是最大成本 | Curator + Dataset Search 把資料管線規模化是導入的第一步 |
| Physics-aware 程度決定 sim-to-real gap | 合成資料的物理一致性直接影響真實部署性能 |
| Guardrails 是量產必備 | 安全護欄不是附加功能,是生成式 AI 用於 Physical AI 的前提 |
| 先用 Cookbook 跑通再客製 | 從官方配方出發,驗證可行後再做領域微調 |
---
## 十、延伸學習資源
| 主題 | 建議資源 |
|------|----------|
| GTC26 S81667 場次資訊 | GTC Session Catalog(場次摘要) |
| Cosmos 官網 | NVIDIA Cosmos 官方頁(平台模組:Core Models、Curator、Dataset Search) |
| Cosmos 官方文件 | NVIDIA Cosmos Docs(平台定義、guardrails、資料管線) |
| Cosmos Cookbook | Cosmos Cookbook(step-by-step 實作配方與工作流程) |
| Cosmos WFM 技術介紹 | NVIDIA Blog:Cosmos World Foundation Models |
| Cosmos 研究論文 | arXiv:Cosmos World Foundation Model Platform |
| 先修內容 | GTC25:An Introduction to NVIDIA Cosmos World Foundation Models |
| 會後回看 | NVIDIA On-Demand(會後以 S81667 搜尋錄影/投影片) |
---
*— 報告完 —*