---
# System prepended metadata

title: How Open World Models are Powering the Next Breakthroughs in Physical AI

---

# How Open World Models are Powering the Next Breakthroughs in Physical AI

## NVIDIA GTC 2026 產業技術研究報告

---

**Session ID**：S81667
**講者**：NVIDIA VP Generative AI Research
**NVIDIA Technology**：Cosmos
**主題定位**：Physical AI / World Foundation Models / Sim-to-Real

---

## 一、場次定位與核心命題

Physical AI 的主要瓶頸之一，是「生成足夠逼真（photorealistic）的資料」與「具備穩健推理（reasoning）的世界理解能力」，以支援機器在真實世界的複雜性下仍能可靠感知、理解與適應。NVIDIA Cosmos 世界基礎模型（world foundation models）與其 open models/tools，是用來加速資料產生、訓練客製、與加速部署的核心平台。

本場次將探討開發者如何使用 Cosmos open models and tools 來加速訓練、客製管線、以及更快部署至機器人、自駕車、視覺 AI 代理等場域。同時也會介紹 Cosmos 最新更新如何推進 physics-aware learning、強化 sim-to-real 能力、以及幫助建立下一代智慧適應性 AI 系統。

---

## 二、背景：Physical AI 為什麼卡在「資料」與「世界理解」

### 2.1 Physical AI 的資料困境

機器人、AV（自駕/ADAS）、以及視覺型代理（vision AI agents）要在真實環境可靠運作，通常需要：

| 資料需求 | 為什麼難 |
|----------|----------|
| 罕見事件（edge cases）與危險情境 | 真實蒐集昂貴且風險高 |
| 多感測器、多視角、跨時間長序列 | 資料量與標註成本爆炸 |
| 具備物理一致性的資料 | 動作、碰撞、摩擦、遮擋、慣性等需要正確呈現 |
| 跨場域泛化資料 | 不同工廠/道路/室內環境差異大 |

Cosmos 的論述是：必須把「世界」本身當成可學習與可生成的對象，用 world foundation models 來支撐合成資料、推理與模擬到真實（sim-to-real）。

### 2.2 世界模型在 Physical AI 的角色

Cosmos 的研究脈絡把 Physical AI 系統拆成三個部分：

| 組成 | 說明 |
|------|------|
| 機器本體的數位孿生 | 機器人/車輛/設備的虛擬化表示 |
| 控制/策略模型（Policy） | 決策與動作生成 |
| 世界模型（World Model） | 對環境的理解、預測與推理 |

World foundation model 被定位為「可微調成領域世界模型的通用基座」——從通用世界理解能力出發，針對特定場域客製。

---

## 三、Cosmos 平台組成

Cosmos 被定義為面向 Physical AI 的「developer-first 世界基礎模型平台」，包含以下核心模組：

### 3.1 Cosmos Core Models（世界基礎模型）

一組用於「physics-aware 影片生成」的開放模型套件，包含 diffusion 與 autoregressive transformer 類模型。用來生成世界狀態與影片，或對影片做時空推理。

| 模型特性 | 說明 |
|----------|------|
| 架構類型 | Diffusion + Autoregressive Transformer |
| 核心能力 | Physics-aware 影片生成、世界狀態推理 |
| 定位 | 通用世界基座 → 微調為領域專用世界模型 |
| 開放性 | Open models，開發者可取用與客製 |

### 3.2 Cosmos Curator（資料處理與策展）

加速資料處理與生成，支援對大量感測資料進行篩選、標註、去重等，降低資料工程成本。

- 資料清理與去重
- 自動標註與屬性化
- 品質篩選與場景分類
- 降低 Physical AI 最大成本來源（資料工程）的人力負擔

### 3.3 Cosmos Dataset Search（CDS）

對資料集做「即時查詢並取回特定情境（scenarios）」，對於找 edge cases、回放特定事件、建立訓練/驗證切分非常關鍵。

### 3.4 Guardrails（安全護欄）

在生成/使用世界模型時做安全與治理：輸出限制、內容/場景約束、避免不合理生成擾亂訓練。

### 3.5 Cosmos Cookbook（實務工作流程）

提供 step-by-step workflows、技術配方與範例，用來重現成功部署並支援客製化。

### 平台模組總覽

| 模組 | 功能 | 解決的問題 |
|------|------|-----------|
| Core Models | Physics-aware 影片/世界狀態生成 | 合成資料不足、世界理解能力 |
| Curator | 資料清理、去重、標註 | 資料工程成本過高 |
| Dataset Search | 情境檢索與子集建立 | Edge case 找不到、測試覆蓋不足 |
| Guardrails | 安全護欄與內容約束 | 生成品質控管、治理合規 |
| Cookbook | 實作配方與部署範式 | 從模型可用到系統可部署 |

---

## 四、開發者如何用 Cosmos 加速訓練、客製、部署

### 4.1 資料段：Curator + Dataset Search

| 步驟 | 工具 | 目的 |
|------|------|------|
| 資料清理與去重 | Curator | 降低資料噪音與儲存浪費 |
| 自動標註與品質篩選 | Curator | 降低人工標註成本 |
| 情境檢索 | Dataset Search | 快速找特定情境，形成訓練/測試集或失效案例集 |

這段的目的是把 Physical AI 最大成本來源（資料工程）變成可規模化的 pipeline。

### 4.2 模型段：Core Models → 下游客製

| 步驟 | 說明 |
|------|------|
| 基座選用 | 以 world foundation model 作為通用世界模型基座 |
| 領域微調 | 針對你的 domain（工廠、手術室、室內機器人、道路情境）微調成專用世界模型 |
| 合成資料生成 | 用客製後的世界模型產生 physics-aware 合成影片/世界狀態 |

這是 Cosmos 論文對「world foundation model → customized world model」的核心定位。

### 4.3 部署段：工具鏈加速落地

Cookbook 與 docs 的定位是把「模型可用」轉成「系統可部署」：包含資料管線、模型使用方式、護欄與部署範式。

---

## 五、Physics-Aware Learning 與 Sim-to-Real

### 5.1 為什麼 Physics-Aware 是關鍵

傳統合成資料（如純 3D 渲染）常見的問題：

| 問題 | 後果 |
|------|------|
| 視覺不夠逼真 | Domain gap 導致模型在真實世界退化 |
| 物理行為不一致 | 碰撞、慣性、摩擦等不符實際，策略模型學到錯誤行為 |
| 場景多樣性不足 | 長尾事件仍然覆蓋不到 |

Cosmos 的 physics-aware learning 目標是讓合成世界更貼近真實物理行為，從而讓用合成資料訓練出的模型在真實世界表現更穩健。

### 5.2 Sim-to-Real 的價值鏈

```
World Foundation Model（Cosmos Core）
        │
    領域微調
        │
Physics-Aware 合成資料生成
        │
  真實 + 合成 混合訓練
        │
   Sim-to-Real 驗證
        │
  真實世界部署
```

Physics-aware 的程度直接決定 sim-to-real 的 gap 大小。這是本場次最核心的價值主張之一。

---

## 六、典型落地架構

以下是「用 Cosmos 驅動 Physical AI」的端到端參考架構，可套用到機器人/AV/vision agent 專案：

| 步驟 | 內容 | 對應 Cosmos 模組 |
|------|------|-----------------|
| ① 資料匯入 | 感測資料（影像/多視角影片/雷達等）進資料湖 | — |
| ② 資料策展 | 清理、去重、標註/屬性化 | Curator |
| ③ 情境檢索 | 建立 scenario 子集（edge cases、長尾事件） | Dataset Search |
| ④ 合成資料生成 | 產生 physics-aware 合成影片/世界狀態 | Core Models |
| ⑤ 訓練 | 用「真實＋合成」混合資料訓練感知/預測/策略模型 | Core Models（微調後） |
| ⑥ 驗證 | 以 scenario 子集做 regression、失效追蹤 | Dataset Search + Guardrails |
| ⑦ 部署 | 上線到機器人/AV/視覺代理系統 | Cookbook + Guardrails |

---

## 七、應用場域對照

| 應用場域 | 典型場景 | Cosmos 的主要價值 |
|----------|----------|-------------------|
| 機器人 | 工廠自動化、倉儲 AMR、服務機器人 | 合成場景訓練、physics-aware 避障/導航 |
| 自駕車 / ADAS | 道路情境生成、edge case 覆蓋 | 長尾事件合成、sim-to-real 驗證 |
| Vision AI Agents | 智慧監控、零售分析、安全巡檢 | 多場景視覺理解、情境推理 |
| 醫療 AI | 手術場景模擬、醫療影像生成 | 合成資料補充稀缺臨床資料 |

---

## 八、評估指標與風險點

### 8.1 建議評估指標

| 面向 | 指標 |
|------|------|
| 資料面 | 去重率、標註覆蓋率、scenario 覆蓋率（長尾事件比例） |
| 模型面 | 真實測試集表現、長尾事件表現、跨 domain 泛化 |
| Sim-to-Real 面 | 合成資料比例提升後，真實世界性能是否提升或退化 |
| 系統面 | 訓練週期縮短、部署頻率提升、回歸測試時間縮短（MLOps 指標） |

### 8.2 主要風險點

| 風險 | 說明 | 緩解方式 |
|------|------|----------|
| 合成偏差（Synthetic Bias） | 合成世界與真實分佈偏離，模型學到錯誤捷徑 | 持續監控 real vs synthetic 分佈差異，混合比例調整 |
| 物理不一致 | Physics-aware 若不足，策略/控制類模型風險更高 | 以真實資料做 regression 驗證，建立物理一致性 benchmark |
| 資料與版本治理 | Scenario 切分、合成版本、模型版本需可追溯 | 完整的 data lineage + model registry |
| 安全護欄 | 生成內容、情境約束與輸出可控性 | 導入 Cosmos Guardrails，設定生成邊界與審計 |

---

## 九、決策者應帶走的關鍵結論

| 結論 | 說明 |
|------|------|
| Physical AI 的瓶頸在資料與世界理解 | 不是模型能力不夠，而是高品質、物理一致的資料太難取得 |
| World Foundation Model 是新的基座概念 | 類比 LLM 的基座模型，但目標是「理解並生成世界」 |
| Open models 降低導入門檻 | 開發者可直接取用 Cosmos 開放模型，客製成領域專用 |
| 資料工程是最大成本 | Curator + Dataset Search 把資料管線規模化是導入的第一步 |
| Physics-aware 程度決定 sim-to-real gap | 合成資料的物理一致性直接影響真實部署性能 |
| Guardrails 是量產必備 | 安全護欄不是附加功能，是生成式 AI 用於 Physical AI 的前提 |
| 先用 Cookbook 跑通再客製 | 從官方配方出發，驗證可行後再做領域微調 |

---

## 十、延伸學習資源

| 主題 | 建議資源 |
|------|----------|
| GTC26 S81667 場次資訊 | GTC Session Catalog（場次摘要） |
| Cosmos 官網 | NVIDIA Cosmos 官方頁（平台模組：Core Models、Curator、Dataset Search） |
| Cosmos 官方文件 | NVIDIA Cosmos Docs（平台定義、guardrails、資料管線） |
| Cosmos Cookbook | Cosmos Cookbook（step-by-step 實作配方與工作流程） |
| Cosmos WFM 技術介紹 | NVIDIA Blog：Cosmos World Foundation Models |
| Cosmos 研究論文 | arXiv：Cosmos World Foundation Model Platform |
| 先修內容 | GTC25：An Introduction to NVIDIA Cosmos World Foundation Models |
| 會後回看 | NVIDIA On-Demand（會後以 S81667 搜尋錄影/投影片） |

---

*— 報告完 —*