GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
GR00T N1:通用人形机器人的开放基础模型
arXiv: https://arxiv.org/abs/2503.14734
AI 解析
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
📝 研究概要
该论文提出了 GR00T N1,一个用于通用人形机器人的开放基础模型,通过视觉-语言-动作(VLA)模型,结合双系统架构和异构数据训练,实现了在模拟和真实环境中的优秀操作性能。
⭐ 研究亮点
- 创新点一:双系统架构: 借鉴人类认知,采用视觉-语言模型(VLM)作为System 2进行推理,扩散Transformer作为System 1生成动作,实现推理和动作的紧密结合。
- 创新点二:异构数据金字塔: 构建包含网络数据、合成数据和真实机器人数据的金字塔式训练数据,有效解决了机器人数据稀缺问题。
- 潜在影响: 为通用人形机器人的发展提供了一个强大的基础模型,有望加速机器人在复杂真实环境中执行任务的能力。
深度解析
📚 研究背景
- 理论意义: 验证了在机器人领域构建大规模基础模型的可行性和有效性,借鉴了认知科学的双系统理论。
- 现实意义: 通用机器人能够执行日常任务,提高生产效率,改善人类生活质量。
- 研究目标: 构建一个能够理解视觉和语言指令,并生成流畅动作的通用人形机器人基础模型。
🔬 研究方法
- 研究设计: 提出 GR00T N1 模型,采用双系统架构,System 2 使用预训练的 NVIDIA Eagle-2 VLM (李等, 2025),System 1 使用扩散 Transformer。
- 数据来源: 异构数据金字塔,包括:
- 真实机器人数据:内部收集的 Fourier GR-1 数据,Open X-Embodiment 数据集 (Open X-Embodiment Collaboration et al., 2024),AgiBot-Alpha 数据集 (AgiBot-World-Contributors et al., 2025)。
- 合成数据:使用 DexMimicGen (Jiang et al., 2024) 生成的模拟数据,以及使用视频生成模型生成的神经轨迹数据。
- 人类视频数据:Ego4D (Grauman et al., 2022),Ego-Exo4D (Grauman et al., 2024),Assembly-101 (Sener et al., 2022),EPIC-KITCHENS (Damen et al., 2018),HOI4D (Liu et al., 2022),HoloAssist (Wang et al., 2023),RH20T-Human (Fang et al., 2023)。
- 分析方法: 使用行为克隆 (BC-Transformer) 和扩散策略 (Diffusion Policy) 作为基线模型,在模拟和真实环境中进行对比实验,评估 GR00T N1 的性能。
📊 研究发现
实证结果
- 发现一: GR00T N1 在模拟环境的 RoboCasa, DexMimicGen, GR-1 Tabletop 任务中,性能优于基线模型。
- 发现二: 在真实 GR-1 机器人上的实验表明,GR00T N1 在少量数据下也能取得较好的性能,体现了其数据效率。
- 发现三: 使用神经轨迹进行后训练,可以进一步提升 GR00T N1 的性能。
理论贡献
- 贡献点一: 验证了双系统架构在机器人控制中的有效性。
- 贡献点二: 提出了异构数据金字塔的训练策略,为机器人基础模型的训练提供了新的思路。
实践启示
- 启示一: 结合预训练的 VLM 和扩散 Transformer,可以构建强大的机器人控制模型。
- 启示二: 利用合成数据和人类视频数据,可以有效缓解机器人数据稀缺问题。
🔍 研究局限
- 局限一: 目前主要关注短时程桌面操作任务,缺乏长时程移动操作能力。
- 局限二: 合成数据的多样性和物理合理性仍有提升空间。
- 未来研究方向: 扩展到长时程移动操作,改进合成数据生成技术,探索更鲁棒和泛化的模型架构。
学术对话
💡 理论延伸
- 与现有研究的关系: 该研究建立在 VLA 模型和机器人基础模型的研究基础上,借鉴了认知科学的双系统理论。
- 理论框架的拓展: 可以将该模型扩展到其他机器人形态,例如轮式机器人、无人机等。
- 新的研究方向: 探索如何将 GR00T N1 应用于更复杂的任务,例如家庭服务、工业生产等。
❓ 核心问答
Q1: GR00T N1 的双系统架构是如何工作的?
GR00T N1 的双系统架构借鉴了人类的认知过程。System 2 是一个预训练的 VLM,负责理解视觉和语言输入,进行高层次的推理和规划。System 1 是一个扩散 Transformer,负责生成低层次的动作控制信号。System 2 的输出作为 System 1 的输入,指导 System 1 生成具体的动作。两个系统紧密耦合,共同完成任务。
Q2: 异构数据金字塔是如何解决机器人数据稀缺问题的?
异构数据金字塔通过整合不同来源的数据,构建一个多层次的训练数据集。底层是大量的网络数据和人类视频数据,提供广泛的视觉和行为先验知识;中间层是合成数据,包括模拟数据和神经轨迹数据,增加数据的多样性;顶层是真实的机器人数据,确保模型在真实环境中具有良好的执行能力。通过这种方式,可以有效利用各种数据资源,缓解机器人数据稀缺问题。
Q3: GR00T N1 在真实机器人上的表现如何?
在真实 GR-1 机器人上的实验表明,GR00T N1 在少量数据下也能取得较好的性能,体现了其数据效率。这表明 GR00T N1 具有良好的泛化能力,能够将从模拟环境和合成数据中学到的知识迁移到真实环境中。
📌 总结评价
GR00T N1 是一个有价值的通用人形机器人基础模型,通过双系统架构和异构数据训练,实现了在模拟和真实环境中的优秀操作性能。该研究为机器人领域的发展提供了一个新的方向,有望加速机器人在复杂真实环境中执行任务的能力。
摘要三问
研究问题
本研究旨在解决通用人形机器人(Generalist Humanoid Robots)在复杂、多变的人类环境中执行各种任务时所面临的挑战。核心问题是:如何构建一个能够让人形机器人具备通用智能,从而能够理解新情境、稳健地处理真实世界的变化,并快速学习新任务的机器人基础模型(Robot Foundation Model)。具体研究目标包括:
- 构建通用机器人模型: 开发一个能够支持多种机器人形态(cross-embodiment support),并能处理各种任务的通用机器人模型,使其具备足够的表达能力和处理能力。
- 解决数据孤岛问题: 针对人形机器人数据获取成本高、数据量不足的问题,探索有效的数据策略,弥合不同机器人平台之间的数据差异,构建大规模的机器人模型训练数据集。
- 实现高效学习和泛化: 设计有效的训练方法,使机器人模型能够从异构数据源中学习,并具备强大的泛化能力,从而能够快速适应新的任务和环境。
采用方法
为了解决上述问题,研究者提出了以下方法:
- GROOT N1 模型架构: 提出了一个名为 GROOT N1 的开放基础模型,该模型是一个视觉-语言-动作(Vision-Language-Action, VLA)模型,采用双系统架构。系统 2(System 2)是视觉语言模块,负责通过视觉和语言指令理解环境;系统 1(System 1)是扩散 Transformer 模块,负责实时生成流畅的运动动作。这两个模块紧密耦合,并进行端到端联合训练。GROOT N1 使用 NVIDIA Eagle-2 VLM 作为视觉语言骨干网络。
- 异构数据混合训练: 使用包含真实机器人轨迹、人类视频和合成生成数据集的异构混合数据集训练 GROOT N1。为了解决数据量不足的问题,研究者构建了一个数据金字塔,金字塔的底层是大量的网络数据和人类视频,中间层是使用物理模拟和/或现成的神经模型生成的合成数据,顶层是在物理机器人硬件上收集的真实世界数据。
- 潜在动作学习: 为了训练模型处理没有动作标签的数据源(如人类视频),研究者学习了一个潜在动作代码本(latent-action codebook),并使用训练好的逆动力学模型(Inverse Dynamics Model, IDM)来推断伪动作。
- 预训练和后训练: 首先在整个数据金字塔上进行端到端预训练,然后在特定机器人形态的数据集上进行后训练(post-training),以提高模型在特定任务上的性能。
- 使用 NVIDIA OSMO 平台: 使用 NVIDIA OSMO 平台进行模型训练,该平台是一个用于扩展复杂机器人工作负载的编排平台。
关键结果
该研究取得了以下关键结果:
- GROOT N1 模型的有效性: 在标准模拟基准测试中,GROOT N1 的性能优于最先进的模仿学习基线。
- 真实世界部署: 在 Fourier GR-1 人形机器人上部署 GROOT N1 模型,成功完成了语言条件下的双手操作任务,并实现了高数据效率。
- 数据金字塔策略的有效性: 证明了使用异构数据混合训练和数据金字塔策略可以有效提高机器人模型的泛化能力和适应性。
- 神经轨迹的有效性: 证明了使用视频生成模型生成的神经轨迹可以有效地扩充训练数据集,提高机器人模型的性能。
- 开放性和可复现性: 公开了 GROOT-N1-2B 模型检查点、训练数据和模拟基准测试,促进了社区在该领域的研究进展。
总而言之,该研究通过构建 GROOT N1 基础模型,并结合异构数据混合训练和数据金字塔策略,为通用人形机器人的发展提供了一个有力的解决方案。