当机器人能流畅完成注射器抽液、单手分拣卡片、整齐折叠衬衫时,其智能便从“力大”迈入了“手巧”的新境界。

NVIDIA 最新发布的 EgoScale 框架正是此突破的关键。它利用 超2万小时 的人类第一视角视频进行预训练,为配备22自由度Sharpa灵巧手的星海图机器人注入通用的“操作直觉”;而将这份直觉精准“写入”机器人身体的关键,则在于 Manus数据手套 在核心训练阶段扮演的“动作翻译官”角色。


一、核心挑战:如何跨越“人机”灵巧鸿沟?

训练机器人实现灵巧操作,长期面临数据与“身体”的双重瓶颈

  • 机器人自产数据成本极高,
  • 而人类演示数据又因身体结构(尺寸、关节、力学)不同,难以直接迁移。

此前方法或受限于数据规模,或仅针对简单机械爪,难以实现复杂的手指协同。

NVIDIA EgoScale 的创新在于一套清晰的“三步走”策略:

【图1:EgoScale 整体框架与两阶段训练示意图】

  1. 海量观察:从20,854小时涵盖近万场景的人类第一视角视频中,学习通用的动手常识。
  2. 精准对齐:利用 Manus数据手套(Metagloves Pro)采集的少量高精度人机配对数据,完成从“人类动作空间”到“机器人关节空间”的关键映射。
  3. 快速精通:用极少量任务演示,让机器人迅速掌握如叠衬衫等高难技能。

【图2b:EgoScale 模型架构】

其中,第二步的“精准对齐”成败关键Manus 高精度动捕手套正是此环节不可替代的桥梁。



二、双重突破:数据缩放定律与关键锚定

1、EgoScale 首先揭示了 “数据规模蕴含力量” 的定律。

研究发现,随着预训练人类视频数据量从1千小时增至2万小时,模型的动作预测误差遵循明确的 对数线性缩放定律 下降(简单说:人类预训练数据越多,机器人动作预测误差越小,且实际操作效果可精准预判)。
且此“离线”误差与机器人最终真实任务成功率强相关(R² > 0.99)。这意味着,增加人类视频数据可靠预测并提升机器人性能,为规模化训练指明道路。

【图5:数据缩放定律(预测误差与数据量的关系)及其与机器人任务成功率的关联图】

2、但仅有海量视频不够,需将基于人类身体的“动作概念”精准适配到机器人电机上。这正是 Manus 数据手套的核心舞台

在关键的中间训练阶段,研究使用了 50小时由人佩戴Manus数据手套 Metagloves Pro 演示的数据 与 4小时机器人数据 进行配对训练,它以 每只手25个关节自由度 的精度,完整捕捉从手腕到指尖的所有细微姿态,提供关节级动作真值。

论文明确指出,此阶段“对于将预训练表征锚定到机器人的感知与动作空间至关重要”。Manus提供的高保真、关节级“动作词典”,让算法能精准地将人类手部意图“翻译”成机器人驱动指令,从而弥合“具身鸿沟”。

【图2a:数据采集设置示意图,展示人类操作者佩戴Manus数据手套与机器人协同演示】

不可替代性体现在:

  • 精度完整:25关节全面捕捉,确保捏、握、捻等精细动作细节不丢失,这对抽液、分卡等需精准力控的任务至关重要。
  • 结构对齐:输出的标准关节旋转数据,与机器人控制系统使用的动作空间在数据格式上天然匹配,极大简化了“人-机”动作映射的学习过程。
  • 数据质量:在受控环境下与动捕设备、摄像头实现毫秒级同步,采集的动作与视觉数据时空对齐,形成高质量的人机配对样本,是建立可靠“人 - 机动作翻译规则”的核心基础。

【图8:不同动作表征(如仅手腕、仅指尖、全关节)在各项灵巧任务上的性能对比图】


三、实测效能:从任务精通到跨身体泛化

EgoScale+Manus这套组合拳成效显著:

  • 性能飞跃:在注射、分卡、拧盖、叠衣等5项复杂任务中,采用“人类预训练+Manus 数据手套 对齐”方案的模型,平均成功率比无预训练基线提升54%。在仅提供 1个 机器人叠衬衫演示的情况下,成功率高达 88%,展现强大少样本学习能力。
  • 跨平台泛化:更惊人的是,这套在 星海图Galaxea R1 Pro机器人 + Sharpa 五指灵巧手 上学到的“动作先验”,可迁移至结构迥异的 搭载三指灵巧手的宇树机器人 G1 上,并在新任务上仍取得30% 以上的绝对成功率提升,证明其学到的是与具体身体无关的通用“运动智能”。

【图4:不同训练方案(无预训练、仅人类预训练、人类预训练+中期训练)在多项任务上的成功率对比图】


四、深远意义:开启灵巧操作新范式

EgoScale 与 Manus 数据手套的协同,标志着一个新范式的开启:

  1. 数据突破:证明丰富、易得的人类日常行为视频,可成为驱动机器人灵巧操作的主要数据源。人类自身成为可扩展的“训练化身”。
  2. 对齐即设施:凸显了高质量、精确对齐的“锚点”数据的极端重要性。像 Manus 数据手套这类能提供关节级真值的工具,正从研发设备升级为机器人学习流程的核心基础设施
  3. 通用化路径:“大规模预训练(人类视频)+ 精准对齐(动作捕捉)+ 少量微调的路径,为系统攻克工业装配、实验室自动化、家庭服务乃至医疗辅助等领域的灵巧操作难题,提供了可扩展的蓝图。

结语

EgoScale框架 的成功,是“数据驱动”理念与“精准对齐”工程结合的典范。它预示着一个未来:机器人将由人类浩瀚的行为数据“浇灌”成长

而像 Manus 数据手套 这样的高精度“桥梁”,正让人类细腻的动作智慧,顺畅注入机器身躯,共同塑造一个真正灵巧智能的未来

版权说明

  1. 论文原文EgoScale: Scaling Dexterous Manipulation with Diverse Egocentric Human Data(arXiv:2602.16710v1 [cs.RO])
  2. 项目官方网页:https://research.nvidia.com/labs/gear/egoscale/

本文核心内容与数据均来自 NVIDIA 团队 2026 年 2 月发表的 EgoScale 相关研究成果。如需转载,请完整保留本声明并注明原始出处。

猜你喜欢

MANUS 重磅双发:Core3.1 动捕软件升级+MetaGloves Pro Haptic 触觉反馈手套,更准,更真!

破解 sim-to-real 鸿沟:Manus动捕手套助力机械手实现真正“手艺人”级操作

机器人、科研、XR/VR都在用:Manus Metagloves Pro 高精度动捕数据手套有何不同?

动作捕捉到行为识别,从匹配感知范式开始:Captiks全身惯性动捕 × Manus手部精细追踪 × Mentalab无线脑电


图片

产品详情咨询:sales@cnbestec.com/010-62360224

了解更多机器人工具和传感器,

请关注“欣佰特科技官方微信公众号,

也可登录网站www.cnbestec.com

及时获取最新产品和案例!


2025年,人形机器人产业迎来爆发拐点。特斯拉Optimus量产在即,华为、宇树等企业加速技术突破,行业正从“实验室研发”向“规模化落地”跃迁为打通产业链上下游协作壁垒,艾邦机器人正式组建"人形机器人全产业链交流群",覆盖金属材料、复合材料、传感器、电机、减速器等全硬件环节,助力企业精准对接资源、共享前沿技术!

扫码关注公众号,底部菜单申请进群

作者 ab, 808