新战略人形机器人产业研究所数据指出,截至2025年4月,全球人形机器人本体企业数量已超300家,里面充斥着大量明星或者跨界企业,比如国内的宇树科技、优必选、小鹏汽车、海外的特斯拉Optimus、Figure AI、1X等。

人形机器人与VR/AR看似不相关,但是两者却存在着紧密联系。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?

VR头显是人形机器人的“魔法来源” 

今年10月,海外人形机器人企业 1X Technologies 宣布将于 2026 年向普通家庭推出其消费级机器人产品 Neo,正式在消费级人形机器人市场打响“第一枪”。


1X 被视为国际人形机器人领域的明星创业公司,成立于 2014 年,总部位于美国加州,长期专注于 AI 与家用机器人方向的研发。公司迄今已完成四轮融资,累计获得约 1.26 亿美元投资,投资方包括 OpenAI Startup Fund、EQT Ventures 等知名资本。


为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?

在硬件配置方面,Neo 配备了英伟达的机器人专用芯片 Jetson Thor,手指具备 22 自由度,电池容量为 842 瓦时,可支持约 4 小时的连续运行。机器人手部和躯干分别达到 IP68 与 IP44 防护等级,眼部则采用双 885 万像素、90Hz 的立体鱼眼镜头。智能系统方面,Neo 搭载了用于交流的 LLM 模型,以及负责行动决策的世界模型 Redwood AI,实现与环境的互动与任务执行。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?
 
另外,前面Neo所展示的家务场景,并非很多人误以为的自主执行的结果,恰恰相反,它需要依靠真人操作员才能运行起来。下面视频中可以看到,操作员结合使用了Quest 3头显,他能看到机器人眼前的画面,并基于6DoF手柄让机器人“复刻”出相应的动作。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?
用VR头显操作机器人,图源:《华尔街日报》

人形机器人现正处于模仿学习并试图大力出奇迹阶段

Neo身上集中展示了很多人对于这类人形机器人的困惑:为什么在视频里面,机器人可以跳街舞、障碍跑并且侃侃而谈,但是真正到了线下,却可能路都走不稳?这背后,反映的是人形机器人在操作方面的路线差异:

1、预编程机器人:机器人的动作由预先编辑好的程序驱动并执行,有时候它经过程序优化可以让动作看起来非常连贯,比如跑酷等,但是它缺乏认知、理解和规划能力,不适合开放环境。 

2、遥控机器人:机器人动作依赖于人类实时操作,机器人同样没有自主决策能力,但是优势在于有真人作为“外脑”,可以胜任更多复杂场景。 

3、基于AI驱动的机器人:完全基于AI驱动,这时候机器人能够理解人类指令并自主执行相应的任务。 

前两种交互往往会让人形机器人看起来科幻感十足,并让人误以为它有较高的完成度,实际上它更多只是扮演着大号玩具一类的角色,难以胜任日常生活中复杂且琐碎的需求。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?

对于人形机器人而言,最终目标是实现完全自主运行,即无需人类监督或远程操作。目前,这一水平尚未被任何厂商实现。不过,随着 LLM、自动驾驶等技术的突破,行业内对这一愿景逐渐看到了希望。理论上,Scaling Law 也适用于人形机器人背后的 VLA 和世界模型,只要提供足够海量的数据,未来有望迎来类似 ChatGPT 的“行业爆发时刻”。

人形机器人硬件驱动或模型训练时都离不开模仿学习(IL)这一个环节,所谓模仿学习,指的是让机器人模仿人类行为,从而学会相应的动作。VR头显等设备是这一阶段常用的工具之一。操作员佩戴VR头显,他能通过第一视角看到机器人的真实画面,然后利用手柄操作机器人完成诸如开门、搬运、分拣等常见的动作。除了真实环境外,VR里面还能模拟3D虚拟训练环境。 

目前,大部分人形机器人厂商在训练过程中都采用了类似 VR 头显的方案。例如,在特斯拉训练 Optimus 的场景中,操作员需穿戴动捕服并佩戴头显,重复执行各项指令。动捕服可采集人体的姿态动作,而头显则记录头部与手部运动数据,这些数据最终会成为机器人模型训练的重要语料。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?

2024 年,外媒 Business Insider 报道,为满足机器人训练所需的数据,特斯拉曾在 Data Collection Operator(数据采集操作员)岗位上招聘超过 50 名员工。相比让机器人自主运行采集数据,真人操作的方式无疑更具性价比:真人有明确意图、目标清晰、出错率低,而单台机器人成本高昂,长时间运行容易出现跌倒、关节磨损等问题,相比之下,真人在训练中更“抗造”。


实际上,机器人训练师是一项对体能要求较高的工作。据外媒透露,特斯拉的数据训练师需穿戴沉重的训练服,日常任务包括拿杯子、拉窗帘等简单动作,但有时同一任务需要不断调整姿势并重复上百次,以供机器人学习和模仿。


为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?
图源:特斯拉

“人形机器人训练场”遍地开花。下图是今年9月投入使用的北京人形机器人数据训练中心,相关资料指出,场地占地上万平米,1:1还原了工业智造、智慧家庭、康养服务和5G融合四大类共16个细分场景,每年可产出超过600万条高质量数据。基于各种报道来看,VR头显虽说不是里面的主角,不过它作为辅助工具角色也有着很高的亮相频次。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?


AI眼镜或将成为视觉路线的有力武器


随着全球人形机器人进程加速,其形态设计正被认为是影响落地的重要因素。业内普遍指出,当前社会的大部分基础设施——包括楼梯、走道、门把手、座椅以及键鼠等工具——均按照人类使用习惯构建,人形结构因此更易让机器人在现实环境中执行任务。此外,由于外观与人体动作更接近,真人操作所生成的数据也更便于迁移到人形机器人上,为“手把手”式示范训练提供了现实基础。


与此同时,多家企业正探索新一代人形机器人训练路径。比如特斯拉Optimus,最新消息传出,它已经放弃头显+动捕数据采集,并转为与汽车相同的纯视觉路线。尽管数据采集员仍不可或缺,但其装备已升级为配备多摄像头阵列的专用头盔与背包,能够在移动过程中同步记录第一视角画面及手部关节动作。特斯拉表示,目标是在未来实现让人形机器人直接通过人类视频完成动作学习,为通用型机器人铺平道路。


为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?

今年6月,Meta发布了面向研究人员的AI眼镜Project Aira Gen 2,官网表示它会是一款“革新情境人工智能和机器人未来的强大工具。” 

佐治亚理工学院提出了一套名为 EgoMimic 的全新机器人学习体系,可利用 Project Aira 等设备采集的人类第一视角视频来训练机器人。与以往依赖真人实时遥控的方式相比,这种方法在成本与效率上具备明显优势。研究显示,“借助 EgoMimic,研究人员仅需 90 分钟的 Aria 采集视频,就让机器人在多项任务中的表现比传统方法提升了 400%。同时,机器人还能在未曾接触的全新环境中顺利执行这些操作。”

因而可以设想,当市场过渡到纯视觉路线,支持第一视角录制的AI/AR眼镜的重要性可能会逐步凸显出来。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?

结语 

马斯克在最新一季的财报会上提到,Optimus 可能成为史上最具价值的产品之一,并计划在明年进入量产阶段,长远目标是实现年产一百万台。Figure AI 的 CEO Brett AdcockFig 也表示,通用型机器人的关键技术有望在未来两年内被攻克。他预测,在未来十年,全球规模最大的企业将会来自人形机器人领域,而家用机器人或将成为家庭标配。


与此同时,也有业内意见认为,人形机器人中最关键的“手”具备极高的工程复杂度,尤其是触觉系统仍是制约发展的瓶颈。此外,支撑人形机器人的核心 AGI 依然是一段漫长且充满挑战的道路。

 
无论如何,人形机器人逐步落地已经是正在发生的事情,VR、AR也成为了其发展过程中的见证者以及亲历者之一。

为什么活蹦乱跳的人形机器人背后,总能看到VR头显的身影?
菲律宾员工利用人形机器人+VR在日本便利店打工,图源:网络

来源:msn

为了更好地促进行业人士交流,艾邦搭建了机器人产业微信群,欢迎执行器、灵巧手、结构件、摄像头、IMU、传感器、电芯、动力系统、伺服系统、热管理系统、软件算法等零部件、整机组装、设计、设备、原材料企业,以及机器人品牌、终端应用等企业加入,进群交流。


活动推荐


报名方式:加微信并发名片报名


招展会务组请联系请联系:

艾果果13312917301(同微信)
ab008@aibang.com;
图片

扫码添加微信,咨询展会最新详情

2025年,人形机器人产业迎来爆发拐点。特斯拉Optimus量产在即,华为、宇树等企业加速技术突破,行业正从“实验室研发”向“规模化落地”跃迁为打通产业链上下游协作壁垒,艾邦机器人正式组建"人形机器人全产业链交流群",覆盖金属材料、复合材料、传感器、电机、减速器等全硬件环节,助力企业精准对接资源、共享前沿技术!

扫码关注公众号,底部菜单申请进群

作者 ab, 808