从 SLAM 到多视角纯视觉 6D Pose：面向具身智能的空间定位新范式

Ego + UMI 正成为具身智能数据采集的重要路径。

Ego 第一视角让数据更接近机器人未来的观察方式；UMI 则支持低成本、灵活的人类操作采集，使动态、双手、精细和长程任务示范能够在真实环境中规模化获取，并为跨场景泛化提供更丰富的真实交互数据基础。

但对于具身模型而言，数据价值不仅取决于规模，更取决于空间精度。

当 Ego 与 UMI 时空对齐失准，或 UMI 空间定位存在误差时，模型学到的将不再是真实交互，而是带有偏差的动作监督信号，最终遭遇典型的 garbage in, garbage out。

目前，UMI 空间定位仍主要依赖 SLAM，但在弱纹理、动态干扰和遮挡环境下，其精度与稳定性往往受限。而这一问题，正在随着具身智能走向 in-the-wild 而被进一步放大。

真实世界的人类操作场景并非理想视觉环境。家庭、商业与开放场景中的光线环境、双手交互、复杂接触、快速操作以及长程任务，使得SLAM更容易出现轨迹误差与稳定性下降。

空间精度，仍是具身数据规模化的关键瓶颈。

为解决这一问题，简智基于自研端到端具身数据模型 Data Foundation Model（DFM），提出一种面向 UMI 空间定位的新范式——多视角纯视觉 6D Pose （6D Pose，指目标在三维空间中的位置与姿态，即三维位置与三维旋转）。

不同于依赖 multi-stage 流程或深度输入的传统方案，DFM 利用 Ego 六路同步视觉，通过多视角 RGB 输入直接完成 UMI 6D Pose 计算，实现毫米级轨迹输出，并在纯色、无纹理等环境下展现出更好的泛化性。

这意味着，UMI 空间定位正从依赖传统 SLAM 的几何重建路径，走向端到端、多视角、纯视觉的新范式，为具身智能提供更高精度、更强鲁棒性的空间监督基础。

为什么是多视角纯视觉 6D Pose？

基于上述挑战，UMI 空间定位需要一种不同于传统几何重建的技术路线。

简智的思路，并不是继续增加定位链路中的中间环节，而是利用 Ego 数据天然具备的优势——多视角同步视觉。

图：简智 Ego+Fingers

相比 Finger 自身定位，Ego 多视角输入能够提供更稳定的空间约束，有效降低遮挡、弱纹理与视角歧义带来的定位不确定性。当具身数据走向 in-the-wild，空间定位面对的已不再是单一、受控环境，而是持续变化的真实场景。

为此，简智基于 Data Foundation Model（DFM），构建了一套面向 UMI 空间定位的端到端多视角纯视觉 6D Pose 架构。

图：简智 6D Pose 技术方案

1、多视角时序统一架构

通过多路同步视觉输入进行联合学习，在更大范围内感知目标的空间关系。相比单视角方案，多视角联合建模能够获得更加完整的场景信息。当部分视角出现遮挡、快速运动或图像质量下降时，系统仍可利用其他视角的信息进行补充，从而提升整体鲁棒性。同时，时序信息的引入使模型能够利用连续帧之间的运动一致性，进一步增强轨迹连续性与预测稳定性，为后续空间理解和位姿估计提供可靠基础。

2、几何引导跨视角融合模块

多视角信息的价值不仅在于数量，更在于如何有效融合。

DFM采用几何引导跨视角融合机制，利用相机内外参建立显式几何约束，引导多视角信息高效交互。相比传统全局特征融合方式，该设计显著减少无效计算，以更低计算量高效实现更精准的信息聚合，在复杂遮挡和动态场景下获得更完整、稳定的场景表征。

3、稀疏 Query 驱动位姿聚合

稀疏Query驱动位姿聚合机制通过少量目标感知Query从多视角特征中提取与位姿预测相关的关键信息，避免对全量特征进行密集计算。该设计不仅显著降低计算复杂度，更能够引导模型聚焦稳定且具有判别性的空间特征，从而高效学习更加鲁棒的位姿表征，提升复杂场景下的泛化能力。

4、多任务共享协同增益

Hand Tracking、6D Pose、Depth 等任务之间存在天然关联，共同描述了目标、手部与环境之间的空间交互关系。如果分别训练多个独立模型，往往难以充分利用不同任务之间的互补信息。

采用多任务联合优化框架，在统一模型中同时学习多种监督信号。不同任务之间共享特征表示，并通过联合训练实现相互促进。例如，深度信息能够帮助位姿估计理解空间结构，而位姿信息又能够反向约束空间预测结果。通过多任务协同学习，模型能够获得更加丰富的空间认知能力，从而提升对未知场景和新任务的泛化能力。

此外，我们构建了完整的评测体系，对模型输出进行大规模量化评估，持续回答三个核心问题：模型精度究竟达到什么水平、在不同场景中的稳定性如何，以及当前能力边界位于何处。

因此，这一多视角纯视觉 6D Pose 方案并非单一算法模块，而是一套完整的 UMI 空间定位系统，覆盖原始数据采集、端到端 6D Pose 模型训练、Ground Truth 真值体系以及面向具身智能数据生产的规模化验证闭环，实现从数据到评测的全链路能力构建。

从更高精度空间定位，到更高质量 Human Data

基于多视角纯视觉 6D Pose 路线，我们不仅提升了 UMI 空间定位能力，也进一步提升了具身数据的质量与可用性：

更高空间精度：＜1cm，提升模型训练效果

目前，简智的 6D Pose 空间精度已突破 1cm，使数据能够更准确地描述Fingers操作过程中的细微变化，为模型学习精细动作提供更可靠的监督基础。

更强的环境泛化能力：弱纹理、单色环境下，任务成功率提升 3.4 倍

相比依赖 Finger 自我单视角， Ego 多视角纯视觉路线展现出更强的环境适应能力。当部分视角受到强光照、高反射或局部信息缺失影响时，其余视角能够提供补充，提升 in-the-wild 场景下的泛化能力。在弱纹理、单色环境等典型挑战场景中，任务成功率提升 3.4 倍，综合成功率超过 95%。

更完整的灵巧操作捕捉：提升高价值数据产出

对于 UMI 数据采集而言，快速运动与遮挡始终是影响成功率的核心挑战。真实操作过程中，手部、工具与目标物体会频繁发生遮挡，物体也可能在短时间内快速移动或旋转，从而导致目标丢失、位姿漂移与轨迹不连续。多视角纯视觉路线确保了对人类灵巧操作过程更完整、更稳定地捕捉，以及更高比例的可训练数据产出。

更高效的多模态数据生产：效率提升 3.2 倍

相比依赖复杂 multi-stage 流程的传统方案，基于 DFM 端到端的 6D Pose 输出能力，减少了中间处理链路，使多模态数据生产能够并行处理，更加高效、稳定：1 分钟完成 Raw Data 到多模态数据转换，多模态数据生产效率提升 3.2 倍。

从单点算法，到持续演进的数据飞轮

高精度空间定位最终服务的，并不仅仅是轨迹输出，而是 Human Data 的生产。

简智正在构建的，并不是一个单点算法，而是一套面向具身智能的端到端多模态数据生成系统——Data Foundation Model（DFM）。

图：简智 DFM 数据飞轮

在 DFM 中，不同形态的 Ego 数据会生成不同类型的空间监督信号。

此前，我们介绍过＜1cm Hand Tracking 能力（点击阅读），其面向 Ego + 裸手数据，解决的是手部动作与轨迹追踪问题；而 DFM 的 6D Pose，则面向 Ego + Finger 数据，解决 Finger / UMI 设备在三维空间中的位置、姿态与轨迹定位。

这意味着，DFM 的核心价值并不在于某一个单点算法，而在于将不同形态的真实世界操作数据，高效、端到端地转化为多模态、高精度、大规模、可训练的Human Data。

更重要的是，DFM中的这些算法，正在真实数据、真值评测与模型训练之间形成持续演进的数据飞轮：真实数据持续增强空间监督；真值评测不断暴露模型边界；模型能力提升后，又进一步反向提升Hand tracking、6D Pose 等多模态数据生产能力。

对于具身智能而言，这不仅意味着更高精度、更多模态，也意味着 Human Data 具备持续进化与规模化生产的能力。

关注简智，下一期，我们将继续介绍 DFM 在 Human Data 生成中的其他关键能力。

2025年，人形机器人产业迎来爆发拐点。特斯拉Optimus量产在即，华为、宇树等企业加速技术突破，行业正从“实验室研发”向“规模化落地”跃迁为打通产业链上下游协作壁垒，艾邦机器人正式组建"人形机器人全产业链交流群"，覆盖金属材料、复合材料、传感器、电机、减速器等全硬件环节，助力企业精准对接资源、共享前沿技术！

扫码关注公众号，底部菜单申请进群

从 SLAM 到多视角纯视觉 6D Pose：面向具身智能的空间定位新范式

作者ab, 808

作者 ab, 808

相关文章

全球最大真机强化学习开源数据集之一正式发布：均普机器人创新中心联合博登、上海交大构建 Physical AI 数据新基建

光轮智能与舞肌科技达成战略合作：共建物理 AI 数据与评测基础设施

后训练新突破！乐聚发布蚂蚁灵波LingBot-VLA实机评测结果

You missed

PEEK在人形机器人减速器上的应用及相关企业

优必选携手沐曦股份，打造具身智能核心芯片“中枢”

5 家轮式人形机器人底盘企业盘点

全球最大真机强化学习开源数据集之一正式发布：均普机器人创新中心联合博登、上海交大构建 Physical AI 数据新基建