点击上方蓝字·关注我们

在人形机器人向实际场景落地的过程中,泛化操作能力不足、安全防御存在漏洞、精细操作感知受限、柔性示教效率低下等问题,一直是行业亟待突破的技术瓶颈。



武汉大学李淼团队近期在AAAI 2026、ICRA等顶级国际会议及相关研究中接连取得重大突破,从多模态推理框架、安全防御体系、视触觉融合感知、柔性操作示教四个核心维度,为人形机器人的智能化、安全性、灵巧化发展奠定了关键技术基础,多项成果达到行业领先水平。


突破泛化瓶颈:RGMP 框架让机器人学会 “举一反三”


人形机器人要真正走进生产生活,能否在有限示教下实现异构场景的泛化操作是核心关键。当前主流方法过度依赖海量训练数据,几何推理能力缺失,导致机器人操作 “死板”,难以应对未知场景。



针对这一难题,团队在 AAAI 2026 发表重磅成果,提出RGMP(Recurrent Geometric-prior Multimodal Policy)端到端泛化操作框架,将几何先验与多模态推理深度融合,打造了几何推理 + 数据高效控制的双核心架构。

    • 几何先验技能选择器(GSS)
      仅用 20 条规则约束,就能将几何常识轻量级注入多模态大模型,动态适配技能选择,解决未知场景的技能模糊问题;
    • 自适应递归高斯网络(ARGN)
      结合旋转位置编码与自适应衰减机制,通过高斯混合模型对 6 自由度操作轨迹分层建模,让机器人在少量演示数据下也能实现灵巧操作

    严苛的真机与仿真测试印证了 RGMP 的超强性能:仅用 40 条 “芬达罐抓取” 演示数据训练,模型在可乐罐、喷雾瓶、人手等全新对象抓取任务中平均成功率达87%,较主流 Diffusion Policy 提升 17 个百分点;数据效率直接提升 5 倍,仅需五分之一样本就能达到同等甚至更优性能。在推椅子、插充电器、开柜门等复杂任务中,RGMP 也展现出最优的跨任务迁移能力,其技术可广泛应用于工业装配、物流分拣、家庭服务、医疗辅助等场景。目前,RGMP 相关代码已正式开源,为领域研究提供重要参考。


    筑牢安全防线:Bera 框架与对抗研究破解具身智能安全隐患



    随着视觉 - 语言 - 动作(VLA)模型在机器人领域的广泛应用,模型的后门攻击风险、物理对抗攻击脆弱性成为机器人安全部署的重大挑战 —— 后门攻击可通过有毒数据植入隐蔽 “陷阱”,特定条件下触发机器人执行有害行为;物理世界的对抗物体则能直接干扰机器人感知与决策,导致任务彻底失败。

    李淼团队双管齐下,既提出防御方案,也深入剖析攻击机理,为具身智能安全筑牢防线:

    1. Bera 后门擦除框架:团队首次揭示后门攻击的 “深层注意力劫持” 机制,基于此提出的 Bera 框架,无需重训练模型、更改训练流程,通过潜空间定位检测异常注意力 Token,掩码可疑区域并重构无触发器图像,直接打破 “触发器 - 不安全动作” 的映射关系。实验证明,Bera 在完全保留模型原有性能的同时,能显著降低后门攻击成功率,为机器人系统提供了高效、落地性强的防御机制。

    2. 通用对抗物体研究:团队构建了表面经特殊纹理优化的通用对抗物体,仅需置于机器人视野,就能从轨迹规划、任务执行、动作控制三个维度协同破坏 VLA 模型操作流程。测试显示,该对抗物体使 Pi0、RDT 等前沿 VLA 模型平均任务成功率下降 31.2% 至 39.9%,复杂场景下成功率近乎归零。这一发现深刻揭示了当前具身智能系统的物理安全漏洞,为后续防御研究指明了方向。


    赋予敏锐触觉:GTMF 框架解决视觉单模态感知痛点


    在精细抓取任务中,单一视觉感知存在固有物理盲区,且易受手部位姿、接触力分配误差影响,导致机器人闭环控制频繁失败,这成为制约人形机器人灵巧操作的重要难题。



    团队提出引导式触觉多模态大模型框架(GTMF),打造了端到端的视触觉融合解决方案,首次实现仅通过 RGB 图像解码生成触觉信号并应用于实时抓取姿态调整。该框架创新设计穿戴式视触觉同构数据采集模块,实现人手触觉、执行器末端视觉与位姿数据的跨具身一体化采集;算法层面,通过掩码引导式注意力模块过滤纹理色彩干扰,完成高精度位姿校准,再经视触觉对齐解耦模块构建联合特征空间,能根据 RGB 图像生成场景自适应触觉阈值,并结合指尖触觉传感器实时反馈,驱动灵巧手动态调整抓取角度,实现精准闭环伺服控制。真机实验验证,即便仅依赖视觉输入,GTMF 的抓取精度与稳定性也远超主流基线方法,为 VLA 框架下的灵巧抓取开辟了全新技术路径。


    破解示教难题:DexSo-UMI 开启柔性操作模仿学习新范式


    高质量示教数据是机器人模仿学习落地的核心,但多自由度灵巧柔性操作的示教数据采集,长期面临具身一致性不足、环境适应性有限、对动态背景敏感等问题,成为算法落地的重要瓶颈。


    团队提出DexSo-UMI 软硬件协同接口系统,构建了从多模态数据采集到智能策略生成的全流程解决方案,彻底打破数据与算法瓶颈:

      • 硬件端
        设计集成柔性灵巧手、惯性测量单元(IMU)与广角相机的便携式手持示教装置,以极低成本实现多模态数据同步采集,保证绝对的具身视角一致性;
      • 算法端
        引入运动感知视觉 Transformer(MV-ViT),融合时间残差信息,增强动态背景下的目标聚焦能力;设计抓取感知网络(Grasping Net),精细提取手 - 物交互与关节状态特征,与全局场景嵌入共同调节扩散策略,精准生成复杂抓取状态。

      在 UR5 机械臂、双臂机器人的编钟演奏等任务测试中,DexSo-UMI 系统在各类抓取任务中平均成功率达82.4%,较传统 Diffusion Policy 提升 6.44%,在未知场景中展现出卓越的鲁棒性,以高性价比和视觉驱动的智能策略生成能力,为灵巧柔性操作的规模化普及提供了新思路。


      从让机器人学会 “举一反三” 的泛化推理框架,到筑牢安全防线的防御与攻击研究,再到赋予机器人 “敏锐触觉” 的视触觉融合模型,以及破解柔性示教难题的软硬件协同系统,武汉大学李淼团队的一系列研究成果,从多个核心维度突破了人形机器人落地的技术瓶颈,为其智能化、安全化、灵巧化发展提供了全面的技术支撑,也为人形机器人在工业、服务、医疗等领域的规模化应用奠定了坚实基础。


      未来,随着这些技术的持续迭代与落地,人形机器人有望真正走进更多实际场景,开启人机协同的全新篇章。


      2025年,人形机器人产业迎来爆发拐点。特斯拉Optimus量产在即,华为、宇树等企业加速技术突破,行业正从“实验室研发”向“规模化落地”跃迁为打通产业链上下游协作壁垒,艾邦机器人正式组建"人形机器人全产业链交流群",覆盖金属材料、复合材料、传感器、电机、减速器等全硬件环节,助力企业精准对接资源、共享前沿技术!

      扫码关注公众号,底部菜单申请进群

      作者 ab, 808