2024年以来,灵巧手赛道彻底火了——

从星动纪元的XHAND 1惊艳亮相CoRL,到中科大19自由度仿生手登上Nature Communications,再到小米机器人灵巧手丝滑拧螺丝、捏羽毛、抛接球。

但硬件只是入场券,真正决定灵巧手能不能"像人手一样用"的,是控制方法。

今天我们就来拆解一下,灵巧手的控制到底有哪些技术路线,各自又有什么优劣。

三大控制范式:从"算力不够经验凑""数据驱动"

灵巧手的控制方法,大致可以分为三大类:基于模型的控制、无模型学习控制、以及混合控制。

这三条路线的演进,本质上反映了机器人领域从"人写规则"到"机器学规则"的范式迁移。

基于模型控制:经典但遇到瓶颈

基于模型的方法是最传统的路线——先建一个灵巧手和物体的物理模型,再用控制理论算出该怎么做。

核心思路是:如果你能精确描述系统的动力学,那你就能精确控制它。

这里面有几个经典子路线。

力位混合控制(Force/Position Hybrid Control):把任务空间分解成"需要用力控制的方向"和"需要用位置控制的方向",分别施加不同的控制策略。

核心公式很直觉——用选择矩阵 S 分解任务空间:

F_cmd = S · F_desired + (I − S) · K_p · (x_desired − x_actual)

S 是对角选择矩阵,元素为1的方向用力控,为0的方向用位置控。

比如拧瓶盖——轴向用力控制保证不捏碎,旋转方向用位置控制保证拧得动。

阻抗控制(Impedance Control):不直接控制力和位置,而是控制两者的关系。

本质上是给机器人末端设计一个"虚拟弹簧-阻尼-质量"系统:

M_d · ẍ + B_d · ẋ + K_d · (x − x_d) = F_ext

其中 M_d 是虚拟惯性矩阵,B_d 是阻尼矩阵,K_d 是刚度矩阵,x_d 是期望轨迹。

阻抗高,外力难以改变运动——刚性大。阻抗低,轻轻一碰就偏移——柔顺性好。

DLR-HIT II五指灵巧手就用了笛卡尔阻抗控制来处理柔性关节,是经典中的经典。

基于优化的控制:比如MPC(Model Predictive Control),在每一步滚动优化未来的动作序列,选出当前最优控制。

MPC的优化目标可以写成:

min Σ [ ℓ(x_k, u_k) ] + V_f(x_N)     k=0..N-1

s.t. x_{k+1} = f(x_k, u_k),  x_0 = x(t)

ℓ 是阶段代价,V_f 是终端代价,f 是系统动力学模型。每个控制周期求解这个优化问题,只执行第一个控制量 u₀,然后滚动前进。

这类方法在理论上是完备的,但有个致命问题——灵巧手的接触动力学太复杂了。

20个自由度的Shadow Hand,加上未知物体的接触面变化,建模误差会迅速累积。你模型建得越精细,计算量越大;建得越粗糙,控制越不准。

这就是经典控制的困境。

学习型控制:当前的主流方向

既然手写模型太难,那就让机器自己学。

深度强化学习(Deep RL)是目前最热门的方向。

思路很直接:在仿真环境里让灵巧手反复试错,用奖励函数引导它学会完成任务。

RL的核心目标是最大化期望累积奖励:

J(π) = E_{τ~π} [ Σ γ^t · r(s_t, a_t) ] t=0..T

其中π 是策略,γ 是折扣因子,r 是即时奖励。策略越好,长期累积奖励越高。

OpenAI 2018年用Shadow Hand在仿真里学会解魔方,然后Sim-to-Real迁移到真实硬件,是这条路线的里程碑。

常用的RL算法包括PPO(Proximal Policy Optimization)、SAC(Soft Actor-Critic)等。

PPO的 clipped objective 是工业界最常用的:

L^CLIP(θ) = E_t [ min( r_t(θ) · Â_t, clip(r_t(θ), 1−ε, 1+ε) · Â_t ) ]

其中 r_t(θ) = π_θ(a_t|s_t) / π_{θ_old}(a_t|s_t) 是新旧策略的概率比,Â_t 是优势函数,ε 控制每次更新的步长上限。

这个clip操作防止策略更新太大导致崩溃——简单粗暴但极其有效。

但纯RL有两个硬伤。

第一,数据效率低。灵巧手的动作空间维度极高,探索效率很差,往往需要数亿步交互才能学会一个任务。

第二,奖励设计难。不同任务需要不同的奖励函数,设计不好就会出现reward hacking——策略找到了漏洞但不解决真正的问题。

模仿学习(Imitation Learning)提供了另一条路:不从零探索,而是直接从人类演示中学习。

2025年4月,天津大学、ETH、中科院自动化所等联合发表了一篇综述《Dexterous Manipulation through Imitation Learning: A Survey》,系统梳理了这条路线。

模仿学习的核心优势是:不需要精心设计奖励函数,也不需要大规模试错,直接从专家演示中习得细粒度的协调和接触动力学。

这里面最值得关注的是几个子方向。

行为克隆(Behavior Cloning):最直接的IL方法,用监督学习把状态映射到动作。

BC的目标函数就是标准的监督损失:

L_BC = − Σ log π_θ(a | s) (s,a) ∈ D

让策略π_θ 在状态 s 下尽可能复现专家动作 a。简单有效,但有"复合误差"问题——小错误逐步累积导致任务失败。

扩散策略(Diffusion Policy):用扩散模型来建模多模态动作分布,是2024年以来的明星方向。

扩散策略的核心是反向去噪过程:

a_{t-1} = (1/√α_t) · (a_t − (1−α_t)/√(1−ᾱ_t) · ε_θ(a_t, s, t)) + σ_t · z

从高斯噪声 a_T 开始,逐步去噪生成动作序列,条件是当前观测 s。ε_θ 是神经网络预测的噪声,z 是随机噪声。

这意味着——同一个状态可以生成多种合理动作,完美解决多模态问题。

Chi等人提出的Diffusion Policy直接用扩散模型作为决策模型,根据视觉输入生成动作序列。3D Diffusion Policy进一步引入3D空间表示,3D Diffuser Actor则整合了RGB-D、语言指令和本体感觉。

扩散策略的优势在于能处理多模态数据——同一个状态下可能有多种合理动作,传统BC只能取平均,扩散模型能正确建模这种分布。

DAPG(Demo Augmented Policy Gradient):把RL和IL结合,用人类演示提供初始策略,再用RL微调。

DAPG的损失函数把两部分加在一起:

L = L_RL + λ · L_Demo

L_Demo = Σ log π_θ(a | s) (s,a) ∈ D

其中 L_Demo 鼓励策略贴近演示,L_RL 是标准策略梯度,λ 控制演示约束的权重。

既减少了探索成本,又保留了RL的优化能力。

混合与分层控制:取各家之长

纯模型方法和纯学习方法各有短板,所以很多前沿工作在做融合。

分层控制是常见思路:高层用学习型方法做任务规划和策略选择,低层用基于模型的方法做力位控制。

比如高层用扩散策略决定"下一步该抓哪里",低层用阻抗控制保证抓取时的力柔顺性。

KineDex框架——同济大学、清华、上海交大、港大联合提出,走的是另一条路:通过"手把手"示教直接传递人类动作到灵巧手,同步采集触觉信息。

在瓶盖旋紧、牙膏挤压、注射器按压等九项精细任务中,KineDex平均成功率达74.4%,数据采集效率比遥操作提升两倍以上。已被CoRL 2025接收。

Sim-to-Real:跨越仿真与现实鸿沟

不管用RL还是IL,大部分训练都在仿真中完成。但仿真和现实之间有一道鸿沟。

物理参数不一致、传感噪声分布不同、接触动力学建模偏差——任何一项都可能导致"仿真里完美,现实中翻车"。

主流的Sim-to-Real方法包括:

Domain Randomization:在仿真中大量随机化物理参数(摩擦系数、质量、阻尼等),让策略学会在各种参数下都能工作。

Domain Adaptation:学习一个从仿真到现实的映射,缩小分布差异。

系统辨识:用真实数据校准仿真参数,让仿真更接近现实。

OpenAI的魔方项目就大量使用了Domain Randomization——在仿真中随机化了摩擦、质量、视觉外观等几十个参数。

形式化地说,训练时从参数分布 p(ξ) 中采样,优化的是期望性能:

max_θ E_{ξ~p(ξ)} [ J(π_θ, ξ) ]

只要策略在足够广泛的参数扰动下都能work,真实世界不过是这个分布里的一个采样点。最终成功迁移到真实Shadow Hand。

Sim-to-Real至今仍是一个open problem,没有银弹。

触觉感知:被低估的关键维度

大部分控制方法都依赖视觉输入,但当涉及精确操作时——插入卡片、转动钥匙、处理可变形物体——视觉就不够用了。

人类靠触觉反馈不断调整抓握力,而主要依靠视觉的机器人在很大程度上做不到。

UC Berkeley、NVIDIA和斯坦福联合开发的T-Rex框架,把视觉、语言和触觉集成到一个统一的学习框架中,是触觉-反应灵巧操作的前沿探索。

Meta FAIR的NeuralFeels则通过融合触觉和视觉,让机械手对未知物体持续3D建模,跟踪精度最高提升94%。

触觉感知正在从"可选模块"变成"必选项"。

各路线对比一览

控制方法 优势 劣势 代表工作
力位混合控制 物理意义清晰,实时性好 需精确建模,泛化差 经典工业机器人控制
阻抗控制 柔顺性好,适合接触任务 参数调节依赖经验 DLR-HIT II
深度强化学习 无需精确模型,可处理高维空间 数据效率低,奖励设计难 OpenAI魔方
行为克隆 简单高效,无需奖励函数 复合误差,多模态建模弱 DAPG
扩散策略 多模态建模强,泛化好 推理速度慢,计算成本高 Diffusion Policy
混合分层控制 取各家之长,鲁棒性好 系统复杂,工程量大 KineDex

未来走向

灵巧手控制正在经历一场从"模型驱动"到"数据驱动"的范式迁移。

但这不意味着经典控制要被淘汰——恰恰相反,最优秀的系统往往是把学习型方法的泛化能力和基于模型方法的可解释性融合在一起。

三个趋势值得关注:

一是触觉感知将深度融入控制闭环。纯视觉控制的天花板已经到了,触觉是下一个突破口。

二是Foundation Model for Manipulation。类似RT-2、OpenVLA这样的大模型正在尝试做通用操作策略,灵巧手是终极考验。

三是Sim-to-Real的效率。当数据采集成本居高不下,仿真训练的效率直接决定了技术落地的速度。

至此,灵巧手控制的版图已经清晰——硬件在迭代,算法在融合,数据在积累。

谁能率先把这三者打通,谁就能让灵巧手真正走出实验室。

2025年,人形机器人产业迎来爆发拐点。特斯拉Optimus量产在即,华为、宇树等企业加速技术突破,行业正从“实验室研发”向“规模化落地”跃迁为打通产业链上下游协作壁垒,艾邦机器人正式组建"人形机器人全产业链交流群",覆盖金属材料、复合材料、传感器、电机、减速器等全硬件环节,助力企业精准对接资源、共享前沿技术!

扫码关注公众号,底部菜单申请进群

作者 ab, 808