关于我们
成都创生文化传播有限公司成立于2014年,是中国领先的文化战略专家与商业写作机构,由财经作家、出版人、资深媒体人联合创办,为地方政府、500强企业及头部企业、个人IP提供文化研究与图书创作出版服务,包括华为、腾讯、兴业银行、成都农商银行、通威、茅台、五粮液、洋河、习酒、娃哈哈、吉利、万向、传化等,并为褚时健家族与褚橙品牌、多位个人IP打造品牌。
无论神经网络多么发达,算力多么强大,仅有这些“装备”的机器人充其量不过是发达的“缸中之脑”,它们的“意识”中是黑暗的,寂静的,空无一物的。
最先来到机器人世界的是“光明”。1949年,英国神经学家威廉·格雷·沃尔特制造出装有光传感器的机器“海龟”Elmer和Elsie,它们表现出令人惊奇的光敏性,能够识别出强光与柔光、判断出光源距离、始终追随认定的光源行动。1966年,斯坦福研究所的工程师们给一台被名为Shakey的轮式机器装上黑白摄像头,它能用镜头捕捉周围环境的明暗变化,再通过早期算法将光点转化为简单的空间地图,成为首个能自主规划路径的“会看” 机器。不过Shakey的视觉基本仅限模糊的轮廓识别,连区分墙壁和桌子都要靠预设程序,而且每处理一帧图像需要耗费数分钟。虽然笨拙,但它第一次让人们看到,机器人可以通过视觉信息进行自主决策,这是机器感知历史的重要开端。


图为“海龟”机器人Elmer和Elsie
图片来源Smithsonian Institution官网
1999年,索尼的AIBO机器狗让视觉感知走进了普通人的生活。当时电子宠物正流行,索尼的工程师想让机器狗不止会动,还能“认路”“认人”。他们给AIBO的“鼻子”里嵌了约0.3英寸的CCD摄像头,能捕捉640×480像素的彩色图像。当主人举起红色小球,AIBO能通过视觉追踪球的运动,甚至能识别特定手势——比如挥手就让它坐下。虽然它偶尔会把地毯纹理误认成障碍物,可凭借可爱的外形和互动能力,还是卖出了15万台,让“机器人能看见”成了大众能触摸到的体验。
进入新世纪后,机器人视觉经历了从平面到立体的革命性跨越。2000年,日本本田的ASIMO机器人历经14年研究终于问世。它拥有双目摄像机,模拟人类用双眼感知深度和距离,生成三维空间的感知。2010年后,深度学习让视觉感知技术的发展突飞猛进。通过大规模图像训练,机器人可以以前所未有的准确率识别物体、场景甚至人脸。这一成果直接推动了自动驾驶的发展——谷歌的自动驾驶汽车借助视觉传感器和深度学习算法,实时感知车辆、行人、交通标志,让车辆在复杂路况中自如穿梭。
2022年特斯拉Optimus的出现,让视觉和AI真正“绑”在了一起。工程师给它装了8个高清镜头,配合神经网络算法,能同时识别行人、障碍物和手势——比如看到工人比“停”的手势,就会立刻停下。更厉害的是处理速度,从初代的200毫秒延迟,降到了50毫秒,相当于人类眨次眼的功夫,它已经分析了三次环境。在测试车间里,Optimus看到圆形零件会用指尖捏,看到方形零件会用掌心托,这让机器人首次不用预设程序,就能自主处理不同任务。到2025年,傅利叶智能推出的Carebot人形机器人GR-3集成了31组传感器,实现了微表情识别和眼神追踪等高级视觉功能。波士顿动力的Stretch机器人又往前迈了一步,它的视觉不再单独工作,而是和触觉、力觉配合:看到包裹时,先通过摄像头读标签,再用指尖传感器摸硬度,最后用手臂力传感器测重量,0.3秒内就决定好怎么抓,就像人类搬箱子时自然判断轻重一样。
当机器逐渐学会看世界时,科学家们也致力于让它们学会“听”懂人类。1952年,贝尔实验室的工程师们为了解决电话系统中的数字识别难题,造出了一个像柜子般笨重的机器Audrey,根据不同数字发音的频率特征来识别0到9。但这个最早的语音识别系统格外“挑剔”,只能在绝对安静的环境中工作,必须由男性在特定距离发音,稍有噪音就会认错数字。
1976年,隐马尔可夫模型(HMM)的引入标志着机器人听觉技术取得第一次重大突破。使用了HMM的语音识别系统将人类自然发音尽可能拆分成更小的单位,通过统计概率预测最可能的组合。研究人员为HMM准备了大量的统计数据,这就像它自带的语音字典。比如人类准备发出“苹果”的音,当“p”的音出现后,HMM迅速翻开自己的字典,找到可能在“p”后出现的语音单位、可能与“ping”组合成词的语音单位,最终将听到的发音对应到正确的词上。它打破了机器只能听懂单个词的局限,为机器人处理自然语言开辟了道路。当时的工程师们不会想到,这种统计模型将统治语音识别领域长达30年,而HMM的改进模型直到今天也在发光发热。
针对嘈杂环境这一干扰项,除了不断革新的降噪化、微型化麦克风技术,深度学习也参与其中。2012年,微软研究员邓力发表的论文证明,深度神经网络在语音识别上的表现远超传统HMM。2014年百度推出的DeepSpeech系统将这一技术实用化,用包含了饭店、汽车等场景的背景噪音的10万小时语音数据训练模型,最终系统学会了在干扰中聚焦人声,识别准确率达81%,远超谷歌的65%。这项突破对服务机器人至关重要,从此它们不必再依赖安静环境就能工作。
“听懂”的难点不止在识别出正确的文字上,更在“听”出说话人的语气、情绪上。上世纪末,一些实验室已经敏锐地意识到,语音里除了文字信息,还藏着丰富的情感密码,并开始着手研究。2001年,日本NEC公司发布的PaPeRo机器人,配备了能够分析语调的模块,可以通过音高、音量的变化来判断用户是否愤怒或高兴。
2008年,德国柏林工业大学的研究人员找打了诀窍。他们开发出名为EmoVoice的工具箱,让它从大量数据中学习后,能够精准地从语音中提取出数十种声学特征,比如音调高低、语速快慢、声音的颤抖程度等,最终能够可靠地分辨出诸如“愤怒”与“高兴”等在声学特征上相似却截然不同的情绪。EmoVoice首次让语音情感识别走出了实验室,应用于早期的呼叫中心客户情绪监测系统中,当识别到顾客情绪激动时,为其自动转接人工服务。机器人开始学会了“察言观色”。
成为优秀的具身智能,还差最后一个关键感知技能:触觉。相比视觉与听觉,触觉感知的探索或许是具身智能研发进度最慢的部分。上世纪70年代,研究人员通过在机器人的指尖安装开关式传感器,与物体接触,开关即被触发,无物体接触,开关保持闭合,让机器人第一次区分出“接触”与“未接触”。
80年代起,工业机器人大量进入工厂流水线,触觉需求开始显现。德国库卡等机器人公司率先在机械臂上引入力矩传感器。这类传感器能检测关节处的扭矩大小,从而让机械臂在装配时学会“轻拿轻放”。比如在汽车生产线上,传统机器人拧螺丝时容易因力度过大而损坏零件,而装配了力矩传感器的机械臂能够根据反馈自动调整力度,实现稳定而精密的装配。库卡在90年代推出的KR系列工业机器人就应用了这一技术,成为当时电子制造和汽车装配行业的明星产品,也推动了触觉感知从实验室走向大规模产业应用。
在坚硬、庞大的机械面前,人就如鸡蛋一般脆弱,适用于工业生产的“力道”放在与人的互动上,或许仍显得太粗糙。
进入21世纪开始,研究重心转向触觉感知精细化、“皮肤化”。2011年开始,麻省理工学院与哈佛大学合作开发了一种柔性传感材料,其表面嵌入大量微型传感器单元,可以像人类皮肤一样同时感知压力和温度,机器人不仅能判断是否触碰,还能分辨触碰的强弱与热冷。2014年,斯坦福大学的研究团队研发出著名的GelSight传感器,它能使用算法将接触物体后产生的数据整合成物体的3D形状和受力情况,感知精度再次升级,装备了GelSight的机器人可以自主抓起USB充电器后,自己寻找到需要充电的目标物体,再准确插入对应的小小接口了。
2021年,GelSight传感器已经缩小到指尖大小,内部的微型摄像头能捕捉每平方毫米的变形细节。这次机器人能做更精细的动作:抓鸡蛋时,传感器能察觉到蛋壳的弧度变化,算法立刻调整握力,使之既不会捏碎蛋壳,也不会让鸡蛋滑落。后来这项技术被用到了医疗机器人上,医生通过屏幕就能“感受”到手术器械触碰组织的力度,高精度的感知为同样要求高精度的手术保驾护航。
视觉、听觉、触觉,三大探索世界的必备技能已经集齐,具身智能的多模态感知技术融合的大幕正式拉开。在20世纪,研究人员就已经开始尝试将不同知觉组合,比如本田的ASIMO能用视觉捕捉人手的位置,根据触觉调整与人握手时的力度。但一直在深度学习介入前,各感知能力之间都是较为独立的工作状态,因为格式不同,多模态感知常面临数据隔阂问题。当听觉系统捕捉到“拿杯子”的语音指令时,视觉系统却有可能因为定位偏差、理解谬误等原因捕捉到错误物品。
2017年,谷歌旗下Transformer架构的出现,让具身智能的不同感知能力得以协同作战,其核心在于可以并行处理数据的“自注意力”(Self-Attention)机制。以往大多神经网络处理数据必须按照数据“排队”顺序依次处理,并行计算能力使Transformer架构可以同时解读视觉系统、听觉系统、触觉系统传达的数据。同时,“自注意力”能够让它自动筛选不同模态数据中的关键内容,优先关注重要信息,比如抓取物体时,优先聚焦视觉捕捉的物体形状、触觉感知的表面硬度,忽略无关的背景噪音;又比如听到行动指令后,首先将指令中的物体与视觉中的图像匹配完成,再规划如何前往、如何拿取。机器人从此不再听得懂却找不对、看得到却拿不起,具身智能的“大脑”终于组装完成。
此后智能“大脑”的发展在算法、硬件的加持下突飞猛进。2021年,谷歌团队优化Transformer架构,进一步提升其处理数据的体量和速度。同年,OpenAI推出的CLIP模型让机器能够理解图片与文字之间的对应关系,比如看到一张猫咪的图片,就能联想到“可爱”“宠物”等词汇。2022年,微软在Azure AI平台上推出多模态模型,用于医疗和客服场景;特斯拉Optimus机器人的8个高清镜头结合神经网络,50毫秒内完成环境分析,凭视觉自主处理不同零件;到了2025年,傅利叶推出GR-3人形机器人,集成听觉、视觉、触觉三大模块,堪称多模态感知技术的集大成者。其头部4个麦克风阵列精准捕捉声源,“结构光技术+RGB摄像头”实现人脸识别,31个触觉传感器实时感知触摸。通过注意力管理机制,它能动态调配感知优先级,与人互动时,依据语音、表情和触摸反馈,做出更人性化回应,比如感知到拥抱时,给予温暖回应,真正实现有温度的人机交互。
跨越近一个世纪的探索,“造物主”人类为自己专属的机械生命亲手造出了智慧的载体——智能“大脑”,看着具身智能的每个感知维度从稚拙到成熟,从“孤岛”到紧密相连,从实验室里的懵懂实验品,进展成生产线上、服务业中、医院中等各类场景里都愈发重要的角色。神经网络与先进算法如同无形的纽带,将视觉的精准、听觉的敏锐、触觉的细腻紧密串联成多模态感知能力,升华为一种能理解、会判断的智能能力,人类与机器之间在思想上的无形隔阂的正在悄然消融。
人是怎么动起来的呢?大脑发出指令,神经激活肌肉,肌肉牵动骨骼,这个瞬时完成、流畅自然的流程,离不开一个极为重要的部位:关节。骨骼通过围绕关节旋转、环转等,让各个部位完成屈、伸、展、收等动作,人体才得以灵活运动起来。科学家们在不断尝试中,用电机、减速器、传感器、控制器等零件组成了机器人的“关节”模组,让机器人从一板一眼的僵硬变成能跑能舞的灵动。
上世纪六十年代的机械臂们就已经用上关节模组了。它们的构成极为简单,电机加减速器让机械动起来,再配合位置传感器来确定角度。优点是精准、稳定,在固定场景下,能够满足搬运、焊接零件的简单需求。但它们缺乏柔性缓冲,细微的撞击或移动就可能损坏或者卡死。
九十年代开始,科研人员发现,要让机器人真正适应现实崎岖的地面,机器人的关节需要像人类的关节一样,能够减震和缓冲。于是顺序弹性执行器出现了,它的突出特点即在原来模组上增加了如弹簧等弹性元件,充当“关节软骨”,让机器人在踩到硬地面时,不会把力直接传给电机和骨架,既保护自己,也提升控制精度。
这个设计在2010年麻省理工学院研发出的四组机器人“猎豹”上得到了充分发挥,它借助优化后的顺序弹性执行器设计,在奔跑和跳跃时既能高速动作,又能稳稳落地,不会因踩到石块而摔倒。2010年以后,“猎豹”机器人第二代、第三代陆续推出,研究者将旧式顺序弹性执行器的外部弹性元件(如外置弹簧等)集成到关节内部,同时加入高精度内置力传感器,形成“弹性元件+本体感知”的“本体感知驱动”。也就是说,机械关节能通过内部传感器实时测量输出的力和速度,对冲击的反应更快,仿佛具备了各种运动反馈的“本能”“潜意识”。就像人跳起后落地的动作无需大脑额外发出指令即能做出调整,“猎豹”也能根据落地瞬间的数据立刻调整关节动作。通过这种设计,猎豹机器人不仅跑得快,还能稳得住,展现出前所未有的敏捷。
2018年,“猎豹”进化成了迷你“猎豹”。现在它的关节已经十分齐全,每条腿上有三个关节用来模仿髋、膝的运动方式;同时,它的关节模组通过集成传感器、控制电路、散热设计等实现了模块化设计,如果某个关节坏了,直接换一个就能继续跑,大大提高了可靠性和可维护性。
这样的高度集成化成了机械关节发展的主流方向。宇树科技于2023年推出的“明星”H1通用人形机器人便使用了一体化集成设计的关节模组,电机与减速器紧凑拼合,就像将汽车发动机与变速器合二为一,消除了冗余结构;了双联行星齿轮结构给关节装了一个杠杆,一点小小的动力经过两个齿轮的传递被大幅放大,速度变慢,精度提升,关节可以又稳又准地输出巨大力量;核心组件之间留出线缆走线的空间,避免这些“关节神经”外置导致磨损。2025年春晚,16台H1化身甩手绢的“福兮”,动作同步误差小于0.1秒,流畅的舞姿正是集成化关节功能的生动外化。
然而,春晚上逗人一笑的H1却没具备具身智能的另一大武器——“灵巧手”。
六十余年前,已经可以拿起、放下物品的机械手们还远不能被称为“灵巧手”。1962年IBM发明的MH-1手能依靠电机或气动装置完成简单的抓握动作,但从形态上来看,比起人手,MH-1手更像一把开合钳子。1979年日本电气实验室研发的Okada手在“钳子”的基础上增加了一根手指,这个三指机械手共有11个关节、11个自由度。所谓自由度,就是能动的方向或轴数,比如人类手指除了能弯曲伸展,还能左右张合,每多一个方向就意味着动作更复杂。Okada手不仅能弯曲,还能做类似人类张开或收拢手掌的动作,机械手的形态和功能开始有了人手的味道。
1983年由斯坦福大学和美国喷气推进实验室联合推出的Stanford/JPL手是一个巨大技术突破。与以往直接用电机驱动不同,它采用了腱驱动的方式。腱驱动就像人类肌肉通过肌腱带动骨头一样,用绳索或钢丝把电机的动力传递到关节。这让机械手的体积更小、动作更灵活。而它指尖上的触觉传感器,可以感知接触的力量,防止破坏物品或空抓一场。Stanford/JPL手不仅能抓住物体,还能在手里转动或挪动它,带来一丝“灵巧”的曙光。
几乎与此同时,另一项划时代的成果在美国犹他大学和麻省理工学院的合作下诞生——Utah/MIT灵巧手。它的外形和结构更加接近人手,甚至连手指的骨骼和肌腱布局都进行了仿生设计,并配备了关节角度传感器、触觉传感器等多种传感器,这使它不仅能实现人手般的复杂姿势,还能够感知手部姿态和受力情况。这只手成为此后许多灵巧手设计的基础,被誉为灵巧手发展史上的里程碑。


图为Utah/MIT灵巧手
图片来源Computer History Museum官网
已经能够感知力度的机械手,能不能妥善对待易碎品呢?2001年问世的德国航空航天中心研发的DLR Hand II给出了肯定的答案。这款灵巧手不仅在结构设计上更加贴近人类手部构造,而且特别强调“顺应性”,即手指接触未知形状或硬度的物体时,关节能够弹性变形,避免造成损坏。灵巧手开始懂得“轻拿轻放”的道理,象征着这个机械部位开始从“能动”走向“能适应”。
这项技术在宇树科技2025年4月发布的Unitree Dex5灵巧手上发扬光大。在不断优化升级后,“顺应性”已升级为“柔顺丝滑反向驱动”技术,当手指碰到物体时,关节也从轻微变形升级为像人类手指一样自然退让。这让它已经能完成打牌、扭动魔方、翻书等精细动作。
不过,灵巧手的挑战不仅在于“能动”,还在于“怎么动”。人手之所以灵活,不只是因为有很多关节,更因为控制方式极其高效。我们的大脑并不是每时每刻都计算每个关节的角度,而是通过肌肉和肌腱的物理特性,让手指在接触物体时自动调整。这启发了机器人研究中的“欠驱动设计”。
所谓欠驱动,就是驱动器数量少于自由度数量,看似“偷工减料”,但通过巧妙的机械结构,手指在遇到阻力时会自动适应。比如哈佛和耶鲁等机构在2013年开发的i-HY手,只用了五个驱动器,却能完成大部分抓握任务。这种思路让灵巧手更简单、更可靠,也更接近人类自然的动作方式。
到了近几年,灵巧手的发展出现了两个鲜明趋势。
第一个是低成本化。过去一只高端机械手可能要几十万美元,这让大多数实验室和公司望而却步。2023年推出的 LEAP手就打破了这一格局,它成本低、组装快,却拥有足够的自由度和灵活性,专门为机器学习研究设计。这样一来,更多团队可以用真实硬件来训练机器人,而不是只在计算机仿真里做实验。
第二个趋势是高性能化。Shadow公司与谷歌DeepMind合作开发的DEX-EE手,就是一只反应极快的机械手。它的关节控制频率高达每秒一万次,这意味着在物体一旦滑动时,它能立刻调整力度,就像我们人类手指会瞬间收紧一样。它的指尖触觉也非常灵敏,甚至能感受到细微的摩擦变化。这让机器人第一次有可能在现实世界中做出类似人类的快速反应。
第三是感知与控制的精细化。触觉传感器的发展使得灵巧手能感知0.1毫米级别的细微压力变化和纹理,从而实现对物体的精准操控。特斯拉Optimus V3的机械手更是集成了高分辨率触觉传感器、6轴力扭矩传感器及温度感知模块,实现了多模态传感融合。这好比为机器人装备了媲美人类的丰富感知系统,使其能理解接触物体的物理特性。
现在只差为具身智能装上智能“小脑”,让它们稳稳地迈出第一步了。
1954年,乔治·德沃尔发明第一台工业机械臂时,还没有真正的“小脑”——它只能靠预设程序重复抓取动作,就像被线操控的木偶,连调整抓取角度都要人工重新编程。那时的机械臂没有运动协调能力,稍遇工件位置偏移就会失败,只能在流水线固定工位上“机械劳动”。
沿着这条“人工干预”的研发思路,诞生出两位“主力选手”:线性二次调节器和模型预测控制。线性二次调节器能够实时计算如何用最少的能量调整姿态偏差。一旦受到外力干扰,它就会迅速微调各关节,让机器人恢复稳定。而模型预测控制则会预测未来几步的状态,提前规划出一条兼顾稳定与节能的运动轨迹,确保机器人在硬件限制下仍然稳如泰山。
另一股方向相反的研究思想悄悄萌芽。1989年,加拿大工程师Tad McGeer制作了一台没有马达、没有控制器的双足步行机,只靠自身机械结构和重力,就能沿斜坡自然行走,步态竟然酷似人类。原来机器人的运动不一定全部依赖模型、算法,机械结构本身也可以成为控制的一部分。这个发现后来被叫做“被动动力学”,其核心在于利用机械形态本身的顺应性。比如膝盖弯曲和质心位置的设计,能够让机器人像钟摆一样产生节律运动。这时候,控制算法只需要在关键时刻轻轻施加一点力,就能维持整个运动。这种思路大大减少了能量消耗,让动作更自然。
新世纪以来,深度学习、神经网络等新兴科技也深度参与了智能“小脑”的进化,机器在现实世界或仿真环境中跌跌撞撞地前进,不断积累学习数据,优化自己的行进方式。有了能够自主学习的“小脑”,机器人们已经完成相当多的灵活动作,后空翻、跑酷等高难度行为也不在话下。
但研究者们并未止步于此。当前,越来越多的研究正朝着端到端学习的方向发展。所谓端到端,就是不再把感知、决策、控制分得那么清楚,而是让一个统一的模型直接处理从视觉输入到动作输出的全过程。比如,当机器人看到前方有一个坑时,它的模型能直接生成“跳过去”的动作,而无需额外模块去解读和下达指令。这样的设计让“小脑”具备一定的环境理解能力,能在复杂场景中更灵活地应对。今天的“小脑”研究,已经不再是单纯的数学公式或机械设计,而是一个融合了算法、身体和环境的整体工程。
从最初的僵硬到如今的灵巧,具身智能的躯体在一次次迭代中,学会了借助形体、环境和经验去感受并回应世界。那些曾经需要“造物主”人类预设模型才能完成的动作,在硬件突破、算法进步、持续模仿下,如今已能在瞬息之间化作一种流畅的“机械”本能。
人靠着一日三餐,维系着一天24小时的工作与生活,平均一顿饭可以让人“运行”8小时。人类投入了超过半个世纪的时间,研发出来的拥有智能“大脑”、智能“小脑”、精密肢体的机械生命具身智能一次性可以运行多久呢?小米CyberDog 2只能运行1.5小时,春晚甩手绢的宇树H1续航时间也仅2小时。各类机器人因体型不同运行时间各有差异,但毫无疑问,没电,或许是阻碍具身智能飞跃的最难一关。
1966年在美国斯坦福研究院诞生的Shakey只能依赖外接电缆获得电力,实验人员形容它像“拖着长尾巴的婴儿”,一旦离开供电源就彻底停摆。接下来的十年,科学家们便开始尝试用电池替代外接电缆。最先使用的是铅酸电池,机器人借此获得了相对广阔的活动空间,但电池的沉重也让它的动作始终笨拙缓慢,续航时间仅短短20分钟。随后应用的镍镉电池虽然体积更小、功率更高,但充电次数多了就会逐渐衰减,维护难度也让人望而却步。
九十年代锂电池出现,它轻便高效,容量也更大,很快成为机器人能量的主力来源,几年内便完成商业化,一直使用并优化至今,机器人在高性能锂电池的驱动下能够完成越来越多的复杂动作。
电池的容量始终有限,机器人“工作”一小段时间电量就将耗尽。没电了?那就及时充电吧。2012年,美国宾夕法尼亚大学GRASP实验室在四足机器人上成功实验出自动对接充电技术。机器人在电量低于20%时会自主返回充电站,通过视觉引导将背部的充电触点与站台上的电极精准对接,为机器人在复杂环境中实现长期自主运行提供可能。
当研究人员的视线落到日常生活中的遥控器、玩具时,新的灵感猛地涌现,同样是使用电池的电器,机器人也可以像这些小“电器”一样,用满电的新电池替换没电的旧电池。2016年,波士顿动力推出新一代的Atlas机器人,引人瞩目的是,它躯干中的那块电池包仅需5-8分钟即可更换完成,省去了漫长的充电时间。就像工作疲惫的人一样,Atlas只需稍作“休息”,就可以满电复活,继续投入工作。


图为2016年波士顿推出的Atlas机器人
图片来源波士顿官网
而另一个棘手问题却开始浮现。很长一段时间里,无论是哪种形态的机器人,都使用集中式电池组供电,即在机器人身体内部放置一个统一的电池包,就像人类心脏将血液输送到全身。输送的过程会造成大量损耗,加重电池容量负担的同时发热、延迟,且一旦电池故障,全身系统都会瘫痪。
2005年,麻省理工学院机器人实验室提出了分布式供能的设想。他们希望让机器人各个肢体像电力分区一样独立供能,每个关节都拥有微型电池单元或超级电容,就像小型发电站分布在全身。这样一来,机械臂举起重物时不必依赖远在躯干的大电池输电,而是直接调动手臂模块的储能,理论上每个模块的能量损耗减少20%以上,效率显著提升。
日本ROBOTIS公司推出的BIOLOID教育机器人套件,首次在消费级产品中使用了分布式供能的理念,并且创新性地与换电模式结合。2008年推出的BIOLOID肢体关节采用可拆卸的电池模块,每个模块相当于一节大号充电电池,重量仅50克。开发团队还考虑到使用群体为学生,且多应用在教育场景,会频繁调整、更换结构,于是将电池与关节模块整合,更换时只需拧下螺丝就能取下旧模块,换上满电模块,整个过程像搭积木一样简单。
可以说,模块化设计已经大大精简了充电、换电的流程,但它仍有个弊端,那就是换电时需要先行关机,没法“无缝衔接”。2024年4月,由北京人形机器人创新中心开发的通用人形机器人“天工”,就以其革命性的自研的双电池快换电系统。天工的突破在于,它可以在保持站立姿态、全身不断电的情况下,自主完成电池模块的更换,也就是使用了“热插拔”技术。热插拔是指在设备持续运行、无需关机的情况下更换其组件。对于机器人而言,这意味着可以在不中断任务的前提下更换电池。
天工是如何实现热插拔的呢?这得益于天工的能源系统至少由两个电池模块组成,当需要更换其中一个模块时,其先进的电池管理系统会指挥另一个模块瞬间、无缝地接管整个机器人的全部供电负载。这个切换过程必须极其平滑,以防止因电压突变或电流冲击而损坏精密的电子元件,更要避免在插拔瞬间产生电弧——那就像在加油时出现火花一样危险。天工首次让工业级人形机器人具备了理论上的“永续作业”能力。
如果说天工解决了“如何不断电换电”的问题,那么一年后,优必选科技则给出了“谁来换电”的终极答案。2025年7月,优必选发布了其全新一代工业人形机器人Walker S2,并随之公布了一项全球首创的技术——人形机器人热插拔自主换电系统。这项技术让Walker S2能够在3分钟内,完全依靠自身,完成从导航到换电站、到用自己的手臂更换电池的全过程,彻底摆脱了对人工的任何干预。
优必选的这一系统集成了三大核心技术创新。一是原创双电池动力平衡技术,系统会实时盯着两个电池模块的电量,通过智能算法让它们充电时一起满电、放电时同步出力,确保两个电池模块能够同充同放,并在切换时做到无缝衔接。二是标准化电池仓快换技术,其电池模块不仅是能源件,更是机器人身体结构的一部分。精巧的自定位夹持机构使器械只要对准位置就能快速解锁旧电池、锁紧新电池。最关键的是第三点——双臂协同精准换电技术,Walker S2结合视觉定位和柔顺控制算法,先通过“眼睛”精准找到电池位置,再用机械臂轻柔又稳当地抓起电池,对准仓位时还能自动调整角度,修正偏差,最后稳稳完成插拔。这标志着具身智能换电技术实现了从“能换”到“自己换”的完全闭环,是该技术走向产业化和高度自动化的里程碑。
随着换电技术的演进,这场变革的参与者已不再局限于机器人本体制造商。作为能源系统的核心,电池制造商们也开始深度介入。以全球动力电池巨头宁德时代为例,其布局清晰地展示了产业链协同的趋势。宁德时代不仅针对机器人高爆发、高精度的用电需求,开发专用的电池产品,更通过战略投资的方式,入股了多家头部人形机器人公司。
这种从源头参与机器人能源系统设计的做法,意义非凡。它标志着机器人电池正从各家自研的“定制化”时代,迈向由专业厂商推动的“标准化”时代。当电池的尺寸、接口、通信协议都趋于统一时,不同品牌的机器人将有望共享同样的能源基础设施,极大地降低了换电网络的建设成本和运营门槛。专业的电池厂商正在构建一个开放的机器人能源生态,如同为智能手机建立统一的USB-C标准一样,将极大地加速整个行业的成熟与普及。
当下,单看具身智能的单个电池续航时间,似乎不尽人意,短短两三个小时乃至三四个小时,与人们预想中的24小时就位相差甚远。但通过自动充电、自动换电技术突破,电池容量的不断增大,具身智能的“脑”与“身体”都已拥有了持续的能源供应作支撑,有了更广阔的发挥舞台。而研发人员还在不断探索,或许未来具身智能将向完全自主的能源自给系统演进,成为真正意义上能长期自主运行的智能机器。
2025,是具身智能元年,各个细分领域的技术井喷式发展,普通人的想象力似乎都快要跟不上技术迭代的速度,我们评价它们越来越 “好用”。这种“好用”,是人类将自己观察、聆听、触摸世界的方式“手把手”教给具身智能的结果,是人类牵着它们从蹒跚学步到肆意奔走的结果。这是人类创造力与洞察力的结晶,最终将指向“服务于人、适配世界”的人机协同的深度融合。未来依然布满挑战,技术的蛮荒发展终将迎来瓶颈和阻碍,机械相关仍然模糊的伦理与责任的边界,都考验着人类的探索心。然而可以想见的是,随着人类不断施展巧思,具身智能将愈发敏捷、可靠,并逐渐成为日常生活的默契同伴。它们或许不会替代人类,但一定会以某种方式延伸人类能力的触角、填补需求的空白,生长出更具价值的未来形态。
(下篇完)

本文作者
马玥
财经作家,中央民族大学法学学士、中国人民大学文学硕士。中国内容行业的重要研究者和实践者,白酒行业观察家,出版策划人,目前为优质内容创作与出版运作机构创生文化总经理。
持续研究的内容案例包括褚时建与褚橙品牌、浙商企业家精神、茅台文化、五粮液文化等。著有《爆品思维》《褚时健管理法》《重新理解人力资源》《笃信致远:曾康霖》《读懂中国金融》等商业财经、人物传记及学术思想作品,深度研究白酒、金融、新能源等行业史与企业史,联合著作及参与文化项目《兴业之路》《蓉光——成都农商银行口述历史访谈》《这就是茅台》《在这里读懂习酒》及茅台“五力”等企业作品。
蔡维熹
上海师范大学文学学士、四川大学文学硕士,创生文化研究员兼财经作者。

参考文献
2025年,人形机器人产业迎来爆发拐点。特斯拉Optimus量产在即,华为、宇树等企业加速技术突破,行业正从“实验室研发”向“规模化落地”跃迁为打通产业链上下游协作壁垒,艾邦机器人正式组建"人形机器人全产业链交流群",覆盖金属材料、复合材料、传感器、电机、减速器等全硬件环节,助力企业精准对接资源、共享前沿技术!
扫码关注公众号,底部菜单申请进群


