(1)感知系统:视觉传感器方案多元,TOF+双目视觉解决方案有望成为主要技术路径之一;高精度触觉传感器方兴未艾,仿人化力控、柔性电子皮肤发展空间广阔。
(2)决策系统:基于多模态LLM的RobotGPT结合感知系统提供的海量数据,将促使人形机器人在高度语言智能的基础上实现自然智能。
(3)机械系统:减速器、伺服系统、三大核心机械零部件技术精度不断提高,原材料降本空间大。
结合我们在系列报告第一部分中的分析,综合来看,人形机器人发展趋势为:①感知:人形机器人将逐步具备获取人类五感的条件;②决策:人形机器人将获得全面发展的大脑(机器智能);③执行:人形机器人将获得更加精细化、定制化的四肢。通过中长期视角下对人形机器人各系统交互程度的展望,得到人形机器人未来综合形态的发展概念图。
传感器发展趋势:智能化、可移动化、微型化、集成化和多样化。早期的机械式传感器(19世纪末 - 20世纪初)如压力计、温度计,为传感技术奠定基础。20世纪中叶,电子化与半导体时代带来了光敏电阻、压电传感器等,实现更精准感知。随后,微机电系统(MEMS)时代出现微型化传感器,如加速度计。21世纪的纳米技术与智能传感阶段兴起,纳米传感器、智能网络传感器等应运而生,实现高精度、智能化。传感器发展趋势可概括为智能化、可移动化、微型化、集成化和多样化。智能化方向包括传感功能集成、数据处理、双向通信等,以及智能传感器与人工智能结合;可移动化涉及无线传感网技术应用,如智能家居、农业、林业监测等;微型化领域以MEMS传感器为主,提高精度、实现集成化和智慧化等;集成化指多功能一体化传感器的发展;多样化方向突破在新材料技术下出现各种新型传感器。
传感器发展的核心技术瓶颈可总结如下:(1)硬件材料的功能性迭代(金属器械-半导体-纳米材料);(2)软件技术和算法开发的加持。相比于注重现有设备的集成化、微型化以及具有可移动条件的改进式发展,新材料,特别是超导、纳米、生物材料研发的进展更有希望助推传感器技术实现颠覆性突破。以下部分将智能机器人领域所使用的核心传感器分为:视觉传感器、力传感器两大类进行行业现状和技术发展趋势的讨论。
图三:传感器技术的未来发展五大趋势(资料来源:《全球传感器未来发展趋势及4大重要领域》、本翼资本整理)
区别于计算机视觉,机器人视觉的核心任务路径是实现图像-行动的转化:计算机视觉是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量,用计算机技术将图像处理成为更适合人眼观察或传送给仪器检测的图像。过渡到机器视觉层面,其保留了底层技术的关键设计,但也面临新的挑战。对机器人而言,感知只是一个更复杂、具身、主动、目标驱动的系统的一部分。因此,机器人视觉必须考虑到它的输出(比如物体检测、分割、深度估计、3D重建等),机器人视觉获取的信息所指引的决策结果最终需要落实到现实世界的行动上。简而言之,计算机视觉获取图像并将其转化为信息,而机器人视觉则将图像转化为行动。
机器人视觉的三大挑战——学习、具身、理解:机器人是一个主动智能体,它能在现实世界中行动,并与之互动。机器人传感器是支持机器人做出具身化决策的重要技术支持。发布于2016年的《The Limits and Potentials of Deep Learning for Robotics》一文认为:机器人视觉领域的研究重点在于学习、具身和理解这三个维度。根据这些挑战不断增加的复杂性及其依赖性对这些挑战进行了三个理解维度的层级划分如下:
(1)2D技术向3D的技术进展趋势:相较2D技术,3D技术除了量化图像主体发出的光线外还能提供所录制场景或物体的深度值,故在不考虑成本控制因素的前提下,其已基本形成对2D技术的替代。
(2)三种主流3D视觉传感器技术的融合趋势:目前基于3D技术的视觉传感器主要技术路径有三条:①飞行时间(TOF);②立体视觉(StereoCamera);③结构光(Structured-light),三种技术的性能比较如下表。其中TOF和结构光技术在机器人设备的应用领域前景明确,以主动式的测量方法实现了较高精度、较远范围的视觉功能实现。进一步考虑其综合性价比,TOF技术是最优选择。
(3)机器人视觉传感方案再现人眼工作原理的技术实现趋势:考虑市场对人形机器人这一概念的期待与想象力,再现人眼的视觉实现工作原理,即②立体视觉(Stereo Camera)技术的被动式测量方式,依然是未来的主要技术方向。因此,人形机器人综合视觉解决方案的未来发展趋势可能是,以双目视觉为主要形式,以TOF、结构光技术为辅助弥补其低夜视能力和高算耗的主要缺陷。
图六:三种主流视觉传感技术在关键标准下的对比(资料来源:《3D深度相机调研》、本翼资本整理)
图七:不同技术路径的两代Kinect 3D视觉传感器产品的参数比较(资料来源:公司官网产品手册、本翼资本整理)
综合视觉传感方案的几种可能实现路径:基于以上三点趋势预测,综合市面上各厂商3D视觉传感器产品配置的调研,我们认为人形机器人综合视觉传感方案有如下三类配置:①TOF+多摄像头;②结构光+定制化算法设计;③双目视觉+TOF。
以Microsoft的Kinect v2深度视觉传感器产品为例,其基于飞行时间TOF测量原理,闪光红外光照亮场景,光线被障碍物反射后,每个像素的飞行时间由红外相机记录,内部,波调制和相位检测用于估计到障碍物的距离。配合另一侧的颜色传感器,最终能够形成一个有几何结构和颜色贴图的完整高质量的三维模型集合,从而使视觉信号的传输更加真实准确。
图九:Microsoft的Kinect v2深度视觉传感器示意图(资料来源:《3D深度相机调研》、本翼资本整理)
以Pickit公司用于机器人引导的3D视觉系统Pickit M-HD为例,其特点在于采用定制的机器人教学法。在操作方面,M-HD解决方案的机器人教学方法与Pickit的低分辨率产品完全一致。这一简单过程包括三个步骤:(1)告知3D相机要拾取的零件,以及进行拾取的工具,让Pickit将学习这两方面的内容;(2)告知Pickit在哪里可以找到料箱,并教导零件的最佳抓取位置;(3)Pickit告诉机器人下一个最容易拾取的零件在哪里,同时在操作中预测并防止与障碍物和其他零件的碰撞。
基于双目立体视觉的深度相机类似人类的双眼,和基于TOF、结构光原理的深度相机不同,它不对外主动投射光源,完全依靠拍摄的两张图片(彩色RGB或者灰度图)来计算深度,故也被称为“被动式”双目深度相机。双目视觉法存在两个明显的技术缺陷:1)对环境光照非常敏感;2)不适用于单调缺乏纹理的场景。通过对比这一方案下的一种专利技术与单一双目视觉技术的流程(下图),双目视觉方法与TOF方案的结合相当于引入了帮助确定立体区域视差的约束条件,从而提高对单调场景的辨识度,并降低环境光照的干扰。
图十:双目视觉+TOF 视觉传感方案解释(资料来源:《一种结合tof技术和双目视觉的深度信息获取装置及其方法》专利说明书、本翼资本整理)
视觉传感方案对于机器人视觉功能实现的预测:在以上三种综合视觉传感方案实现路径下,我们预计在“学习”、“具身”、“理解”三大维度上,人形机器人的视觉功能实现程度将不断被推高。在“学习挑战”方面,人形机器人将能够通过深度拍照+视觉效应+方向感实现增量/类增量学习;在“具身挑战”方面,其将能够达到理想的主动视觉实现;在“理解挑战”方面的进展则主要取决于感知-决策系统软硬件一体化发展水平的迭代,在这一方向上的终极目标是:帮助人形机器人实现“联合理解”(Joint Reasoning),即以紧密耦合的方式共同地对语义和几何进行推理,从而使语义和几何可以相互共同联系。
图十一:依托三条技术路径的人形机器人视觉功能实现预测(资料来源:EE Times China、本翼资本整理)
传感器结构方面,力传感器对人形机器人的动作实现更理想:按照力传感器感力原件的工作原理不同,可以将其分为①应变片式;②光学式;③压电/电容式;④微电子机械系统MEMS系列传感器(目前技术水平、市场占有率和表现性能最高的方案)。总体来说,力传感器的基本原理是将力的量值转换为相关的电信号,从而帮助机器人达成对受力的量化感知的目的。举例压电/电容式力传感器,其运作流程可以表述为:“受力—应变片电阻—电压”的两次转换。结构方面,力传感器由一维到的发展代表其对现实世界中更复杂受力情况的反映能力的提高。在智能机器人领域,目前用于机器人关节的主流技术是简化版的六维力传感器,即扭矩传感器。
力传感器技术发展的三大趋势:①多种感力原件(应变片式、光学式、压电/电容式、MEMS)的集成化运用;②应对更多力的种类的感力原件开发;③感力材料的创新性运用,是力传感器技术发展的三大趋势。例如,澳大利亚力传感器初创公司Contactile开发的PapilArray传感器初步实现了②和③的突破。具体来说:其创新性地使用了适应性更好的硅胶材料模仿人类指垫的生物性结构,利用光学式传感的专利技术完成传感的过程,在设计理念上,着力于复制人类手部的灵活性,“赋予机器人以人类的触觉”,以实现智能、灵巧的抓握,也因此,在对外力的分析上,设置了分别能够检测物体形变、受力、扭矩、初始滑动和摩擦力的3D偏转、3D力和3D振动传感器,在无需编写特定程序的情况下就可以实现对外界环境的灵活应变。另外,在③感力材料的创新性运用这一点上,同样拥有前沿技术的是University of Bristol研究人员研发的一种具有可变刚度的软性装置(sponge-jamming device),以海绵为直接接触材料,模仿了人类皮肤软组织的构造,使机器人的抓握动作更加轻缓。
图十四:PapilArray传感器的技术要点解释(资料来源:Contactile官网、本翼资本整理)
柔性电子皮肤的技术目标实现:柔性电子皮肤指附着于机器人表面的柔性纳米功能材料,敏感材料、结构设计、多模态感知是电子皮肤技术进步的方向。目前柔性电子皮肤的具体技术路径尚不明晰,原创程度和创新性强,主要由初创公司占据市场。总体来说,其技术目标实现的三阶段是:附着在设备表面充当外衣-发展出灵敏的传感系统-进一步实现自我修复功能。根据GII预测,到2030年全球电子皮肤市场价值将达到268亿美元,在2023-2030年预测期间的复合年增长率为19.73%。电子皮肤目前的可实现场景主要集中在以医疗保健监测为主题的可穿戴技术设备。
图十八:一种能够提高灵敏度、增大量程的自填充微结构电子皮肤设计(资料来源:《从数字新基建到机器人电子皮肤》(郭士杰,2023)、本翼资本整理)
ChatGPT向RobotGPT过渡的设想路径:ChatGPT为实现机器智能提供了可行方案,用于机器人GPT的框架(或称RobotGPT)的一种可能设计如下:其中,奖励机制模型、人工判断下的反馈和增强型学习技术分布在流程的各个模块,能够实现基础程序下机器人的自主学习。Optimus机器智能的亮点在于采用FSD computer作为计算核心,包含SoC、存储、Wifi等模块,并通过FSD的规划算法控制机器人移动、操作。目前HW3.0芯片单颗算力约72TOPS,最新HW4.0将进一步提升,尽管较人脑在理论算力上存在差距,但在DOJO训练中心的加持下,其综合计算能力远超人脑。
人形机器人将获得全面发展的大脑(机器智能):预计未来人形机器人将不仅能够依靠自然语言处理能力、机器学习、监督学习及ChatGPT不断迭代的技术能力实现最直接路径的高程度语言智。