我国也从战略规划、项目专项和产业配套等方面鼓励人形机器人行业的发展,通过政策和资金扶持产业链各环节的技术研发和生产应用。
巨大的市场需求叠加国家政策支持,人形机器人产业具备持续增长的确定性需求。
三、核心技术及主流路线
相比仅能完成单一场景下简单功能的传统机器人,人形机器人具有高度自主意识,可完成通用交互性任务,逐渐走向高度智能化。
人形机器人的发展依赖于AI模型与大数据、高端制造、新材料等多种前沿技术和交叉学科,主要涉及三大核心技术:运动控制、感知能力、人机交互。
1)运动控制
目前,人形机器人的运动控制主要靠两种驱动方案来实现,一是电液混合驱动,二是电驱动。电液驱动在惯量比、响应速度、力密度等方面具备显著优势,但由于噪音大、易漏液、对污染敏感、对液压元件的精度要求高、维修难度大,导致制造成本高,商业化难度大。电驱动主要靠伺服电机系统,通过电机性能迭代、精密减速器优化等途径,有望在各项指标上追赶液驱,此外,电驱动在成本、维护、体积重量等方面均优于液驱。
目前除波士顿动力Atlas采用电液混合驱动方案外,其他厂商基本均采用“电机+减速器”的电驱动方式。
2)感知能力
人形机器人的感知能力包括视觉、听觉、触觉等多方面的感知,其中最核心的是视觉功能。一般通过先进的机器视觉系统(以3D视觉为主),并结合AI算法和多模态感知能力,以实现全面的视觉功能。特斯拉Optimus机器人采取纯视觉方案,其3D传感模块以多目视觉为主,共8个摄像头。其余大多数人形机器人厂商采用ToF(飞行时间)深度相机/立体视觉+激光/超声波雷达的方案。相比纯视觉方案,激光雷达方案的成本更高,同时对软件算法的要求相对偏低。
3)人机交互
人形机器人的交互功能最主要的发展方向是语音识别,其核心是以口头语言(语音)和书面语言(文字)为研究对象,对其进行识别、理解及生成,从而使机器具备能听会说、能理解会思考的能力。
此外,自然语言处理能力的提升,尤其是AI大模型的出现,使得人形机器人与人之间的交互变得前所未有地多样化和紧密。2023年4月,AI公司Levatas与波士顿动力合作,将ChatGPT和谷歌的语音合成技术接入Spot机器狗,成功实现与人类的交互。
四、面临的技术瓶颈及挑战
人形机器人的研究,最早可追溯到1950年由图灵提出的“具身智能”。数十年来,“具身智能”作为人形机器人的理论基础,引领着人工智能技术和相关产业的发展,相关研究也渐趋成熟、不断深化。
当前,国内外已发布和在研发的人形机器人,包括特斯拉Optimus,距离真正意义上的“具身智能”还相当遥远。
探究实现“具身智能”的主要路径和方法,将是未来产业界的重要议题。
目前的主流观点是将AI大模型接入人形机器人,并深度赋能实现真正的“涌现”。2023年,随着ChatGPT、文心一言、讯飞星火、盘古等大模型的问世,人们看到了实现通用人工智能的曙光,纷纷探究AI大模型+人形机器人的可能性。
2023年7月,斯坦福大学的 AI 科学家李飞飞带领的研究团队公布了一项具身智能领域的新成果,利用大型语言模型(LLMs)和视觉语言模型(VLMs)来驱动机器人。大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练。比如桌上有一个小抽屉,她向机器人下达指令:“打开上面的抽屉,同时小心不要碰到花瓶”。大语言模型(LLMs)+视觉语言模型(VLMs)就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划。
此种在机器人未经“培训”的情况下,通过大模型的涌现能力和思维链能力,零样本学习执行相应任务的能力,正是“具身智能”的一项重要功能。而要实现高度自主决策的具身智能,我们在算法、工程技术、数据、场景和复杂软硬件等方面仍面临的诸多挑战。
此外,随着人形机器人越来越普及,涉及到的道德伦理和隐私安全问题也引起了广泛的关注和研究。例如,人形机器人是否应该拥有与人类相似的权利和义务,人形机器人如何保护用户的隐私和数据安全,如何避免人形机器人对人类和环境造成损害等。相关法律法规的制定与完善,也将是我们需要突破的难点。
结语
随着深度学习、强化学习等人工智能技术的不断发展,人形机器人的学习能力将得到进一步提升,其感知能力、运动控制能力、人机交互能力也将更加精确和高效。未来的人形机器人将更加注重智能化和自主性,更好地胜任各种复杂任务,为人类带来更加便便捷的生活体验。