WAIC人形机器人进展汇总

发布于: 修改于:雪球转发:0回复:0喜欢:1

一、关键信息:

1、研究人形机器人的框架:

1)类比人类,人形机器人可以分为大脑、小脑、本体和数据四个要素,大脑的功能在于抽象的感知决策,小脑在于运动控制,本体就是机器人硬件,数据是指各种多模态数据,这四个要素之间互相影响。

2)从时间上来讲,又可以把机器人的发展分为感知、认知和交互。

2、在以上框架下,各个部分的发展方向是怎样的?

各个部分的突破离不开:1)改变算力和计算量的相对关系,2)数据量本身,以及3)数据量和最终效果之间的映射关系。

在大脑方面,其中一个发展方向是建立3D世界模型。原先AI绝大多数处理的是图片,这在机器人方面是不够用的。机器人需要建立3D世界模型,而且不仅需要体现3D模型带来的空间,还要在时间上记录当中物品人物的运动轨迹。如此,现在的数据量和种类显然不够用,这次参会的很多公司主要贡献都是在增加数据种类方面。例如:除了用传统图像,还用激光雷达记录深度,陀螺仪记录位姿等数据,利用3D生成技术建立世界模型。同时在算法方面,增加体现物理规律的算法,从而减少数据量,来协助构建世界模型。世界模型的发展不会一开始就瞄准整个世界,而是更可能会从场景开始,不断增加整合各种场景,直至真正建立一个3D世界。

另外,构建机器人的自监督学习模型,让其不仅仅通过大量数据通过刷题学习某一个任务,而是提高学习能力,自己学会没有刷过题的任务。例如,机器狗腿断了一条以后,可以自己调整用3条腿继续工作。

在小脑方面,贡献也出现在数据种类上,穹彻采用了力、位混合数据集,并且匹配合适的算法,减少了计算量,在当前算力下,可以做出更灵活复杂的动作,例如抓取控制柔性物品。

在数据方面,整个互联网积累的数据都是文本图像类的,而人形机器人需要用到的空间、力数据非常匮乏。具体来说,人形机器人的数据量要达到GPT3.5的程度,还差2-3个数量级。所以除了真人遥操来获得这些数据,必须考虑合成数据(银河通用)。

在本体方面,方向始终是降本,近期来看,机械臂是标准化,成本可控,而机械腿非标很贵,而且有很多技术难点需要突破,可以先把腿改成轮,加快落地速度(银河通用)。远期来看,随着任务的复杂程度和对机器人要求的提高,当前以电机为主导的机械结构很有可能要让位于仿生肌肉。(交大高峰教授)

3、人形机器人会最先落地在哪里呢?当前各家公司的落地情况如何?

安保巡逻,仓储物流,工业制造端,以及环境恶劣的场景。养老是比较有难度的场景,但具有高爆发量

开普勒,落地应用的先锋,最像特斯拉擎天柱的机器人。开普勒现在的成本在3万美金,如果能做到5000台,可以降到1万美金。今年10月份小批量量产,明年应该可以做到1000台,预计未来3-5年可以量产。

银河通用,现在成本在10万人民币,如果改成轮式,可以降到5万人民币,今年四季度会在美团的店面开始使用,替代一些营业员的夜间工作,预计未来3年可以找到落地的场景。

宇树,人形机器人并未找到合适的场景,现在主要一些科研机构的订单。

4、为什么机器人必须得是人形的?

宏观上考虑,是因为人形可以有最多的使用场景,最可能进行规模化来降本。

从微观上讲,借用一个外国老板的观点,蓝领工人是其痛点,但是需求总是在变化,战略也需要变化,用人形机器人是最灵活的,最开始的替换肯定是逐步进行的,也就是用人形逐步替代人,当需要换战略的时候,用人替代人形也方便。

5、还有哪些其他方向值得我们去探索

机器人开发云平台:达闼科技,想做机器人里的安卓。

机器人模型平台:穷彻大脑,帮助机器人公司训练和创建模型。

机器人操作系统:机器人硬件的控制操作系统。

先进机床:对于开普勒的搬运机器人来说,在机器人能够跑完任务的全流程后,客户最期待的是提高效率,也就是速度和稳定性。前者主要需要电机更加敏捷,而后者需要减轻重量,尤其是滚柱丝杠的重量,尤其是减小尺寸,而两者都需要更精密的机床来进行加工。

机器人外骨骼:奥鲨科技,人+机器人外骨骼辅助的方式让落地难度更低。

6、特斯拉的进展

新剑传动是特斯拉反向式行星滚珠丝杠的供应商,而当前市面上采用该零部件的公司只有开普勒和特斯拉,开普勒认为新剑太贵,选择完全自研自产,所以新剑的动作可以代表特斯拉的动作。

当前新剑有400万套的产能,有1000万套的厂房,假设提前规划3年产能,那么公司预期产能三年后会达到1000。

另外,也可以做更细致的跟踪。公司以销定产,根据特斯拉要求来购入生产设备,一般情况下特斯拉会提前半年告知,所以如果新剑开始有设备方面的资本开支,就说明半年后特斯拉擎天柱的产量要上台阶。

二、各家公司的业务、进展和特点

1、穹彻智能

大模型的发展现在还在沿用scaling law,也就是说通过填更多数据进去,得到更好的结果。但视觉到运动控制,比无人车来说,有10000倍的不确定性。这就需要退一步思考,如何用其他的方式实现对机器人需要的数据的处理。利用第一性原理,穹彻智能利用多模态数据-力和位,以及前人的先验知识-物理常识,实现了力位混合控制。因为有力的存在,而不是单纯的关注位置,不再需要毫秒级的控制,降低了计算量,在现有算力条件下,就可以实现更复杂的操作,比如操作柔性物体,例如叠衣服。

他们的产品所在领域是机器人的小脑和大脑,包括工具链+机器人感知决策大模型和行为大模型+组件(控制、记忆和执行)+以及各种泛化技能(抓、开、叠柔性、刮等)。是一个大模型和具身智能任务训练集成平台。

特点:通过多模态数据+先验物理知识,来降低计算量,在现有算力条件下实现更复杂操作。也就是改变算力和所需计算量之间的相对关系。

2、北大银河通用具身智能实验室

王鹤教授把人形机器人拆分为四大方面:大脑、小脑、数据和本体。

他们的产品是机器人本体。现在机械臂是标准化的,从而成本可控,但腿不是,有腿的机器人太贵了。但其实,腿最重要的功能是辅助手,所以银河通用将腿暂时先改成轮,能升降,可以满足捡东西的功能,也能让价格便宜很多。一台机器人,国外价格要上百万,而中国在60-160万,而他们的机器人只要10万,并且如果采用轮子,可以把价格降到5万,未来三年有了落地场景的可能。他们认为看到腿的价格下降,拥有腿的功能,同时做到手腿配合,可能要在5年以上。

对于大脑,银河通用认为最终机器人大脑模型应该是端到端的。谷歌的RT模型是端到端的,也是机器人大脑的雏形,但是后来谷歌又放弃了端到端,走上了分层路线,说明这一条路还有很长的一段路要走。

银河通用最大的优势是合成数据。特斯拉用真人遥控操作来收集,40人采集团队,收集的数据少,而且价格昂贵。公司用了3D合成仿真数据。轻松把数据量级提高到10亿,也观察到了具身智能的scalling law,随着数据量从10万增加到10亿,准确率从58%提高到了90%以上。而且原来做不到的五指灵巧手,也能做到了,工业噩梦的透明的或者金属有高光的物体,他们也能抓取了。

银河通用的机器人将会在24第四季度在美团的店面开始使用,替代一些营业员的夜间工作。也检测室,明天看到。

特点:合成数据技术+轮式机器人降本。通过合成数据增加数据量,以达到更好的效果。

3、宇树科技

可以商业化应用的产品是机器狗,而机器狗的深度学习模型可以迁移到人形机器人,所以他们以此逐步切入人形。虽然创始人直播会议上说到量产和全球订单,但是小范围会议上承认最多的还是学术研究类型的订单,可能到现在还没有找到商业应用场景。

所以宇树现在频繁出现在公众面前可能更多是为了占领大家心智,让自己在人形机器人的赛道上的卡位更牢靠,这也就解释了为什么他们的视频和别家很不一样,踢打扔摔自家机器人,用奇怪的方式起身,开瓶时故意把瓶颈砸碎。在展现了优越运动能力的同时,加深了记忆点。所以,对于宇树,实际能力可能比不上当前热度。

特点:机器狗已经在落地应用。

4、开普勒

开普勒是最接近特斯拉的人形机器人,市面上只有两者采用反向式行星滚珠丝杠的结构,好处在于能够做到高负载,开普勒现在可以实现单手25kg的负载。和特斯拉最大的不同是更加开放,根据客户需求,和客户协助做开发,本地部署。

现在客户最需要的是把整个流程跑完,接下来的优先级是提高效率,也就是速度和稳定性。一方面是把电机做的更敏捷,另一方面是把滚柱丝杠做的更小更轻。而想把电机做的更敏捷,需要改变机械结构,或者使用更丝滑的齿轮轴承等零部件。当前机械机构的改变困难,后者是更可能有突破的部分。而要有更丝滑的齿轮轴承等零部件,需要更好的机床。

今年10月份小批量量产,明年应该可以做到1000台,未来3-5年实现量产。当前价格在3万美金,如果能做到5000台,可以降到1万美金。使用场景是安保巡逻,仓储物流,工业制造端。

特点:和特斯拉最接近,需求端最明确,可能会是最早量产落地的机器人公司。

5、交互中的感知、认知和行为-虞晶怡

机器人的发展可以分为感知、认知和交互。

对于机器人来说,感知不是扫描的越清晰越好,而是像人一样建立对于环境的粗略感知。这需要我们做以人为中心的日常生活数据集,利用激光雷达得到连续的稀疏点云,需要是连续的,这样才能在3维空间里记录人的轨迹,这样的数据是非常有用的。对于交互来说,要让机器人了解人的行动,只有视觉数据也是不足够的,未来还会有很多新的感知,例如加上激光雷达点云、陀螺仪(装作衣服上)数据。所以要建立多模态(RGB, 激光雷达点云,陀螺仪)数据集,和相关的数据处理方式。

特点:增加数据种类,用更丰富的数据种类,相同的计算量,来达到更好的效果。

6、国讯芯微

机器人的操作系统,可以类比PC操作系统,区别在于机器人操作系统对实时响应、多节点通信、多种硬件兼容的要求更高,主要是因为机器人相比PC,对精度要求更高,需要写作的硬件更多,以及同一种硬件规格多种多样。所以对于操作系统公司,是希望尽快能做到机器人行业能够标准化。

7、达闼科技

机器人云端开发平台,我理解也需要有自己的操作系统,然后在这套操作系统上提供各种工具和库给开发者让其设计出各种适用于机器人的app,类似于安卓操作系统+开发平台。

特点:在云端。创始人非常超前,意识到未来机器人领域的计算量会非常大,把计算放在云端是未来的一大趋势。而做这样的整合想必需要很强号召力,而创始人有一定的zf关系。

8、新剑传动

新剑传动是特斯拉反向式行星滚珠丝杠的供应商,而当前市面上采用该零部件的公司只有开普勒和特斯拉,开普勒认为新剑太贵,而完全自研自产,所以新剑的动作可以代表特斯拉的动作。当前新剑有400万套的产能,有1000万套的厂房,假设提前规划3年产能,那么公司预期产能三年后会达到1000。

另外,也可以做更细致的跟踪。公司以销定产,根据特斯拉要求来购入生产设备,一般情况下特斯拉会提前半年告知,所以如果新剑开始有设备方面的资本开支,就说明半年后特斯拉擎天柱的产量要上台阶。