科大讯飞旗下品牌发布AI耳机,押注可穿戴设备及其数据获取

发布于: 雪球转发:0回复:0喜欢:0

图片来源:企业供图

从手机、PC、电视再到耳机,越来越多的硬件产品也乘着人工智能的风迭代了原有的产品。

5月15日,科大讯飞旗下品牌未来智能发布了包括首销价1399元起的讯飞会议耳机 Pro2、iFLYBUDS 2两款新一代讯飞会议耳机及Kit2等产品,同时推出升级的viaim AI会议助理。

公开资料显示,未来智能是科大讯飞孵化的专注智能办公领域的AI硬件公司,成立于2022年1月,董事长为科大讯飞联合创始人胡郁。2023年9月完成数千万元Pre-A轮融资,由天际资本领投。

从官方介绍的功能来看,上述产品的使用场景为会议记录、会议摘要等。viaim AI升级迭代的“有问必答”功能,用户可以快速回顾会议中的重要信息,只需语言/文字输入问题,viaim AI就能第一时间给出回答。

据未来智能CEO马啸介绍,未来智能垂直领域的服务,底层应用了科大讯飞星火大模型技术。马啸的观点是,垂直领域才是有用的AI助理诞生的地方,硬件则是智能助理的加速器。

马啸解释,软件是晚于硬件感知世界的,例如想要用一个软件将录音转成文字,需要先进行录入再转化生成,这就消耗了一些时间;另外,未来穿戴式产品的场景,它使用的时长可能未来会超过手机。

总结起来就是,硬件先于软件获取数据,另外数据具有马太效应,因此马啸得出了上述观点。

在发布会后,未来智能CEO 马啸、未来智能CPO 柳达、未来智能CTO 王松与包括蓝鲸新闻在内的媒体从产品、技术等维度对AI硬件展开了讨论,以下为采访实录,在保证原意的情况下有删减调整:

Q:把AI大模型和耳机产品结合,如何考虑成本与定价问题?

马啸:关于成本,其实有两方面。第一个方面是算力,虽然我们基于这个基座大模型进行训练,但也需要大量算力成本;第二个方面,我们训练完这些模型之后,用户长期在成本运行过程中,用户用的次数越多,调用模型的量就会越大,成本也会上浮,这是一个正向的关系,用得越多,产品的黏性也会越大,同时也会产生更多的数据,然后又会把模型的能力进一步提升,这是一个正向循环。

Q:硬件供应链方面怎么做?

马啸:我们最早出来的时候都是做软件产品出身的,做一些智能助理产品,而硬件实际上从2018年才陆陆续续开始,真正开始全力地投入是从2020年之后,对硬件行业有了一定的认知了解,我们发现以前做软件与做硬件的思维模式差距还是非常大的。做软件讲究长板,你有一个功能特别好,你后面其他功能就可以快速迭代;但硬件不是,硬件从设计之初,如果没考虑到整个硬件里面的某一个环节,用户会因为这一点而放弃整个产品,而且产品的投入很贵。

所以,对于供应链这件事情,我们也是逐步推进的。我们其实是人工智能和硬件的结合,在现实供应链里很难找到,所以我们花了大量的精力去研发人工智能跟硬件结合的那些核心技术。虽然不是把人工智能的算法直接放到耳机里,但是要把耳机改造成能够跟人工智能互通的方式,我们主要团队其实是干这个事。未来我们将会跟业界最好的ODM供应链合作伙伴一起来做。

Q:垂直模型怎么做?

王松:从大模型的第一性原理来看,一个大模型需要三样东西,一个是算力,一个是算法,一个数据。算力可以理解CPU,算法现在基本上也都是公开的,OpenAI可能领先几年,但是国内追赶的速度已经很快。

我们的数据来源有三个方面:第一部分是从每天公司内部的所有数据;第二就是网上公开的数据;第三就是通过AI Agent的概念,设置不同的角色如公司的CEO、技术总监、工程师等,然后用AI开会来生成AI数据,然后再回到模型去训练。

Q:AI和耳机相结合的产品形态,未来发展的难点是什么?

王松:首先的挑战就是耳机它必须做很小,不能做得大,因为体积的限制,所以限定了它的芯片,就是传感器CPU以及内存,包括它的电池,都不可能做得太大。

例如手机在一开始发展的算力也很低,但是手机发展到现在它的算力已经今非昔比,不管是手机的CPU还是内存。所以耳机未来同样拥有一个趋势,但是当下至少在未来3-5年内耳机不太可能直接运行所谓的大模型,但有可能在5—10年的范围内,随着技术的迭代和进步,包括电池技术的突破,它的体积可能做到越来越小,未来可能得到提升,但是当下提升不太可能。

Q:现在生成式AI设备很多,比如AI手机、AIPC,怎么看AI耳机在其中扮演的角色?

柳达:现在主流的计算平台是手机,其次是PC,之前短暂有个阶段还有智能音箱。

我们从人的角度来考虑问题。比如说我们看产品都是从一个物件角度来看问题,所以智能化就要服务于人,人去感受世界是通过五感六觉,还有我们其他的感受。

但PC因为很大,需要更多的空间,所以这样它在数据的记录上就会受到一些限制;手机需要解锁、需要握在手中并且有一个交互的状态才能使用,也无法变成一个接近人体器官工具。

耳机,你只要戴在耳朵上它就变成了你的嘴、耳朵,当你穿梭在各个场景的时候,它提供了极高的便捷性。