发布于: Android转发:1回复:12喜欢:5
$科大讯飞(SZ002230)$ (转自一哥微博)#科大讯飞董事长回应买蔚来原因#
有小伙伴问科大讯飞还有无人驾驶技术?
简单回答一下:
1.科大讯飞基于国产芯片的智驾域控制器,实现了高速NOA、记忆泊车、超级巡航、自动泊车等L2.999(不吹牛,不像一些人吹L3其实没有)全功能。依托讯飞先进的AI技术,完成业内最新的基于BEV框架的感知算法开发,模型效果处于行业领先水平。
2.目前已正式发布两款智能驾驶产品和智驾数据服务,能够为客户提供全方位、多选择的完整智驾解决方案并将于2024年实现量产出货;
3.在去年1024发布会上,演示了从合肥市金寨路高架路口出发,上下匝道、超车避让、遇到别车时应急处理,智能驾驶功能在若干突发状况下,一气呵成,完美跑完了试验路段的演示,获得与会车厂的热烈好评。
4.科大讯飞智驾起步晚,但是发展特别快,近3年已经获得了17个评测冠军,目前,科大讯飞基于BEV+Transformer网络,已经实现了多模态、多任务、长时序的4D精准感知,构建了云端+车端的感知形式。
5.星火大模型加高阶自动驾驶,不但让自动驾驶变得更智能、更比普通智能驾驶更个性化,能够处理更多复杂的突发情况。比如:你对汽车说,我想停车后取出后备箱里面的行李。这时,搭载讯飞智驾技术的汽车会正确理解你的意图,不但会自己泊车,而且还会挑选靠前的位置,方便车主取出行李。
6.智能座舱智能音效方面更是业界顶尖水平。就不赘述了。
7.2023年新增前装智能化产品出货750万套,在线交互突破100亿次,同比增长229%,月均活跃用户超2500万。

全部讨论

05-09 20:26

这句话是什么意思呀?没看懂。

05-10 09:55

有没有已经不重要,看看股价就知道,,,貌似兄弟也没有脾气了。。也不补仓了

05-09 22:29

讯飞智驾,后来居上,后发先至。

05-10 09:29

讯飞智驾

05-11 13:23

算法:“BEV+Transformer”引领自动驾驶感知范式
中研网
2023-12-05 11:50
广东
  大模型是当前AI领域最为火热的前沿趋势之一,可赋能自动驾驶领域的感知、标注、仿真训练等多个核心环节。在感知层,以特斯拉为首,"BEV+Transformer"范式已开始在自动驾驶领域得到广泛使用,可有效提升感知精确度,利于后续规划控制算法的实施,促进端到端自动驾驶框架的发展。
  BEV全称Bird'sEyeView,即鸟瞰图,该算法旨在将多传感器收集的图像信息投射至统一3D空间,再输入至单一大模型进行整体推理。相较于传统的摄像头图像,BEV提供了一个更贴近实际物理世界的统一空间,为后续的多传感器融合以及规划控制模块开发提供了更大的便利和更多的可能。具体来说,BEV感知的优势在于:1)统一了多模态数据处理维度,将多个摄像头或雷达数据转换至3D视角,再做目标检测与分割等任务,从而降低感知误差,并为下游预测和规划控制模块提供更丰富的输出;2)实现时序信息融合,BEV下的3D视角相较于2D信息可有效减少尺度和遮挡问题,甚至可通过先验知识"脑补"被遮挡的物体,有效提高自动驾驶安全性;3)感知和预测可在统一3D空间中实施,通过神经网络直接完成端到端优化,可有效降低传统感知任务中感知与预测串行的误差累积。
  Transformer的注意力(Attention)机制可帮助实现2D图像数据至3DBEV空间的转化。Transformer是GoogleBrian团队在2017年提出的神经网络模型,起初用于机器翻译,随着技术的发展开始进军图像视觉领域,目前已成功涉足分类、检测和分割三大图像问题。据汽车之心微信公众号介绍,传统CNN模型的原理是通过卷积层构造广义过滤器,从而对图像中的元素进行不断地筛选压缩,因此其感受域一定程度上取决于过滤器的大小和卷积层的数量。随着训练数据量的增长,CNN模型的收益会呈现过饱和趋势。而Transformer的网络结构在嫁接2D图像和3D空间时借鉴了人脑的注意力(Attention)机制,在处理大量信息时能够只选择处理关键信息,以提升神经网络的效率,因此Transformer的饱和区间很大,更适宜于大规模数据训练的需求。在自动驾驶领域,Transformer相比于传统CNN,具备更强的序列建模能力和全局信息感知能力,目前已广泛用于视觉2D图像数据至3D空间的转化。
  除感知层外,大模型还有望显著提升后端训练中数据清洗标注的效率,并助力生成新场景以赋能仿真训练。训练模型在收集到传感器传送回的图像数据后,需先对数据进行清洗,再对其中的车辆、行人、道路标识、车道线等元素进行标注。相较于此前的人工标注,大模型可以大幅提升工作效率。理想汽车创始人李想在中国电动汽车百人会论坛(2023)的演讲中表示,此前理想一年要做大概1000万帧自动驾驶图像的人工标定,年成本接近1亿元,但使用软件2.0大模型进行自动化标定后,效率是人的1000倍。毫末智行也2023年4月第八届AIDAY上表示,其最新推出的DriveGPT可将交通场景图像的标注费用从行业平均约5元/张降至约0.5元/张。Meta最新的图像分割模型SAM(SegmentAnythingModel)在对图像和视频中的物体进行识别分割时展现出了强大的能力,且具有零样本性能,即能够对从未训练过的图片进行精准分割,未来也有望赋能自动驾驶训练所需的图像数据积累。
  在"BEV+Transformer"趋势下,算法复杂度、数据规模以及模型参数均呈指数级提升,推动自动驾驶芯片向着大算力、新架构以及存算一体等方向演进。
  1、大算力:
  向数百TOPS算力演进。传统L1/L2辅助驾驶所需处理的数据量小且算法模型相对简单,因此以Mobileye为代表的单目视觉+芯片算法强耦合的一体机方案即可满足需求。但领航功能作为高阶辅助驾驶的代表,需要"更强算力+软硬件解耦的芯片+域控制器"来满足海量数据处理与后续持续OTA迭代的需求。高速领航开始向20万以下车型渗透,15-30TOPS可满足基本需求,但若想要"好用"或需要30-80TOPS。城区领航的场景复杂程度和技术实现难度更高,目前普遍需要搭载激光雷达,芯片以英伟达Orin、华为MDC和地平线J5为主,算力配置普遍超200TOPS。而在应用"BEV+Transformer"技术后,多传感器前融合以及2D至3D空间的转化需要AI芯片具备更强的推理能力,因此也需要比以往更大的算力支撑,包括更高的AI算力、CPU算力和GPU算力。
  2、新架构:
  加强并行计算能力和浮点运算能力。相较于CNN/RNN,Transformer具有更强的并行计算能力,可加入时间序列矢量,其数据流特征有显著差别,浮点矢量矩阵乘法累加运算更适合采用BF16精度。Transformer允许数据以并行的形式进行计算,且保留了数据的全局视角,而CNN/RNN的数据流只能以串行方式计算,不具备数据的全局记忆能力。传统AI推理专用芯片大多针对CNN/RNN,并行计算表现不佳,且普遍针对INT8精度,几乎不考虑浮点运算。因此想要更好适配Transformer算法,就需要将AI推理芯片从硬件层面进行完整的架构革新,加入专门针对Transformer的加速器,或使用更强的CPU算力来对数据整形,这对芯片架构、ASIC研发能力,以及成本控制都提出了更高的要求。以特斯拉、地平线为代表的厂商均"重ASIC(即AI推理专用芯片),轻GPU"。特斯拉引领BEV+Transformer路线,以专用NPU(神经网络处理器)承担AI运算,在NPU设计之初便进行了针对性优化。而地平线等后来者或需要在下一代芯片中对AI推理芯片架构进行针对性优化。
  3、存算一体:
SoC芯片需配置高带宽存储器(HBM)或SRAM,并加速向存算一体靠拢,解决大算力下的数据吞吐量瓶颈。模型越大,内存对AI加速器就越重要,以频繁地读取权重矩阵或训练好的模型参数。据佐思汽研介绍,Transformer中的权重模型超过1GB,对比传统CNN的权重模型通常不超过20MB。模型参数越大,就需要更高的带宽,一次性读出更多参数。存算一体可分为近存计算(PNM)、存内处理(PIM)以及存内计算(CIM),存内计算则接近存算一体,当前PNM已广泛用于高性能芯片,即采用HBM堆叠,2.5D封装,从而与CPU集成,而PIM和CIM仍处在发展中。以特斯拉FSDSoC为例,其采用总带宽为68GB/s的8颗LPDDR4内存,而集成在NPU中的SRAM可达到32MBL3缓存,带宽达2TB/s,远超市面上同类芯片。而据汽车之心微信公众号,特斯拉在最新HW4.0上的二代FSDSoC上使用了16颗GDDR6,在内存用料上继续引领行业。

05-09 21:56

城市NOA呢?没这个也敢叫l2.9?这是多瞧不起ADS呢?

智驾的焦点是激光雷达模式或视觉模式,看不出讯飞是啥模式。几个口令和自动泊车然后高速路跑跑就是智驾了?那些完全意想不到的 corner case 如何处理?

人家专业能力确实厉害

05-09 21:10

可靠吗?有官方消息吗