xqscan 的讨论

发布于: 雪球回复:0喜欢:16
npu 和 gpu 还在竞争阶段,理论上 npu 似乎更专用更合适,但 gpu 也在集成更多 npu 的能力,这代表的是两个派别

可以把深度学习中的计算简单分为两类,矩阵乘和其他,矩阵乘单独拎出来是因为大部分问题的主要资源都在这个算子上。npu 一派的思路是,我围绕矩阵乘去设计一个专用处理器,解决了这个核心问题,再用一些周边硬件去处理其他算子;而 intel/nvidia 的思路是,我在现有芯片里面添加一个独立的功能单元或者协处理器,高效做矩阵乘,其他算子复用一般的 cpu/gpu 处理单元

历史上早有过通用/专用芯片之争,结果大家都知道,由于通用芯片有最大的市场和研发资源,在摩尔定律加持下,各种宣称对cpu有显著优势的芯片都成了昨日黄花消失在大众眼中;一个例外是图形处理芯片 gpu,但 gpu 也在 16 年前随着 g80 和 cuda 的引入演变成了通用处理器,至此 cpu/gpu 分别被定位为 串行/并行 处理设备,大批量的并行任务交给 gpu 其他给 cpu

npu 一派说这次不一样,因为摩尔定律已经结束了,深度学习举足轻重值得一个专门的处理器;但真的不一样吗,intel/nvidia 占有统治级别的市场、资金和软硬件研发资源这一点和以前没什么不同,而深度学习拿掉矩阵乘后的其他并行算子,和 cuda 大规模并行处理的定位是完全重合的,换句话说,gpu 砍掉图形处理模块再加上矩阵乘单元,就是 npu,两者重合度如此之高,所谓大厂 npu 自研团队,真的能跟上 nvidia 两年翻一倍的节奏吗

我个人倾向于相信 npu 最后会和视频编解码模块一样,下沉成为 gpu 内的专用单元,复用 gpu 通用计算部件架构演进的红利;中国市场由于芯片管制,或许会以 npu 为契机,演化出类似 gpu 的大规模并行计算的通用设备

上面说的是主要玩家和未来,说回当下,由于自研 npu 团队的软硬件研发资源特别是经验有限,往往只能覆盖部分重量级业务,这部分重量级业务也会每两年一次迎来 nvidia 的新挑战,大部分硬件厂商就是因为同样的理由在和 intel/nvidia 的竞争中落败消失于历史长河中。现状就是,自研 npu 只适用于部分场景,且这部分场景也未必站得住