讨论详情 - 雪球

作者：quantek

发布于:2023-02-05 12:08

雪球

回复：74

喜欢：12

2021年Tesla AI day上展示基于Transformer的新技术时，就能看出Transformer的潜力了。

热门回复

张小丰

2023-02-05 12:10

查看讨论

感觉美国对国内的AI训练GPU的禁售在长期会带来非常大的影响。AI训练的进步速度比摩尔定律快得多，每1~2年的新品GPU训练能力都是翻几倍的。。。

xqscan

2023-02-06 17:14

查看讨论

npu 和 gpu 还在竞争阶段，理论上 npu 似乎更专用更合适，但 gpu 也在集成更多 npu 的能力，这代表的是两个派别

可以把深度学习中的计算简单分为两类，矩阵乘和其他，矩阵乘单独拎出来是因为大部分问题的主要资源都在这个算子上。npu 一派的思路是，我围绕矩阵乘去设计一个专用处理器，解决了这个核心问题，再用一些周边硬件去处理其他算子；而 intel/nvidia 的思路是，我在现有芯片里面添加一个独立的功能单元或者协处理器，高效做矩阵乘，其他算子复用一般的 cpu/gpu 处理单元

历史上早有过通用/专用芯片之争，结果大家都知道，由于通用芯片有最大的市场和研发资源，在摩尔定律加持下，各种宣称对cpu有显著优势的芯片都成了昨日黄花消失在大众眼中；一个例外是图形处理芯片 gpu，但 gpu 也在 16 年前随着 g80 和 cuda 的引入演变成了通用处理器，至此 cpu/gpu 分别被定位为串行/并行处理设备，大批量的并行任务交给 gpu 其他给 cpu

npu 一派说这次不一样，因为摩尔定律已经结束了，深度学习举足轻重值得一个专门的处理器；但真的不一样吗，intel/nvidia 占有统治级别的市场、资金和软硬件研发资源这一点和以前没什么不同，而深度学习拿掉矩阵乘后的其他并行算子，和 cuda 大规模并行处理的定位是完全重合的，换句话说，gpu 砍掉图形处理模块再加上矩阵乘单元，就是 npu，两者重合度如此之高，所谓大厂 npu 自研团队，真的能跟上 nvidia 两年翻一倍的节奏吗

我个人倾向于相信 npu 最后会和视频编解码模块一样，下沉成为 gpu 内的专用单元，复用 gpu 通用计算部件架构演进的红利；中国市场由于芯片管制，或许会以 npu 为契机，演化出类似 gpu 的大规模并行计算的通用设备

上面说的是主要玩家和未来，说回当下，由于自研 npu 团队的软硬件研发资源特别是经验有限，往往只能覆盖部分重量级业务，这部分重量级业务也会每两年一次迎来 nvidia 的新挑战，大部分硬件厂商就是因为同样的理由在和 intel/nvidia 的竞争中落败消失于历史长河中。现状就是，自研 npu 只适用于部分场景，且这部分场景也未必站得住

2023-02-05 14:26

不怕，我们口high从没输过。

2023-02-05 14:48

建议你学习一下四个自信[狗头]

2023-02-07 20:17

GPGPU 的前身可以追溯到向量机，即以向量为最小数据单元做通用计算，相比之下 CPU 是在标量上做计算；GPU 适合对大量数据做相同的简单操作(所谓面向吞吐)，CPU 适合对少量数据做复杂操作(所谓面向延迟)

出于图像/视频处理的需要，CPU 也引入了向量指令集叫 SIMD，而 GPGPU 相比 SIMD 除了向量规模更大之外，还有一大特点是"以标量编码以向量执行"，这叫做 SIMT，由 GPU 着色器泛化而来由 CUDA 首次引入；因为标量编码是最常见的编程模型，所以很多现成的 C/C++ 代码可以直接在 CUDA 中使用同时得到了数据级并行的能力，这是 CUDA/OpenCL 能大行其道的原因，门槛和工作量远远比 SIMD 低

既然 CPU/GPGPU 已经通用到可以直接运行 C/C++ 这些图灵完备的语言，也就不难理解任何基于 C 语言实现的算法包括深度学习都能够运行于 CPU/GPU 之上，此为深度学习算法的软实现(可编程)；相比之下，NPU 可以视作 GPGPU 的一种深度学习算法定制优化设备(Tensor 本来就是高维向量，由向量机来实现也很自然)，即根据深度学习计算的特点，定制一些硬件部件，比如直接提供乘累加/矩阵乘/向量内积/向量外积甚至卷积单元(算得快)，比如提供16位浮点8比特定点甚至1比特精度的数据类型(不像超算上的一些算法要求64位浮点精度)，比如提供上百 MB 的 SRAM 直接将模型置于其中避免绝大部分存储器访问(又快功耗又低)；换句话说，NPU 可以无所不用其极的去挖掘深度学习计算的特点并将其固化，而通用计算设备如 CPU/GPGPU 会倾向于只提供有限的扩展指令尽量软实现各种操作，目前 Intel/Nvidia 的共识是只要提供矩阵乘单元，然后将主要的计算密集算子规约为矩阵乘，就足以得到与 NPU 匹敌的深度学习性能了

xqscan

2023-02-06 00:29

查看讨论

nv 用的还是 gpu... 只是里面有块 asic 叫 tensorcore，每次新卡必升级，性能至少翻倍，计算性能和成本领先各家自研芯片，且软件生态完善... 实际上各家自研芯片一般只用于推理，训练多半还是交给 nv 的 gpu，因为训练要求的精度高；即便是推理，面对 tensorcore 的快速迭代，很多自研团队撑死就打个时间差，nv 新品一发布就可能被反杀... 正是由于来自 nv 的压力，哪怕是推理，各大厂所谓自研芯片，都未必能在内部大范围推开，只解决有无问题，更可能是昙花一现只在于过期 ppt 中耍威风

xqscan

2023-02-06 13:46

查看讨论

补充一下，即便是大厂，有自研npu，cpu 推理仍然不可或缺。

实际上推理任务并不孤立，需要和上下文中的其他任务交互，而交互的通信代价可能巨大，一般而言推理问题越小交互代价相对越大，所以小问题倾向于放在通用计算设备上做，只有足够大的问题才卸载到其他异构设备如 gpu/npu

根据设备的计算能力/通信代价，可以把问题划分为小/中/大三个级别，分别交给 cpu、cpu协处理器(苹果和intel的amx，arm在指令集层面预留的sme)、gpu(nv的tensorcore性能是顶尖的，amd暂时掉队)/npu，具体任务归为哪个级别没有简单标准，但总体而言npu由于可编程性/向后兼容性差往往可用性最低

浦西巴韭特

2023-02-05 15:00

查看讨论

你天才快想想办法啊，整天口low也没卵用不是吗

xqscan

2023-02-06 12:04

查看讨论

nv gpu 从 turing(rtx 20系列) 和 volta (v100)开始就有 tensorcore 了，硬件做矩阵乘，后面三代卡每次性能又翻倍、同时引入其他数据类型支持；所以从性能上讲一般自研芯片没优势，成本上有，但前提是你的软硬件都得跟得上 nv 2年翻一倍的迭代，业务团队或者说计算中台需要同时集成自研卡和nv gpu以便一键切换，因为自研往往不但场景受限其所谓"优势"可能到nv新卡发布就截止了

quantek

2023-02-06 10:06

查看讨论

CUDA生态是英伟达的护城河。就像操作系统，用的人越多，开发的新功能越多、bug修复得越快，越好用。当一家公司AI训练量特别大、业务特别赚钱、技术实力特别强后，才可能自己独立搞训练用的软硬件。

quantek 的讨论

作者：quantek

热门回复