quantek 的讨论

发布于: 雪球回复:74喜欢:12
2021年Tesla AI day上展示基于Transformer的新技术时,就能看出Transformer的潜力了。

热门回复

2023-02-05 12:10

感觉美国对国内的AI训练GPU的禁售在长期会带来非常大的影响。AI训练的进步速度比摩尔定律快得多,每1~2年的新品GPU训练能力都是翻几倍的。。。

2023-02-06 17:14

npu 和 gpu 还在竞争阶段,理论上 npu 似乎更专用更合适,但 gpu 也在集成更多 npu 的能力,这代表的是两个派别

可以把深度学习中的计算简单分为两类,矩阵乘和其他,矩阵乘单独拎出来是因为大部分问题的主要资源都在这个算子上。npu 一派的思路是,我围绕矩阵乘去设计一个专用处理器,解决了这个核心问题,再用一些周边硬件去处理其他算子;而 intel/nvidia 的思路是,我在现有芯片里面添加一个独立的功能单元或者协处理器,高效做矩阵乘,其他算子复用一般的 cpu/gpu 处理单元

历史上早有过通用/专用芯片之争,结果大家都知道,由于通用芯片有最大的市场和研发资源,在摩尔定律加持下,各种宣称对cpu有显著优势的芯片都成了昨日黄花消失在大众眼中;一个例外是图形处理芯片 gpu,但 gpu 也在 16 年前随着 g80 和 cuda 的引入演变成了通用处理器,至此 cpu/gpu 分别被定位为 串行/并行 处理设备,大批量的并行任务交给 gpu 其他给 cpu

npu 一派说这次不一样,因为摩尔定律已经结束了,深度学习举足轻重值得一个专门的处理器;但真的不一样吗,intel/nvidia 占有统治级别的市场、资金和软硬件研发资源这一点和以前没什么不同,而深度学习拿掉矩阵乘后的其他并行算子,和 cuda 大规模并行处理的定位是完全重合的,换句话说,gpu 砍掉图形处理模块再加上矩阵乘单元,就是 npu,两者重合度如此之高,所谓大厂 npu 自研团队,真的能跟上 nvidia 两年翻一倍的节奏吗

我个人倾向于相信 npu 最后会和视频编解码模块一样,下沉成为 gpu 内的专用单元,复用 gpu 通用计算部件架构演进的红利;中国市场由于芯片管制,或许会以 npu 为契机,演化出类似 gpu 的大规模并行计算的通用设备

上面说的是主要玩家和未来,说回当下,由于自研 npu 团队的软硬件研发资源特别是经验有限,往往只能覆盖部分重量级业务,这部分重量级业务也会每两年一次迎来 nvidia 的新挑战,大部分硬件厂商就是因为同样的理由在和 intel/nvidia 的竞争中落败消失于历史长河中。现状就是,自研 npu 只适用于部分场景,且这部分场景也未必站得住

不怕,我们口high从没输过。

建议你学习一下四个自信[狗头]

2023-02-07 20:17

GPGPU 的前身可以追溯到向量机,即以向量为最小数据单元做通用计算,相比之下 CPU 是在标量上做计算;GPU 适合对大量数据做相同的简单操作(所谓面向吞吐),CPU 适合对少量数据做复杂操作(所谓面向延迟)

出于图像/视频处理的需要,CPU 也引入了向量指令集叫 SIMD,而 GPGPU 相比 SIMD 除了向量规模更大之外,还有一大特点是"以标量编码以向量执行",这叫做 SIMT,由 GPU 着色器泛化而来由 CUDA 首次引入;因为标量编码是最常见的编程模型,所以很多现成的 C/C++ 代码可以直接在 CUDA 中使用同时得到了数据级并行的能力,这是 CUDA/OpenCL 能大行其道的原因,门槛和工作量远远比 SIMD 低

既然 CPU/GPGPU 已经通用到可以直接运行 C/C++ 这些图灵完备的语言,也就不难理解任何基于 C 语言实现的算法包括深度学习都能够运行于 CPU/GPU 之上,此为深度学习算法的软实现(可编程);相比之下,NPU 可以视作 GPGPU 的一种深度学习算法定制优化设备(Tensor 本来就是高维向量,由向量机来实现也很自然),即根据深度学习计算的特点,定制一些硬件部件,比如直接提供乘累加/矩阵乘/向量内积/向量外积甚至卷积单元(算得快),比如提供16位浮点8比特定点甚至1比特精度的数据类型(不像超算上的一些算法要求64位浮点精度),比如提供上百 MB 的 SRAM 直接将模型置于其中避免绝大部分存储器访问(又快功耗又低);换句话说,NPU 可以无所不用其极的去挖掘深度学习计算的特点并将其固化,而通用计算设备如 CPU/GPGPU 会倾向于只提供有限的扩展指令尽量软实现各种操作,目前 Intel/Nvidia 的共识是只要提供矩阵乘单元,然后将主要的计算密集算子规约为矩阵乘,就足以得到与 NPU 匹敌的深度学习性能了

2023-02-06 00:29

nv 用的还是 gpu... 只是里面有块 asic 叫 tensorcore,每次新卡必升级,性能至少翻倍,计算性能和成本领先各家自研芯片,且软件生态完善... 实际上各家自研芯片一般只用于推理,训练多半还是交给 nv 的 gpu,因为训练要求的精度高;即便是推理,面对 tensorcore 的快速迭代,很多自研团队撑死就打个时间差,nv 新品一发布就可能被反杀... 正是由于来自 nv 的压力,哪怕是推理,各大厂所谓自研芯片,都未必能在内部大范围推开,只解决有无问题,更可能是昙花一现只在于过期 ppt 中耍威风

2023-02-06 13:46

补充一下,即便是大厂,有自研npu,cpu 推理仍然不可或缺。

实际上推理任务并不孤立,需要和上下文中的其他任务交互,而交互的通信代价可能巨大,一般而言推理问题越小交互代价相对越大,所以小问题倾向于放在通用计算设备上做,只有足够大的问题才卸载到其他异构设备如 gpu/npu

根据设备的计算能力/通信代价,可以把问题划分为 小/中/大 三个级别,分别交给 cpu、cpu协处理器(苹果和intel的amx,arm在指令集层面预留的sme)、gpu(nv的tensorcore性能是顶尖的,amd暂时掉队)/npu,具体任务归为哪个级别没有简单标准,但总体而言npu由于可编程性/向后兼容性差往往可用性最低

你天才快想想办法啊,整天口low也没卵用不是吗

2023-02-06 12:04

nv gpu 从 turing(rtx 20系列) 和 volta (v100)开始就有 tensorcore 了,硬件做矩阵乘,后面三代卡每次性能又翻倍、同时引入其他数据类型支持;所以从性能上讲一般自研芯片没优势,成本上有,但前提是你的软硬件都得跟得上 nv 2年翻一倍的迭代,业务团队或者说计算中台需要同时集成自研卡和nv gpu以便一键切换,因为自研往往不但场景受限其所谓"优势"可能到nv新卡发布就截止了

2023-02-06 10:06

CUDA生态是英伟达的护城河。就像操作系统,用的人越多,开发的新功能越多、bug修复得越快,越好用。当一家公司AI训练量特别大、业务特别赚钱、技术实力特别强后,才可能自己独立搞训练用的软硬件。