发布于: iPhone转发:1回复:11喜欢:13
$英伟达(NVDA)$
华为昇腾芯片跟英伟达的芯片相比,差在哪里?
inference意义不大,这里只说training部分,个人觉得差距有以下几点
能耗比,这块和微架构,制程都有关系,晟腾没有n3的先进工艺,做出来的die size肯定比nv的要差很多,n3比n7面积快小一倍了,导致哪怕同样优秀的架构设计,要做一样的事情,晟腾可能需要2个芯片才能完成,nv用一个就可以了,况且晟腾的SIMT/SIMD设计不会比nv更强。不过这块影响不大,servers上可以用数量弥补,反正钱能解决的都不是问题。
mem BW,晟腾肯定是拿不到HBM3e, 后续次一点的GDDR7肯定也没戏,memory bound是个很严重的问题,用LPDDR需要很多phy堆bus width才能把BW提上来,对floor plan,die size都是很大的挑战。大模型训练速度会受到很大的影响。
scaler, D2D受工艺限制,做扩展还有散热的问题,而且BW的bottleneck比computation更大,C2C需要很优秀的bus design,ARM后续的总线授权应该拿不到了,晟腾要设计私有的高性能总线协议才行,还要增加sram以及做cache coherency都是不小的挑战。
high-speed interface, B2B需要用到的高速互联接口,nv有nv switch, nv link,光接口做到很大的BW,这块国内供应商没有能打的,又只能华为自己上,从物理层到协议层以及SDK都要做出来,突破了这个才能去谈pod,不然最多做到C2C的单板,用PCIE5.0去打nv switch,差太多了。
生态,cuda是没希望了,mindspore要上接pytorch,下接ISA, framework, UMD, KMD全部自己做完,以前cuda的要迁徙过来,无数bug要修,还有性能,精度问题。没记错的话,晟腾只能适配H自己arm based的server,和普遍用的X86 linux还不通用(RSIC-V做高性能还有很长的路要走,短期没指望)。NV的PCIE borad是没这问题的,当然pod就是另外的话题了。
but,差就差点,又不是不能用,至少H这边不会断供,可能产能不够,要排队买,NV的GH,B200是好,买不到有啥用。先解决有没有的问题,再想好坏的问题。就是后续大模型训练上,需要的时间就多了,整体上还是BW的限制更严重一些,看能不能从存内结算等方向想想办法了。

全部讨论

有啥可比的,英伟达产品再优秀能大规模进入国内市场?就算英伟达产品比升腾优秀100倍,有用吗?

困难充分展示,实际hw和其国产产业链已经解决了很多问题

04-15 13:33

这比啥,实力和牛逼

04-14 11:46

買得到的,比較轉折和加價

04-14 11:25

920今年能出来吗

04-14 09:49

生态才是致命伤

04-14 09:06

关键是迭代循环。技术障碍突破很快

04-14 01:02

任重而道远…

04-13 23:29

b200量产后,H100会不会放松