$英伟达(NVDA)$华为昇腾芯片跟英伟达的芯片相比，差在哪里？inference意义不大，这里只说training...

$英伟达(NVDA)$
华为昇腾芯片跟英伟达的芯片相比，差在哪里？
inference意义不大，这里只说training部分，个人觉得差距有以下几点
能耗比，这块和微架构，制程都有关系，晟腾没有n3的先进工艺，做出来的die size肯定比nv的要差很多，n3比n7面积快小一倍了，导致哪怕同样优秀的架构设计，要做一样的事情，晟腾可能需要2个芯片才能完成，nv用一个就可以了，况且晟腾的SIMT/SIMD设计不会比nv更强。不过这块影响不大，servers上可以用数量弥补，反正钱能解决的都不是问题。
mem BW，晟腾肯定是拿不到HBM3e, 后续次一点的GDDR7肯定也没戏，memory bound是个很严重的问题，用LPDDR需要很多phy堆bus width才能把BW提上来，对floor plan，die size都是很大的挑战。大模型训练速度会受到很大的影响。
scaler， D2D受工艺限制，做扩展还有散热的问题，而且BW的bottleneck比computation更大，C2C需要很优秀的bus design，ARM后续的总线授权应该拿不到了，晟腾要设计私有的高性能总线协议才行，还要增加sram以及做cache coherency都是不小的挑战。
high-speed interface, B2B需要用到的高速互联接口，nv有nv switch, nv link，光接口做到很大的BW，这块国内供应商没有能打的，又只能华为自己上，从物理层到协议层以及SDK都要做出来，突破了这个才能去谈pod，不然最多做到C2C的单板，用PCIE5.0去打nv switch，差太多了。
生态，cuda是没希望了，mindspore要上接pytorch，下接ISA, framework, UMD, KMD全部自己做完，以前cuda的要迁徙过来，无数bug要修，还有性能，精度问题。没记错的话，晟腾只能适配H自己arm based的server，和普遍用的X86 linux还不通用(RSIC-V做高性能还有很长的路要走，短期没指望）。NV的PCIE borad是没这问题的，当然pod就是另外的话题了。
but，差就差点，又不是不能用，至少H这边不会断供，可能产能不够，要排队买，NV的GH,B200是好，买不到有啥用。先解决有没有的问题，再想好坏的问题。就是后续大模型训练上，需要的时间就多了，整体上还是BW的限制更严重一些，看能不能从存内结算等方向想想办法了。

作者：肥_牛

全部讨论