回复@xishier: 这年头真正跑起来的超大规模的production级别的 NN 有几个。。。普通应用Mellono...

发布于:2021-08-22 23:46

雪球

转发：0

回复：0

喜欢：0

回复@xishier: 这年头真正跑起来的超大规模的production级别的NN有几个。。。普通应用Mellonox那个可能是够了，但是特斯拉跑的NN规模恐怕没有别人可以比肩。//@xishier:回复@莫名其喵:这种高速IO串行器实际蛮common的，技术上都不难，其他各家TPU，GPU都没去加那么多对外IO带宽，我理解应该是不需要那么大，我记得以前NVIDIA收购mellonox,有提到使用mellonox技术就是为了系统级别扩展GPU时候，性能能线性增加，也就是说用了mellonox的100到400G的IO,A100这个级别GPU卡在一个超大GPU集群系统(公有云厂家很多)里面，IO不会是瓶颈，Tesla这个提升到4T BW,可能增益有限，不过可能Tesla有啥特殊考量去为他将来神经网络训练优化预留。。。

引用：

2021-08-20 11:09

【转发并整理于大V不是郑小康老师】
由3000个特斯拉自研Dojo D1芯片，组成1.1EFLOP的超级计算机。（1 EFLOPS等于每秒一百京（=10^18）次的浮点运算）
算力是现在世界第一日本富士通超算0.415 EFLOP的2.65倍，登顶超级计算机全球第一！
这还仅仅是Dojo 1.0，下一步研发的是10倍Dojo算力...

作者：莫名其喵

引用：