发布于: 雪球转发:0回复:0喜欢:0
回复@xishier: 这年头真正跑起来的超大规模的production级别的NN有几个。。。普通应用Mellonox那个可能是够了,但是特斯拉跑的NN规模恐怕没有别人可以比肩。//@xishier:回复@莫名其喵:这种高速IO串行器实际蛮common的,技术上都不难,其他各家TPU,GPU都没去加那么多对外IO带宽,我理解应该是不需要那么大,我记得以前NVIDIA收购mellonox,有提到使用mellonox技术就是为了系统级别扩展GPU时候,性能能线性增加,也就是说用了mellonox的100到400G的IO,A100这个级别GPU卡在一个超大GPU集群系统(公有云厂家很多)里面,IO不会是瓶颈,Tesla这个提升到4T BW,可能增益有限,不过可能Tesla有啥特殊考量去为他将来神经网络训练优化预留。。。
引用:
2021-08-20 11:09
【转发并整理于大V不是郑小康老师】
由3000个特斯拉自研Dojo D1芯片,组成1.1EFLOP的超级计算机。(1 EFLOPS等于每秒一百京(=10^18)次的浮点运算)
算力是现在世界第一日本富士通超算0.415 EFLOP的2.65倍,登顶超级计算机全球第一!
这还仅仅是Dojo 1.0,下一步研发的是10倍Dojo算力...