AI训练芯片再突破,单片算力压制谷歌最强TPU,或超过英伟达H100,最快本月试产

发布于: iPhone转发:0回复:0喜欢:0

$科德教育(SZ300192)$ 3月19日,杨龚轶凡透露,中昊芯英主要研发TPU加速芯片,第一代训练芯片“刹那”已经完成流片和量产,处于规模出片阶段。第二代芯片接近试产状态,将在今年底或明年初完成量产。“通过稀疏化处理等技术,第二代芯片提升了2—4倍。”

4月4号,赛智伯乐投资公众号文章提到“近期,浙江省人工智能领域最受风险投资公司瞩目的独角兽企业--中昊芯英”,可见资本方对中昊芯英的重视程度,而近期无比重视的原因很可能就是二代芯片即将问世。

那么第二代训练芯片性能到底多强呢,由于没有透露第二代训练芯片最多可以多少片互联,我这里就简单比较一下单芯片算力:

1.中昊芯英-TPU-第一代训练芯片“刹那”是 训练204tflops,推理396tops,所以第二代就是 408-816tflops/792-1584tops;

2.谷歌第六代(最强一代AI算力芯片,去年12月发布)-TPUv5p 是 459tflops/918tops;

可以看出,单片算力已碾压TPUv5p,而TPUv5p是什么实力呢?

谷歌的TPU v5p在训练大规模语言模型上表现突出,比起Nvidia顶配的H100显卡(被公认为最适合AI任务专业级别的显卡之一),谷歌TPU v5p毫不畏惧。根据官方数据显示,其训练效能竟超越Nvidia同系列A100 GPU整整四倍!然而,实际对比还需通过严谨的基准测试才能最终定论。另传闻称,谷歌TPU v4在训练效能上较A100还要提升1.2~1.7倍,此数据去年四月便已得到证实。据此估计,谷歌TPU v5p相较A100性能优势可能位于3.4~4.8倍之间,其竞争力水平相当于甚至超过Nvidia的H100

第二代量产最快在年底,按照其他几家芯片公司公开的试产到量产的周期最快不到6个月来算,本月就有希望试产。