AI训练芯片再突破，单片算力压制谷歌最强TPU，或超过英伟达H100,最快本月试产 $科德教育(SZ300192)$ 3月19日，杨龚轶凡透露，中昊芯英主要研发TPU加速芯片，第一代训练芯片“刹那”已经完...

$科德教育(SZ300192)$ 3月19日，杨龚轶凡透露，中昊芯英主要研发TPU加速芯片，第一代训练芯片“刹那”已经完成流片和量产，处于规模出片阶段。第二代芯片接近试产状态，将在今年底或明年初完成量产。“通过稀疏化处理等技术，第二代芯片提升了2—4倍。”

4月4号，赛智伯乐投资公众号文章提到“近期，浙江省人工智能领域最受风险投资公司瞩目的独角兽企业--中昊芯英”，可见资本方对中昊芯英的重视程度，而近期无比重视的原因很可能就是二代芯片即将问世。

那么第二代训练芯片性能到底多强呢，由于没有透露第二代训练芯片最多可以多少片互联，我这里就简单比较一下单芯片算力：

1.中昊芯英-TPU-第一代训练芯片“刹那”是训练204tflops,推理396tops，所以第二代就是 408-816tflops/792-1584tops；

2.谷歌第六代（最强一代AI算力芯片，去年12月发布）-TPUv5p 是 459tflops/918tops；

可以看出，单片算力已碾压TPUv5p，而TPUv5p是什么实力呢？

谷歌的TPU v5p在训练大规模语言模型上表现突出，比起Nvidia顶配的H100显卡（被公认为最适合AI任务专业级别的显卡之一），谷歌TPU v5p毫不畏惧。根据官方数据显示，其训练效能竟超越Nvidia同系列A100 GPU整整四倍！然而，实际对比还需通过严谨的基准测试才能最终定论。另传闻称，谷歌TPU v4在训练效能上较A100还要提升1.2~1.7倍，此数据去年四月便已得到证实。据此估计，谷歌TPU v5p相较A100性能优势可能位于3.4~4.8倍之间，其竞争力水平相当于甚至超过Nvidia的H100。

第二代量产最快在年底，按照其他几家芯片公司公开的试产到量产的周期最快不到6个月来算，本月就有希望试产。

AI训练芯片再突破，单片算力压制谷歌最强TPU，或超过英伟达H100,最快本月试产

作者：丿月影灬