【国产显卡评测】基于ChatGLM的推理性能进行评测!转发

发布于: Android转发:0回复:9喜欢:2

在本次模型评测实验中,本文采用了基于ChatGLM-6B模型和zero-nlp项目单卡在海光DCU Z100 和 寒武纪 MLU370-X8及昇腾310上进行推理性能评测。通过此次评测能更好,更全面的了解国产卡对大模型在实际任务中的表现。

下面我们将海光DCU Z100 和 寒武纪 MLU370-X8进行推理性能评测。(均节选部分代码)

二、推理性能表

运行次数均为5次

MLU370 X8单卡运行性能

三、小结

1.ChatGML在寒武纪MLU 370 X8单卡的推理耗时高出海光Z100单卡推理的58.29%。

2.ChatGML推理耗时和问题输出答案的字数关系比较大,答案字数500字以内,海光Z100上大概是每9.85字,耗时1秒,寒武纪MLU370 X8上大概是每15.59字,耗时1秒。

下面我们将对比昇腾310 和 海光 Z100 的推理性能以及平均微调效率

在每次改变Prompt内容用新的Prompt进行推理时,昇腾卡第一次运行相当缓慢,在后几次昇腾卡推理速度上升

例如:给我介绍一下苹果公司,100个字该条Prompt,每次的推理速度为:

六、小结

ChatGML在海光Z100单卡的推理耗时低于昇腾310单卡推理0.40340 长度每秒。

ChatGML推理耗时和问题输出答案的字数关系比较大,答案字数500字以内,海光Z100上大概是每9.85字,耗时1秒,昇腾310上大概是每1.98048字,耗时1秒。

模型迁移复杂度比较为:复杂度依次升高 海光<寒武纪<昇腾。

$海光信息(SH688041)$ $寒武纪-U(SH688256)$ $高新发展(SZ000628)$

全部讨论

05-04 21:48

这个看应该是寒武纪最强

推理用什么数据类型?如果总fp16和int8海光一代肯定打不过。

这篇文章是23年7月份发布的,现在快一年了格局不知道有没有改变

当前的国产卡都拉胯,要看下一代三号、590,参数上看比前面提升很大

拿海光几年前的产品去比,田忌赛马呀,更何况是用GPGPU跟AI加速卡比特定任务,不要脸,也就骗骗技术小白。
别写小作文了,银行、运营商、互联网这些公司买谁的芯片,自然就是谁的芯片好。财报已经给出了答案

z-100这是深算一号,几年前的产品,现在期待的是三号,