发布于: 雪球转发:0回复:1喜欢:0
回复@澳洲放牛娃: 一下仅供参考
同样完成LLaMA 70b 模型推理,采用 int8 量化,运行三年的话,Groq 需要的硬件采购成本是576卡1144 万美元,运营成本是 76.2 万美元或更高。H100的硬件采购成本是 8卡30 万美元,运营成本是 7.2 万美元或略低
groq没有显存仅仅靠SOC SRAM,假设有230MB的SRAM , 运行一个INT8的 llama-70B=70GB/0.23GB = 305张卡,考虑到SRAM利用率等各种问题,预计需要320张卡,每个服务器智能插入8张卡,分摊成本每张卡不低于2500$(卡0元计算),也就是服务器40台+交换机, 大概150万美元可以运行llama-70B。如果换成A100的8卡,大概INT8能够做到100token/s.,也就是120万人民币投入//@澳洲放牛娃:回复@澳洲放牛娃:初步感觉利空hbm产业链,groq完全抛弃了hbm采用sram,所以尾盘那些跟着君正猛拉的hbm这类生产企业能否明白groq的成功将会取代原本应属于他们的市场。
用下来groq真的非常快,接近300Token/s,那么现在就剩一个问题,跟h100比起来性价比如何?
引用:
2024-02-20 15:38
groq这盘中突然开始炒作,就是否要卖掉gpu换成groqcard,目前外网的讨论主要集中在两点,第一groq的芯片只能用在推理但不能用于训练,第二groq搭建费用不比英伟达的gpu便宜,一张groq的卡售价2w美金,只有0.23gb。其他的回家晚上再聊。

全部讨论

x上有groq创始人回复这个内容,groq的解释是按照每生成单个token花费多少美金来看性价比,groq还是目前性价比最高的。有可能目前2w美金是零售价,批发价应该低一点,而他们自己部署服务应该仅计算了生产成本价格。