回复@澳洲放牛娃: 一下仅供参考同样完成LLaMA 70b 模型推理，采用 int8 量化，运行三年的话，Groq 需要...

发布于:2024-02-21 11:28

雪球

转发：0

回复：1

喜欢：0

回复@澳洲放牛娃: 一下仅供参考
同样完成LLaMA 70b 模型推理，采用 int8 量化，运行三年的话，Groq 需要的硬件采购成本是576卡1144 万美元，运营成本是 76.2 万美元或更高。H100的硬件采购成本是 8卡30 万美元，运营成本是 7.2 万美元或略低
groq没有显存仅仅靠SOC SRAM，假设有230MB的SRAM , 运行一个INT8的 llama-70B=70GB/0.23GB = 305张卡，考虑到SRAM利用率等各种问题，预计需要320张卡，每个服务器智能插入8张卡，分摊成本每张卡不低于2500$(卡0元计算)，也就是服务器40台+交换机, 大概150万美元可以运行llama-70B。如果换成A100的8卡，大概INT8能够做到100token/s.，也就是120万人民币投入//@澳洲放牛娃:回复@澳洲放牛娃:初步感觉利空hbm产业链，groq完全抛弃了hbm采用sram，所以尾盘那些跟着君正猛拉的hbm这类生产企业能否明白groq的成功将会取代原本应属于他们的市场。
用下来groq真的非常快，接近300Token/s，那么现在就剩一个问题，跟h100比起来性价比如何？

引用：

2024-02-20 15:38

groq这盘中突然开始炒作，就是否要卖掉gpu换成groqcard，目前外网的讨论主要集中在两点，第一groq的芯片只能用在推理但不能用于训练，第二groq搭建费用不比英伟达的gpu便宜，一张groq的卡售价2w美金，只有0.23gb。其他的回家晚上再聊。

全部讨论

澳洲投资养家

02-21 12:22

x上有groq创始人回复这个内容，groq的解释是按照每生成单个token花费多少美金来看性价比，groq还是目前性价比最高的。有可能目前2w美金是零售价，批发价应该低一点，而他们自己部署服务应该仅计算了生产成本价格。

作者：LifeIsATomb

引用：

全部讨论