回复@Frank_X: 我都看不懂你说的。。。推理一定是消耗算力越来越低的，一块GPU支持的并发推理越来越高，最后低到设...

发布于:2024-05-14 13:37

iPhone

转发：1

回复：5

喜欢：2

回复@Frank_X: 我都看不懂你说的。。。推理一定是消耗算力越来越低的，一块GPU支持的并发推理越来越高，最后低到设备端的移动级GPU也能推理，我理解你的意思是不是也是这样？如果是这样的话，为啥还要【从单芯片升级为package乃至数据中心】？//@Frank_X:回复@仓又加错-刘成岗:第二点持保留看法哦。现在可能如此，以后需求应用的爆发对推理的要求和需求都会大增，单卡提升太慢了，老黄家的解题思路是用NVL把计算单元从单芯片升级为package乃至数据中心。随着推理算力成本的急速通缩，低成本和大用量会成正循环，如今云上吃算力的大活儿也会被下放至端侧。

引用：

2024-05-14 07:40

1.前天公众号预测了，会让GPT-4免费，但没想到是多模态的免费...并且过去只有Plus付费用户才有的GPTs、browring、图像理解、代码解释器等全部免费。当然用量是限制了，5X标准用量后才会收费。但别着急，等GB200部署后，一定是GPT-4 level模型全部免费，你们不是追赶GPT-4吗，不是卷价格吗，Ok大家...

全部讨论

Frank_X

05-14 13:57

我理解是做同样的事情，推理需要消耗的算力确实是越来越低，且现在单卡继续优化没问题。做更复杂的事情推理需要的算力会多得多（即便做了工程优化），那单卡往上的优化空间就不够用，而英伟达的方案是多卡NV-Link。算力消耗变多，但单位算力成本会变低的更厉害，总账就算的过来了，也能装进端侧了。

Frank_X

05-14 13:59

意思是这个意思，只是觉得单卡的优化空间有限，再怎么优化，真正应用爆发所需要的推理量都不够用。从成本的角度，多卡集结是经济效用更高的解法。

股浪语-海沉花

05-14 13:52

作者：仓又加错-刘成岗

引用：

全部讨论