发布于: iPhone转发:1回复:5喜欢:2
回复@Frank_X: 我都看不懂你说的。。。推理一定是消耗算力越来越低的,一块GPU支持的并发推理越来越高,最后低到设备端的移动级GPU也能推理,我理解你的意思是不是也是这样?如果是这样的话,为啥还要【从单芯片升级为package乃至数据中心】?//@Frank_X:回复@仓又加错-刘成岗:第二点持保留看法哦。现在可能如此,以后需求应用的爆发对推理的要求和需求都会大增,单卡提升太慢了,老黄家的解题思路是用NVL把计算单元从单芯片升级为package乃至数据中心。随着推理算力成本的急速通缩,低成本和大用量会成正循环,如今云上吃算力的大活儿也会被下放至端侧。
引用:
2024-05-14 07:40
1.前天公众号预测了,会让GPT-4免费,但没想到是多模态的免费...并且过去只有Plus付费用户才有的GPTs、browring、图像理解、代码解释器等全部免费。当然用量是限制了,5X标准用量后才会收费。但别着急,等GB200部署后,一定是GPT-4 level模型全部免费,你们不是追赶GPT-4吗,不是卷价格吗,Ok大家...

全部讨论

05-14 13:57

我理解是做同样的事情,推理需要消耗的算力确实是越来越低,且现在单卡继续优化没问题。做更复杂的事情推理需要的算力会多得多(即便做了工程优化),那单卡往上的优化空间就不够用,而英伟达的方案是多卡NV-Link。算力消耗变多,但单位算力成本会变低的更厉害,总账就算的过来了,也能装进端侧了。

05-14 13:59

意思是这个意思,只是觉得单卡的优化空间有限,再怎么优化,真正应用爆发所需要的推理量都不够用。从成本的角度,多卡集结是经济效用更高的解法。