早着了,本地部署能靠谱点的14B语言模型使用INT8量化优化后显存,大概也需要占用18G,推理的时候GPU还完全占用。也就是说需要一块4090性能级别的,跟当初PhysX物理加速卡一样作为AI辅助运算卡才行...
知道外盘为啥最近AI股大跌吗?因为成熟制程现在库存天数依然极高,产能过剩,而先进制程去年订单爆发后,下游没有盈利模式,要开始没钱烧了,未来先进制程也要开始相对过剩了。
其实关于这个问题,不说那些专业领域,就说玩个AI绘画的朋友应该知道的吧。你想训练一个XL的Lora模型,最好得有4090这样的显卡,而如果出图做推理的话,甚至一块3060就够了。包括那些语言模型也一样,想训练得2块A100起步,而推理只需要四分之一甚至更小的显存,消费级显卡就能轻松单机部署。
知道这是啥含义吗?对于先进制程高端专业卡订单,去年该买的都买了后,推理硬件需求低,先进制程也会很快过剩的...
早着了,本地部署能靠谱点的14B语言模型使用INT8量化优化后显存,大概也需要占用18G,推理的时候GPU还完全占用。也就是说需要一块4090性能级别的,跟当初PhysX物理加速卡一样作为AI辅助运算卡才行...
为啥8bit,5.65-6 bit是甜点区域,损失相当低。对应GGUF格式的Q5_K_M或者exl2的6bit。
70B的4bit也能用。
还有更低的量化,如果只是为了创造性写作,也某种程度上凑合。