发布于: 雪球转发:0回复:0喜欢:0
回复@NeoKJ: 你的想法大概是,拿出来7G左右的内存存放大模型参数,然后用CPU里面的NPU来做推理
行是行,但是吧,你真的会需要一个单独部署的大模型服务,然后频繁的去调用么?
另外,这种也只能部署在PC上,而普通人使用PC的机会越来越少,大多数使用电子产品的场景都是手机平板//@NeoKJ:回复@娴熟:但是端测ai可以大幅降低cloud的latency不是吗?就算是7B的llama要想跑起来的话是不是也需要大家开始进行pc和其他消费电子设备的换代了?
引用:
2024-05-01 05:36
$AMD(AMD)$ 又到了请大佬点评财报的时候了 @翻番 @娴熟 感谢!