回复@NeoKJ: 你的想法大概是，拿出来7G左右的内存存放大模型参数，然后用CPU里面的NPU来做推理行是行，但是吧，...

作者：娴熟

发布于:2024-05-02 21:16

雪球

转发：0

回复：0

喜欢：0

回复@NeoKJ: 你的想法大概是，拿出来7G左右的内存存放大模型参数，然后用CPU里面的NPU来做推理
行是行，但是吧，你真的会需要一个单独部署的大模型服务，然后频繁的去调用么？
另外，这种也只能部署在PC上，而普通人使用PC的机会越来越少，大多数使用电子产品的场景都是手机平板//@NeoKJ:回复@娴熟:但是端测ai可以大幅降低cloud的latency不是吗？就算是7B的llama要想跑起来的话是不是也需要大家开始进行pc和其他消费电子设备的换代了？

引用：

2024-05-01 05:36

$AMD(AMD)$ 又到了请大佬点评财报的时候了 @翻番 @娴熟感谢！