xqscan 的讨论

发布于: 雪球回复:0喜欢:6
补充一下,即便是大厂,有自研npu,cpu 推理仍然不可或缺。

实际上推理任务并不孤立,需要和上下文中的其他任务交互,而交互的通信代价可能巨大,一般而言推理问题越小交互代价相对越大,所以小问题倾向于放在通用计算设备上做,只有足够大的问题才卸载到其他异构设备如 gpu/npu

根据设备的计算能力/通信代价,可以把问题划分为 小/中/大 三个级别,分别交给 cpu、cpu协处理器(苹果和intel的amx,arm在指令集层面预留的sme)、gpu(nv的tensorcore性能是顶尖的,amd暂时掉队)/npu,具体任务归为哪个级别没有简单标准,但总体而言npu由于可编程性/向后兼容性差往往可用性最低