回复@ErnestDong: 我猜是参数量降了一个数量级,配合剪枝。当然,我这只是瞎猜,纯闲聊扯淡//@ErnestDong:回复@仓又加错-刘成岗:MoE重新回到Single end-to-end,延迟和成本还大幅降低了。可能有效参数量大幅下降,也可能是什么黑科技