拆分Transformer注意力,韩国团队让大模型解码提速20倍

发布于: 雪球转发:0回复:0喜欢:0
内存开销也大幅降低