首页
拆分Transformer注意力,韩国团队让大模型解码提速20倍
作者:
量子位
发布于:
2024-07-01 17:30
雪球
转发:0
回复:0
喜欢:0
内存开销也大幅降低