发布于: Android转发:0回复:0喜欢:0
在 NLP 中,训练最新 SOTA Trans former 模型的计算成本以 750×/2yrs 的速度递增,模型参数大小以 410×/2yrs 的速度递增。相比之下,硬件 FLOPS 峰值的扩展速度为 3.0×/2yrs,而 DRAM 和互连带宽的扩展速度分别为 1.6×/2yrs 和 1.4×/2yrs,越来越落后。
从这个角度来看,硬件 FLOPS 的峰值在过去 20 年中增长了 60,000 倍,而 DRAM/互连带宽在同期仅分别增长了 100 倍/30 倍。
在这种趋势下,内存(尤其是芯片内/芯片间内存传输)将很快成为服务大型人工智能模型的主要限制因素。因此,我们需要重新思考人工智能模型的训练、部署和设计,以及如何设计人工智能硬件来应对这堵日益严峻的内存墙。
$美光科技(MU)$