$英伟达(NVDA)$,不管GPU拆的运算单元再细,把存储和运算单元封装的再近,它本质上也还是一个冯诺依曼架构,也就是说,算归算,存归存。那么当模型参数不断变大,一次训练需要读取的参数就越多,假设如果你的大脑左脑负责运算,右脑负责存储。每次你想问题都需要把右脑的信息,先加载到左脑,...