那么当模型参数不断变大,一次训练需要读取的参数就越多,假设如果你的大脑左脑负责运算,右脑负责存储。每次你想问题都需要把右脑的信息,先加载到左脑,...
我推荐你去看看黄在mit或斯坦福的那次演讲,2010年之前。对计算机,你绝对没有我懂。