Scaling law为什么能成为第一性原理? 你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。 通用是你把所有问题放到这个框架建模,可规模化是只要你投入足够多算力,它就能变好。这是我在Google学到的思维: 如果能被更底层的东西解释,就不应该在上层过度雕花。 有一句重要的话我...
当老大马马字有这么多好处
服务周到