月之暗面杨植麟访谈长文（转载） Scaling law为什么能成为第一性原理？你只要能找到一个结构，满足两个条件：一是足够通用，二是可规模化。通用是...

Scaling law为什么能成为第一性原理？你只要能找到一个结构，满足两个条件：一是足够通用，二是可规模化。通用是你把所有问题放到这个框架建模，可规模化是只要你投入足够多算力，它就能变好。这是我在Google学到的思维：如果能被更底层的东西解释，就不应该在上层过度雕花。有一句重要的话我很认同：如果你能用scale解决的问题，就不要用新的算法解决。新算法最大价值是让它怎么更好的scale。当你把自己从雕花的事中释放出来，可以看到更多。

长文本是登月第一步，因为足够本质，它是新的计算机内存。老的计算机内存，在过去几十年涨了好几个数量级，一样的事会发生在新的计算机上。它能解决很多现在的问题。比如，现在多模态架构还需要tokenizer（标记器），但当你有一个无损压缩的long context就不需要了，可以把原始的放进去。进一步讲，它是把新计算范式变成更通用的基础。旧的计算机可以0、1表示所有，所有东西可被数字化。但今天新计算机还不行，context不够多，没那么通用。要变成通用的世界模型，是需要long context的。第二，能够做到个性化。AI最核心的价值是个性化互动，价值落脚点还是个性化，AGI会比上一代推荐引擎更加个性化。但个性化过程不是通过微调实现，而是它能支持很长的context（上下文）。你跟机器所有的历史都是context，这个context定义了个性化过程，而且无法被复刻，它会是更直接的对话，对话产生信息。

scaling law走到最后发现根本走不通的概率几乎为0。模型可扩展的空间还非常大，一方面是本身窗口的提升，有很长路要走，会有几个数量级。另一方面是，在这个窗口下能实现的推理能力、the faithfulness的能力（对原始信息的忠实度）、the instruction following的能力（遵循指令的能力）。如果这两个维度都持续提升，能做非常多事。可能可以follow（执行）一个几万字的instruction（指令），instruction本身会定义很多agent（智能体），高度个性化。

AI不是我在接下来一两年找到什么PMF，而是接下来十到二十年如何改变世界——这是两种不同思维

开源的开发方式跟以前不一样了，以前是所有人都可以contribute（贡献）到开源，现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集，最后一定是闭源更好，是一个consolidation（对市场的整合）。如果我今天有一个领先的模型，开源出来，大概率不合理。反而是落后者可能会这么做，或者开源小模型，搅局嘛，反正不开源也没价值。

从GPT-3.5到GPT-4，解锁了很多应用；从GPT-4到GPT-4.5再到GPT-5，大概率会持续解锁更多，甚至是指数型的应用。所谓“场景摩尔定律”，就是你能用的场景数量会随着时间指数级上升。我们需要边提升模型能力，边找更多场景，需要这样的平衡。它是个螺旋。

可以理解成有两种不同压缩。一种是压缩原始世界，这是视频模型在做的。另一种是压缩人类产生的行为，因为人类产生的行为经过了人的大脑，这是世界上唯一能产生智能的东西。你可以认为视频模型在做第一种，文本模型在做第二种，当然视频模型也一定程度包含了第二种。它最终可能会是mix，来建立世界模型。

硅谷一直有一个争论：one model rules all还是many specialized smaller models（一个通用模型来处理各种任务，还是采用许多专门的较小模型来处理特定任务），我认为是前者。$昆仑万维(SZ300418)$

月之暗面杨植麟访谈长文（转载）

作者：天行健爱美女

全部讨论