月之暗面杨植麟访谈长文(转载)

发布于: Android转发:0回复:15喜欢:0

Scaling law为什么能成为第一性原理?你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。通用是你把所有问题放到这个框架建模,可规模化是只要你投入足够多算力,它就能变好。这是我在Google学到的思维:如果能被更底层的东西解释,就不应该在上层过度雕花。有一句重要的话我很认同:如果你能用scale解决的问题,就不要用新的算法解决。新算法最大价值是让它怎么更好的scale。当你把自己从雕花的事中释放出来,可以看到更多。

长文本是登月第一步,因为足够本质,它是新的计算机内存。老的计算机内存,在过去几十年涨了好几个数量级,一样的事会发生在新的计算机上。它能解决很多现在的问题。比如,现在多模态架构还需要tokenizer(标记器),但当你有一个无损压缩的long context就不需要了,可以把原始的放进去。进一步讲,它是把新计算范式变成更通用的基础。旧的计算机可以0、1表示所有,所有东西可被数字化。但今天新计算机还不行,context不够多,没那么通用。要变成通用的世界模型,是需要long context的。第二,能够做到个性化。AI最核心的价值是个性化互动,价值落脚点还是个性化,AGI会比上一代推荐引擎更加个性化。但个性化过程不是通过微调实现,而是它能支持很长的context(上下文)。你跟机器所有的历史都是context,这个context定义了个性化过程,而且无法被复刻,它会是更直接的对话,对话产生信息。

scaling law走到最后发现根本走不通的概率几乎为0。模型可扩展的空间还非常大,一方面是本身窗口的提升,有很长路要走,会有几个数量级。另一方面是,在这个窗口下能实现的推理能力、the faithfulness的能力(对原始信息的忠实度)、the instruction following的能力(遵循指令的能力)。如果这两个维度都持续提升,能做非常多事。可能可以follow(执行)一个几万字的instruction(指令),instruction本身会定义很多agent(智能体),高度个性化。

AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界——这是两种不同思维

开源的开发方式跟以前不一样了,以前是所有人都可以contribute(贡献)到开源,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation(对市场的整合)。如果我今天有一个领先的模型,开源出来,大概率不合理。反而是落后者可能会这么做,或者开源小模型,搅局嘛,反正不开源也没价值。

从GPT-3.5到GPT-4,解锁了很多应用;从GPT-4到GPT-4.5再到GPT-5,大概率会持续解锁更多,甚至是指数型的应用。所谓“场景摩尔定律”,就是你能用的场景数量会随着时间指数级上升。我们需要边提升模型能力,边找更多场景,需要这样的平衡。它是个螺旋。

可以理解成有两种不同压缩。一种是压缩原始世界,这是视频模型在做的。另一种是压缩人类产生的行为,因为人类产生的行为经过了人的大脑,这是世界上唯一能产生智能的东西。你可以认为视频模型在做第一种,文本模型在做第二种,当然视频模型也一定程度包含了第二种。它最终可能会是mix,来建立世界模型。

硅谷一直有一个争论:one model rules all还是many specialized smaller models(一个通用模型来处理各种任务,还是采用许多专门的较小模型来处理特定任务),我认为是前者。$昆仑万维(SZ300418)$

全部讨论

这块比月之暗面落后很多

03-02 14:11

大科黑 大色狼

03-02 13:33

别说了,老大,你挑一个,我喊学妹过去帮你暖床

03-03 08:21

完整的采访我看过,月之据说是国内目前表现最好的大模型,但目前没有商业化的冲动,就那点资金,来几轮都不够烧的。