Yann LeCun：大模型只是在操纵文字和图像大约一年半前，Yann Le Cun（杨立昆）意识到他的想法是错误的。他是 Meta 公司人工智能实验室的首席科学家，...

大约一年半前，Yann Le Cun（杨立昆）意识到他的想法是错误的。

他是 Meta 公司人工智能实验室的首席科学家，也是世界上最有影响力的人工智能研究人员之一。他一直试图通过训练神经网络来预测在日常事件的视频片段中接下来会发生什么，从而让机器掌握关于世界如何运作的常识。但是，逐个像素地对未来帧进行预测实在是太复杂了。他碰壁了。

现在，经过几个月的努力，他找到了缺失的东西，并对下一代人工智能有了一个大胆的新的设想。在一份与《麻省理工学院技术评论》分享的文件草案中，LeCun 勾勒出了一种方法，他认为这种方法有朝一日会为机器提供它们导航世界所需的常识。对 LeCun 来说，这些提议可能是构建具有像人类一样的推理和规划能力的机器的第一步——许多人称之为人工通用智能，或通用人工智能（AGI，Artificial general intelligence ）。

他还远离了当今机器学习领域最热门的趋势，振兴了一些过时的旧观念。但他的愿景远非全面；事实上，它所提出的问题可能多于它的答案。正如 LeCun 自己指出的那样，最大的问题在于他不知道如何构建他所描述的内容。新方法的核心是一个神经网络，它可以学习从不同的细节层次上观察世界。这个网络放弃了对像素完美预测的追求，而将只关注场景中与当前任务相关的那些特征。

建议将这个核心网络与另一个称为配置器的核心网络配对，后者决定了需要什么级别的细节，并相应地调整整个系统。

来说，AGI 将成为我们与未来科技互动的一部分。他的雇主 Meta 公司正在大力推动虚拟现实元宇宙的发展，他的愿景也受其影响。他说，10 年或 15 年后，人们口袋里将不再有智能手机，而是自带虚拟助手的增强现实眼镜，（虚拟助手）将引导人们的日常生活。他说：“为了让这些东西对我们最有用，他们基本上必须或多或少拥有人类水平的智力。”

蒙特利尔大学的人工智能研究员、米拉-魁北克研究所的科学主任约书亚·本吉奥（Yoshua Bengio）说：“Yann 谈论这些想法已经有一段时间了。”

“但能在一个大的场景里整合这些是很好的。”本吉奥认为 LeCun 提出了正确的研究方向。

他还认为，LeCun 愿意拿出这样一份答案并不完善的的文件是非常好的。他说，这是一项研究计划，而不是一套完整的结果。

“人们在私下里谈论这些事情，但通常不会公开分享。” 本吉奥说，“这是有风险的。”

一个常识性问题

对人工智能的思考已有近 40 年了。2018 年，他与本吉奥和杰弗里·辛顿（Geoffrey Hinton）共同获得了计算机最高奖图灵奖，以表彰他在深度学习方面的开创性工作。他说：“让机器表现得像人类和动物一样，一直是我一生的追求。”

认为动物的大脑运行着一种模拟世界的方式，他称之为环境模型。这是动物（包括人类）在婴儿时期学会的对周围情况做出正确猜测的方式。

婴儿在出生后的头几个月里，通过观察世界来获取基本知识。看到一个掉落的球落下几次，就足以让孩子知道重力是如何工作的。

“常识”是对这种直觉推理的统称。它包括了对简单物理学的掌握：例如，知道世界是三维的，知道物体在离开视野时并不会真正消失。

它使我们能够预测几秒钟后一颗弹跳的球或一辆飞驰的自行车所在的位置。它帮助我们把不完整的信息连接起来：如果我们听到厨房传来金属撞击声，我们可以据此推测有人掉了锅——因为我们知道什么东西会发出这种声音，以及它们何时会发出这种声音。

简而言之，常识告诉我们哪些事件是可能的，什么是不可能的，哪些事件比其他事件更有可能发生。它让我们可以预见行动的后果，并制定计划——而忽略不相关的细节。

但是，向机器传授常识是很困难的。目前的神经网络，仍需要向它们展示数千上万的例子，才能实现这样的模式。

在很多方面，常识相当于预测接下来会发生什么的能力。“这是智能的本质，”LeCun 说。这就是为什么他和其他一些研究人员一直在使用视频片段来训练他们的模型。

但现有的机器学习技术要求模型能准确地预测下一帧将会发生什么，并逐像素生成画面。LeCun 说，想象你拿起一支笔，然后放手。

常识告诉你，笔会落下，但你不会知道它最终所处的确切位置。预测这一点需要计算一些高深的物理方程式。

这就是为什么 LeCun 现在正试图训练一种这样的神经网络：预测笔会落下，但不具体到如何落下。他认为这种训练过的网络相当于动物所依赖的环境模型。

神秘的成分

LeCun 说，他已经建立了这个环境模型的早期版本，可以进行基本的物体识别。他现在正在努力训练它来进行预测。但他说，配置器应该如何工作仍然是一个谜。将该神经网络想象成整个系统的控制器。它将决定环境模型在任何给定时间应该做出什么样的预测，以及它应该关注什么样的细节以使这些预测成为可能，并根据需要调整环境模型。

LeCun 确信需要像配置器这样的东西，但他不知道如何去训练一个神经网络来完成这项工作。他说：“我们需要想出一个好的配方来实现它，但我们还没有那个配方。”

在 LeCun 的愿景中，环境模型和配置器是更大系统中的两个关键部分，这被他称为认知架构，比如能够主动感知世界的模型，以及采用奖励机制来不断探索和改进AI行为的模型。

LeCun 说，每个神经网络都大致类似于大脑的某些部分。例如，配置器和环境模型旨在复制前额叶皮层的功能。动机模型对应于杏仁核的某些功能，等等。

认知结构的概念，特别是那些受大脑启发的架构，已经存在了几十年。LeCun 的许多关于使用不同细节程度的模型进行预测的想法也是如此。

但是，当深度学习成为人工智能的主导方法时，许多这些旧观念就过时了。他说：“从事人工智能研究的人已经有点忘记了这一点。”

他所做的是采用并复兴这些旧的想法，提出可以将它们与深度学习相结合的方法。对 LeCun 来说，重新审视这些过时的想法是至关重要的，因为他认为现代人工智能的两种主流方法都是死胡同。

说到构建通用人工智能，有两个主要阵营。在一个阵营中，许多研究人员认为，像 OpenAI 的 GPT-3 和 DALL-E 这样的大型语言或图像制作模型的显著成功表明，我们所需要做的就是建立更大更多的模型。

另一个阵营则是强化学习的拥趸，这种人工智能技术会奖励特定行为，使神经网络通过试错来学习。这是 DeepMind 用来训练 AlphaZero 等游戏性 AI 的方法。

这种说法认为，正确的奖励机制下，强化学习最终会实现更多的通用智能。

对此他则不以为然：“我完全不相信这种认为只要扩大当前的大型语言模型，最终就会出现人类水平的人工智能的想法，一秒钟也不信。”他说，这些大型模型只是在操纵文字和图像。

他们没有对世界的直接经验。他同样对强化学习持怀疑态度，即便是简单的任务，它也需要大量的数据来训练模型以完成。“我认为这根本没法工作，”LeCun 说。

DeepMind 的大卫·西尔弗（David Silver）领导了 AlphaZero 的工作，也是强化学习的忠实拥趸，他不同意这一评价，但赞成 LeCun 的整体愿景。他说：“研究一个环境模型的表现形式和学习模式是一个令人兴奋的新方向。

圣达菲研究所的人工智能研究员梅勒妮·米切尔（Melanie Mitchell）也很高兴地看到了一种全新的方法。她说：“我们真的从未看到过深度学习社区出现这么多这样的想法。”她也同意 LeCun 的观点，即大型语言模型不代表全部。她说：“它们缺乏记忆和世界的内部模型，而这些实际上非常重要。”

”然而，谷歌大脑（Google Brain）的研究员娜塔莎·杰奎斯（Natasha Jaques）认为，语言模型仍然应该发挥作用。LeCun 的建议中完全缺少语言，这一点很奇怪，她说：“我们知道大型语言模型非常有效，并且吸收了大量人类知识。”

杰奎斯致力于如何让人工智能相互分享信息和能力，她指出，人类不一定要有直接的经验才能了解一件事。我们可以仅仅通过被告知一些事情来改变我们的行为，比如不要碰热锅。“如果没有语言，我如何更新 Yann 所提出的环境模型？”她问道。

还有另一个问题。如果它们成功了，LeCun 的想法将创造出一项强大的、像互联网一样具有变革性的技术。然而，他的提案并没有讨论如何控制他的模型的行为和动机，或者由谁来控制它们。

蒙特利尔人工智能伦理研究所的创始人、波士顿咨询集团的人工智能专家及负责人阿比谢克·古普塔（Abhishek Gupta）说，这是一个出乎意料的失察。

古普塔说：“我们应该更多地考虑人工智能如何在社会中发挥良好作用，而这需要考虑道德行为等等。”

然而杰奎斯指出，LeCun 想法，而不是实际的应用。米切尔也说：“这种智能不太可能在短期内达到人类水平的智力。

也会同意这点。他的目的是播下新方法的种子，并希望其他人能在此基础上继续发展。“这需要很多人付出大量的努力。” 他说，“我提出这个想法是因为我认为这就是最终要走的路。”至少，他想让人们相信，大型语言模型和强化学习并不是唯一的出路。“I hate to see people wasting their time,” he says.“我不愿意看到人们浪费时间。”他说。

-End-

原文：网页链接

Yann LeCun：大模型只是在操纵文字和图像

作者：DeepTech深科技