为什么英伟达将进入模型领域,而模型将进入芯片领域

发布于: 雪球转发:0回复:0喜欢:6

本次访谈由知名播客节目《20VC》的哈里·斯特宾斯(Harry Stebbings)主持,访谈对象是 Adept 的联合创始人& CEO 大卫·卢安, 他曾在 OpenAI 担任工程副总裁,并在 Google 的 DeepMind 部门工作。

大卫·卢安(David Luan)的核心观点包括:

谷歌大脑堪比当年的贝尔实验室,人才辈出。谷歌大脑的研究文化是,让没有短期目标压力的最聪明的科学家在一起工作,思考技术难题,并且发表论文提交到期刊。这是由研究人员在一个环境中自然互动所驱动的自下而上的研究文化。

在 Transformer 出现后,OpenAI 的研究文化是选择一个重大的未解决的科学问题并尝试解决它,而不是专注于撰写科学论文。 这是研究问题的正确框架,也是建立深度学习的重要部分。

模型扩展与计算分为两个部分。一是简单地扩展模型,投入更多的数据和更多的 GPU。二是即使基础模型本身在某个点停止扩展,让模型通过自我学习变得更聪明。模型改进的关键路径正在转向更广泛的模拟数据、合成数据和强化学习(RL)循环,因此模型扩展越来越贵。 但是模型达到某个提升临界点的啊哈时刻是无法预测的。

在聊天机器人和图像生成器中,生成错误是好事,因为它可以提供解决空白页问题的起点,并带来一些新奇和创造力的元素。然而,代理程序不能出现这样的错误。因此,AI 技术正在分化。

谁控制了模型层,谁就控制了所有底层计算。 当前机器学习中有两个极具影响力的领域:一是能够在边缘设备上运行智能模型,二是拥有最智能的模型。苹果在前者上具有巨大的优势。每个主要的云服务提供商都需要在大语言模型领域取得胜利,因为它们将成为基础计算单元。模型构建者和芯片制造商之间将面临非常强的垂直整合压力。NVIDIA 需要向模型方向发展。

协同驾驶系统对现有企业来说是一个很好的战略, 职场中的人变得更加多面手,同时,他们最终会监督一群专家级的 AI 副驾驶。副驾驶不会按工作定价,而是根据他们增强你做新事物的能力来付费的。

长期记忆问题应由应用开发者来处理,而不是模型构建者。推理问题的解决需要模型提供者层面进行改进,而不仅仅是用户利用专有数据集。解决推理问题的方法是让模型能够组合现有的想法来发现新的想法。

未来的智能代理基本上会像一种非侵入式的脑机接口。 这就是智能代理的未来。每个人都会因此得到增强。

以下是本期播客内容的完整翻译,我们作了不改变原意的删减。

Transformer 的巨大突破

哈里·斯特宾斯

你曾在一些非常出色的公司工作过,其中之一就是 Google Brain。请问,当你回顾在 Google Brain 的经历时,最大的收获是什么?这些收获如何影响了你今天对深度学习的看法?

大卫·卢安

谷歌大脑曾经是一个非常神奇的地方,现在作为 DeepMind 的一部分继续存在。在 AI 研究进展的高峰期,大约在 2012 年至 2018 年之间,每天都有新的论文发表,对世界产生重大影响。

谷歌大脑在这段时间内表现得非常出色,吸引了大量顶尖人才,比如发明 Transformer 和扩散模型的人,以及那些开发了我们今天认为理所当然的新优化技术的人,他们都曾在同一时间在谷歌大脑工作。

可以说,谷歌大脑堪比那个时代的贝尔实验室。 我在这里学到了很多关于如何进行纯粹的自下而上的基础研究的方法,了解了优秀的基础研究应该具备哪些特征。

哈里·斯特宾斯(Harry Stebbings)

什么是自下而上的基础研究?

大卫·卢安(David Luan)

我认为 AI 的发展经历了几个不同的阶段。我喜欢把 2012 年之前的时期称为“早期阶段”。 当然,领域内的前辈们可能不喜欢我这样描述。但在 2012 年之前,我们尝试的大多数技术都没有真正奏效。比如,系统会把羊识别成猫和狗,聊天机器人几乎无法说出连贯的话。

我认为在 2012 年到 2017 或 2018 年之间,深度学习从一种不被看好的技术变成了该领域的主导范式。 在这段时间里,人们通过自下而上的研究取得了进展。

我的意思是,你雇佣最聪明的科学家,他们每天来工作,没有短期目标的压力。他们只是一起工作,思考一些技术难题,比如“如果我们能解决这个问题会怎么样?”或者“我们如何创建一个更好地理解和生成图像的模型?”

他们出于好奇心和对荣誉的追求,可能会花六个月左右的时间进行研究。然后,他们会发表一篇研究论文,发布到 arXiv 并提交到期刊,解决了这个问题。这是巨大的进步。所以我称之为自下而上,因为它是由这些研究人员在一个环境中自然互动所驱动的。

哈里·斯特宾斯(Harry Stebbings) 你接下来打算做什么?未来的趋势会是什么?你提到了 2012 年至 2018 年。你是如何进行这些分类的?

大卫·卢安(David Luan)

2017 年,Transformer 问世。当时我在 OpenAI 负责工程工作,与 Ilya 紧密合作。Ilya 和我坐在一起,他说:“看看这个 Transformer,它是真实存在的,并将成为下一个最重要的技术。让我们整个团队研究如何使用它。”

大多数公众不知道的是,Transformer 是由 Google 发明的,而不是我们在 OpenAI 发明的。Transformer 的意义在于,它是首次出现的一种模型,可以普遍适用于各种机器学习任务。

以前,如果你想理解图像,你会使用卷积神经网络(如 AlexNet);如果你想生成文本,你会使用循环神经网络(RNN);如果你想在围棋中击败人类,你会使用树搜索或强化学习(RL)。因此,你会使用不同的模型来解决 AI 中的不同问题。而 Transformer 则成为了那个时代的通用模型和 AI 的基础。

自从 Transformer 问世后,你不再需要进行非常底层的模型创新,因为它几乎适用于所有任务。然后,你可以利用这个模型去解决真正重大的问题。

哈里·斯特宾斯(Harry Stebbings)

2017 年的 Transformer 是一个巨大的突破,而 ChatGPT 似乎是我们等待多年的消费者级别的突破。为什么在 Transformer 的技术突破和 ChatGPT 的广泛应用之间会有这么长的时间差呢?

大卫·卢安(David Luan)

这是一个非常好的问题。可以说,ChatGPT 就像那只逐渐被加热的青蛙,对吧?Transformer 是一个巨大的突破。

从 2017 年到 ChatGPT 问世的每一年,语言模型都在逐步改进。我记得 Alec Radford 和其他几个人以及我一起开发了 GPT-2。GPT-2 是在 2019 年发布的,我记得当时这个模型终于变得相当智能了。你可以让它写一篇关于某个名人在洛杉矶被捕的新闻文章,它会完美地完成任务,比如描述他们在 Neiman Marcus 商店等细节。我觉得这非常有趣。

但是,有两件事必须发生。首先,模型变得越来越智能,但需要达到一个最低可行的智能水平,才能提供令人信服的体验。其次,它需要以一种消费者可以使用的方式进行包装。

如果你回顾一下,ChatGPT 实际上只是经过指令调优的 GPT-3。我们基本上进行了更多的聊天调优。但 GPT-3 的 API 在 ChatGPT 发布前一年就已经推出了,但只有开发者可以使用它,所以没有给消费者带来病毒式的“啊哈”时刻。因此,包装和智能必须同时存在,才能带来这种多样化的时刻。

哈里·斯特宾斯(Harry Stebbings)

在深入讨论之前,我必须问一下,你提到你在 OpenAI 的经历,你从 OpenAI 获得的一个或两个最大的收获是什么?

大卫·卢安(David Luan)

第一个问题实际上是这样的,回到我们之前讨论的 AI 领域,对吧?我意识到在 Transformer 之后,除了 DeepMind,几乎所有人都认为 AI 的下一个阶段不会是撰写学术论文,而是选择一个重大的未解决的科学问题并尝试解决它。

因此,我们建立了一种文化,不是松散的研究联盟,而是围绕如何解决机器人手部控制问题组建了一个庞大的团队。我们还组建了一个庞大的团队,在全球最受欢迎的视频游戏之一中击败人类。

此外,我们组建了一个庞大的团队,扩展 GPT,直到它成为一个通用的推理和聊天引擎。这与那种非常学术性、好奇心驱动的研究框架完全不同。我认为这是正确的框架,这也是我们现在如何建立深度学习的重要部分。

哈里·斯特宾斯(Harry Stebbings)

重点在于众多科学家集中精力解决现实问题,而不是专注于撰写科学论文。

大卫·卢安(David Luan)

确实如此。这就像从雇佣大约 1000 人研究如何组装小型火箭,转变为创建阿波罗计划。更好的方式是明确目标,比如说,我们的目标是登月,然后雇佣足够多的人来实现这一目标。这与一大群人自发组织起来是完全不同的。

模型性能提升的边际效应

哈里·斯特宾斯(Harry Stebbings)

在谈到模型的演变时,你提到了从 GPT-2 到 GPT-3 的转变。如今,当我们评估模型性能时,有人开始提到边际收益递减的现象,即更多的计算资源并不总能显著提升性能。 我最近采访了一位 AI 领域的知名人士,他们提到 OpenAI 对最新发布的模型在增加计算资源后性能提升不明显感到失望。你认为我们现在确实看到了边际收益递减的现象吗?更多的计算资源是否不再带来更好的性能?

大卫·卢安(David Luan)

我不这么认为,这完全取决于你使用的扩展方式。历史上,从 GPT-2 到 GPT-3 再到 GPT-4 等等,巨型模型的扩展方式是这样的:假设用一个简化的类比,每增加一个 GPU 投入其中,实际上会有递减的回报。但每次 GPU 数量翻倍时,模型性能的提升是非常可预测且一致的。所以这有点像对数曲线与直线的比较。 这取决于你从什么角度看待它。

换句话说,为了扩展一个基础语言模型,你需要将计算量翻倍,这样语言模型才能在可预测和一致的情况下变得更智能。这样说有道理吗?

哈里·斯特宾斯(Harry Stebbings)

当然有道理。实际上,随着计算能力的提升,我们确实会有更多的改进空间。是的,我在节目中邀请了 Alexandr Wang(编辑注:Scale AI 的创始人兼 CEO_)_,他提到瓶颈不在于算法或计算能力,而在于数据对 AI 模型性能的限制。你怎么看?

大卫·卢安(David Luan)

我认为,更好的方法是将模型扩展与计算分为两个部分。一部分是简单地扩展模型,投入更多的数据和更多的 GPU。 如果我们看看 CPU 和数据中心,长期以来,我们有更多的处理器插槽,每年芯片都会以某种可预测的速度变得更好,尽管很多人预测摩尔定律将会失效。你知道,我们已经到了 3 纳米等更小的制程工艺。

实际上,如果你看看可用的计算量,即使单个芯片的性能提升放缓,它实际上仍在继续上升,因为现在我们构建的系统中有多个芯片。所以我们既有单个芯片的提升,也有整体系统的提升。结果是,每年人类可用的计算能力越来越多。

这与巨型模型扩展是一样的,即使基础模型本身在某个点停止扩展,当你投入更多计算资源时,还有一种全新的方法可以让模型变得更聪明,这种方法现在才刚刚被开发出来。这种让模型变得更聪明的新方法不仅仅是让基础模型变大,而是通过自我学习让基础模型变得更聪明。

让我给你一个例子。假设你想训练一个大语言模型(LLM)来更好地解决数学问题。通常的方法是收集大量的、对难题的正解,并将其投入数据集中,然后你会说,模型在这方面变得更聪明了。但更好的方法是,你给正在训练的模型提供一个定理证明的数学环境,比如一个 Jupyter notebook(编辑注:一个开源的 web 应用,主要用于数据清洗和转换、数值模拟、统计建模、机器学习等数据科学领域),并使用一个很多人使用的定理证明库。,给模型直接访问这些工具的权限,让模型进行实验,尝试解决问题,然后反思:你做得好吗?这个问题解决了吗?如果没有,再试一次。这样你就可以让模型在模拟世界中操作,收集正面和负面的数据,了解如何解决数学问题,从而让模型变得更聪明。

所以,第二种提高模型性能的方法现在才刚刚开始被开发出来,这也将消耗大量的计算资源。 因此,我并不担心计算资源随着时间的推移会出现边际效益递减的问题。

哈里·斯特宾斯(Harry Stebbings)

为什么它现在才开始被广泛应用?它的发展历程是怎样的?

大卫·卢安(David Luan)

一切都遵循 S 型曲线,对吧?因此,巨型模型的扩展也遵循 S 型曲线。 在过去的几年里,我们正处于改进最显著的阶段。众所周知,只需将成本从 1 亿美元增加到 2 亿美元,这是向世界提供更智能事物的最快、最简单的方法。然而,现在如果你要进行 10 亿、20 亿甚至 40 亿美元的训练,筹集更多资金来扩大基础模型变得非常困难。

因此,模型改进的关键路径正在转向更广泛的模拟数据、合成数据和强化学习(RL)循环。 我认为这是因为单纯扩展模型变得如此昂贵的自然结果。

哈里·斯特宾斯(Harry Stebbings)

这是否类似于对自己的数据集进行强化学习,不断重复相同的内容直到正确?这样理解对吗?

大卫·卢安(David Luan)

这种理解方式非常好。因此,我认为一个有效的思考方式是,从过去几年的历史来看,随着我们扩展大语言模型(LLM)的规模,我们进行了更多的无监督学习。例如,通过获取更多的数据和优秀记者撰写的文章输入到模型中,使模型变得更智能。

但问题在于,这样训练的模型只能达到训练集中最优秀数据的水平。因为模型的任务是模拟人在特定情况下的行为,所以它无法发现新知识。 然而,根本问题在于,如果你想解决真正的大问题,比如证明未被证明的数学定理,或者在工作中帮助你解决创造性问题,这些问题本质上不在训练集中,因为它们要么是超越人类能力的事情,要么是全新的情况。

哈里·斯特宾斯(Harry Stebbings)

我们没有看到项目如预期那样进展,这是因为很多人所执行的任务实际上并没有被数据记录。这些任务被记录在对话中、会议室里和白板上。

大卫·卢安(David Luan)

是的,我认为这是一个关键的见解。聊天机器人,如 ChatGPT,以及代理程序正在逐渐演变为不同类型的技术。我认为它们在非常不同的方式上各有用处,并且所需的条件也截然不同。

举个具体的例子,生成错误的问题。在聊天机器人和图像生成器中,生成错误其实是件好事,因为它可以提供解决空白页问题的起点,并带来一些新奇和创造力的元素。 然而,代理程序则不同。如果你希望某个程序能持续处理税务或货运集装箱等事务,你肯定不希望它随机生成错误并编造内容。因此,这些技术正在以一种有趣的方式分化。

哈里·斯特宾斯(Harry Stebbings)

你之前提到过最低可行能力及其与模型规模的关系。当时你说这些的时候,我完全不理解你的意思。所以我希望你能详细解释一下。

大卫·卢安(David Luan)

最吸引我的部分,也是我喜欢从事 AI 工作的原因,是作为一名工程师或研究人员,每天都像是在揭示智能运作的秘密。这与传统编程有很大不同。作为程序员,我上班时会想,这就是我要构建的东西。我知道我能构建它。如果我足够聪明,我可以解决问题,并且确切知道我构建的系统会如何运作。

但 AI 的魅力在于,每天你来上班,对模型进行一些调整,结果却常常是不可预测的。你感觉自己更像是一个园丁,而不是工程师。 真正令人兴奋的是,随着这些 AI 系统变得越来越大,架构和数据集的改进,你无法完全预测模型的表现。

你可以有一些估计,但回到早期,当我们训练 GPT-2 时,我们在不同大小的模型上进行训练。在最小的模型上,模型无法进行三位数的算术运算。但随着模型变得越来越大,我们没有改变其他任何东西,只是使用了更多的数据,然后让模型变大。然后在某个特定的大小上,模型从无法进行三位数算术运算到非常擅长并且可以预测地改进三位数算术运算。这种“啊哈”时刻是我们事先无法预知的。

这就是我所说的最低可行能力以及它如何是模型规模的函数。我们希望这些模型能够做一些事情,比如成为真正有用的代理,或者帮助我们在科学上发现新事物。但今天很难说,如果我在这个模型上花费 20 亿美元的计算资源并拥有正确的数据,这些事情就会发生。我认为这就是为什么从事这个领域如此酷的原因。

大模型的推理与记忆

哈里·斯特宾斯(Harry Stebbings)

在考虑机器学习模型的实际改进时,这些改进通常会带来性能的提升。我认为有三种方式可以实现这一点,其中之一是在推理方面取得突破。你如何看待在推理方面取得突破的可能性?这需要哪些条件,以及这是否是一个合理的期望?

大卫·卢安(David Luan)

推理在 AI 领域中是一个挑战。我认为我们中的许多人对如何解决这个问题有类似的想法,但实际上需要进行一些新的研究。因此,现在从事 AI 工作非常有趣,因为众所周知,扩展巨型模型是一个问题,这实际上取决于资源。因此,你不需要成为天才就能开发新产品,只需进行模型扩展。但我认为模型扩展并不能解决推理问题。

在我看来,推理的定义是能够组合现有的想法来发现新的想法。这不是通过简单地让大语言模型(LLM)复述互联网上的数据来实现的。我们解决推理问题的方法是回到我们之前讨论的内容,比如以定理证明为例。你希望模型能够访问一个定理证明环境,并进行尝试,就像人类数学家坐下来思考一样,比如说,我知道这些关于世界的事实,我如何组合它们以证明我想证明的东西?

哈里·斯特宾斯(Harry Stebbings)

是模型提供者在解决推理问题,还是用户利用专有数据集来解决推理问题?究竟是哪一方在处理这个问题?

大卫·卢安(David Luan)

我认为需要在模型提供者层面解决推理能力的问题。这是因为你不仅仅是在使用模型进行推理,而是试图提高模型的推理能力,这意味着需要对模型本身进行改进。

哈里·斯特宾斯(Harry Stebbings)

这是否意味着我们不会看到模型的商业化?大家都在谈论它的商业化。我们只是会在不同模型之间切换,就像切换底部标签一样。这是否意味着实际上这种情况不会发生?

大卫·卢安(David Luan)

不,我实际上认为解决这些推理技能是每个大语言模型(LLM)参与者的路线图上的一部分。 我确实认为大语言模型的参与者不会有那么多。我猜测,长期来看,可能会有 5 到 7 个最大规模且稳定的大语言模型提供商,因为涉及的成本非常高。推理只是这些公司必须解决的另一个高成本问题。但我认为他们都会解决这个问题,因为我认为解决推理的方法在我们领域中已经被许多人大致了解了。 我对此相当有信心。

哈里·斯特宾斯(Harry Stebbings)

你对解决推理问题有何看法?

大卫·卢安(David Luan)

这是我们之前讨论的内容:训练一个基础模型,让它在各种环境中解决难题,并结合人类输入来评估其表现。我认为这能解决推理问题。

哈里·斯特宾斯(Harry Stebbings)

为什么没有人能够解决记忆问题呢?人们经常谈论这个问题,恕我直言,这让我感到困惑,因为计算机本身就具备记忆功能。为什么记忆在人工智能领域会成为如此大的挑战?

大卫·卢安(David Luan)

记忆可以分为两种类型:一种是工作记忆,另一种是长期记忆。我认为在工作记忆方面,人们已经取得了显著的进展。比如说,Gemini 的上下文长度大约达到百万级,甚至可能更多。具体数字我记不太清了,大概是 100 万个 tokens。这非常了不起,因为你可以输入长视频片段,然后让它逐步描述视频中某人做菜的每一步,它都能做到。这些进展非常惊人,主要是因为计算资源的限制使得这方面最为困难。

然而,我认为长期记忆的问题,回到我之前提到的另一件事,这也是为什么我对应用开发者更感兴趣,而对模型构建兴趣稍微少一些的原因。 人们已经意识到,大语言模型(LLM)本身并不是一个产品。一个真正的产品是一个完整的使用 LLM 的软件系统。

例如,我们应该找到方法,让应用开发者能够负责构建用户偏好的长期记忆。 举个例子,假设我正在建立一家面向消费者的旅行助手公司,我应该能够告诉它,“嘿,我真的讨厌靠过道的座位,因为有一次有人在飞行中把行李箱掉在我头上,我得了脑震荡。永远不要再给我预订靠过道的座位。”这种长期记忆应该由应用开发者来处理,这是更大系统的一部分。

模型和芯片的垂直整合

哈里·斯特宾斯(Harry Stebbings)

我喜欢这个观点。关于大语言模型(LLM),它本身并不是一个产品。你提到会有 5 到 7 个主要供应商胜出。那么,胜出的供应商与那些未能胜出的供应商之间的区别是什么?这仅仅是资源和资金的竞争吗?

大卫·卢安(David Luan)

我认为这是一场关于生存需求的胜利游戏。每个主要的云服务提供商都需要在这里取得胜利,对吧?让我们看看其中的动态。当这些模型变得越来越智能时,它们将成为基础计算单元。就像今天的基础计算单元是 EC2 上的计算节点或存储一样,对吧?

但在未来,随着越来越多的软件逻辑由大语言模型(LLM)处理,没人再关心基础计算单元是什么。你只需要访问并组合这些模型来为客户解决问题。所以,谁控制了模型层,谁就控制了所有底层计算。

现在的情况是,如果你在这方面没有最先进的产品,就会被排除在这个领域之外。我认为这也是 NVIDIA 等公司需要向上发展的一个重要领域。 NVIDIA 现在在芯片方面表现出色。但每个主要的云服务提供商和大语言模型提供商都在制定策略,开发自己的内部芯片,以获得更好的利润率。

所以最终,如果你是一个开发者或者终端用户,通过任一提供商与 ChatGPT 交谈,你会在意后端是 NVIDIA 芯片、AMD 芯片还是 Google 的内部芯片吗?你并不在意。因此,LLM 的接口是一个非常关键的点,它在下游的一切上都带来了巨大的杠杆作用。

哈里·斯特宾斯(Harry Stebbings)

你认为我们会看到垂直整合的趋势吗?在最近的发布会上,苹果强调了自家芯片的重要性。你认为 NVIDIA 会在模型和芯片层面取得显著地位,并且双方会从不同角度蚕食对方的市场吗?

大卫·卢安(David Luan)

从商业角度来看,AI 的有趣之处在于,它迫使我们思考哪些公司或产品会被整合,哪些会被拆分。我认为,模型构建者和芯片制造商之间将面临非常强的垂直整合压力。

最近,这个行业发生了很多引人注目的事情。我们刚才提到,模型制造商控制自己的芯片是多么重要,如果这真的是一个规模和资源的游戏,比如说,假设公司 A 选择了 Google 的 TPU(Tensor Processing Unit),TPU 非常出色,对吧?TPU 有 20%的成本优势。

相比之下,公司 B 使用芯片 Y,那么 Google 就能够通过更低的模型训练成本,进行更大规模的投资,并在训练后进行更多的优化,从而获得优势。因此,公司 B 将面临巨大的压力,必须找到自己的解决方案。同样地,如果你是一个芯片制造商,但在模型方面没有任何优势,那么你很容易被这些内部努力所商品化。

哈里·斯特宾斯(Harry Stebbings)

比如,当你想到 NVIDIA 及其所做的事情时,他们讨论模型的大小是否简单?是否没有那么复杂,以至于这些人实际上很难进入芯片计划?

大卫·卢安(David Luan)

NVIDIA 就做得非常出色。虽然这确实非常难,但并非不可能。如果经济回报足够高,人们就会去做,不是吗?所以我认为 Google TPU 是一个很好的例子。我是 NVIDIA 的超级粉丝,Jensen 非常了不起,是个天才。我认为 NVIDIA 在这方面执行得非常好。

不过,我们也必须给予 TPU 团队一些赞誉。当我在 Google 工作时,TPU 团队大概不到 500 人,预算也非常紧张。然而,他们每一代都能设计出相当不错的芯片,这些芯片被用来训练 Gemini 和 Palm,现在也被第三方使用。Google 有如此强烈的意愿确保拥有自己的第一方芯片,我认为这是对持续芯片主导地位的一个反例。

哈里·斯特宾斯(Harry Stebbings)

有人告诉我,苹果实际上是这场竞赛中的一匹黑马,因为他们显然拥有大量消费者和用户设备,可以在每个人的设备上本地运行模型,而不依赖云端或外部服务器。你怎么看?

大卫·卢安(David Luan)

考虑苹果在这个特定领域的优势。我认为当前机器学习中有两个极具影响力的领域:一是能够在边缘设备上运行智能模型,二是拥有最智能的模型。因此,我认为苹果在前者上具有巨大的优势。

至于这是否足够,我认为很难回答,因为这涉及到模型能力的层次。举几个具体例子,比如一个拥有 10 亿参数的模型,如果训练得当,可以在某些能力上表现出色,而在更高层次的能力上表现一般。所以,对于判断一条推文是正面还是负面这样的基本任务,你不需要 GPT-10 来完成,一个相对较小的模型就可以完美胜任。这类任务通常会在边缘设备上运行。

因此,如果你是一个前沿模型提供商,你无法通过这些将在边缘设备上运行的小技能来盈利。相反,一个拥有 10 亿参数的模型可能在一段时间内无法为我的汽车生成 3D 零件,这可能是 GPT-10 的问题。因此,我认为苹果将在所有看起来非常私密、针对个人数据进行微调但不需要大量推理能力的任务上完全占据优势,而这些任务都将在边缘设备上运行。

哈里·斯特宾斯(Harry Stebbings)

我能问你一个问题吗?我对苹果与 OpenAI 的合作感到非常惊讶,因为他们的合作关系显得非常松散。他们不断强调会保持与其他人的关系,并明确表示会灵活地与不同合作伙伴合作。当我听到这个消息时,感觉这是一个负面消息。我很好奇,你听到这个消息时是什么感受?

大卫·卢安(David Luan)

我对 OpenAI 印象深刻。从技术交付的角度来看,我认为 GPT-4 的实际技术改进程度被低估了。 我们正迈向一个训练通用模型的时代,这些模型可以处理音频、文本、视频等各种输入,并生成任何形式的输出。人类的所有知识都将被这些模型编码。

GPT-4 在这方面的进步远超人们的预期。因此,我认为苹果与 OpenAI 达成协议,虽然具体细节我并不清楚,但至少部分原因是认识到 OpenAI 在模型进展方面走在了不同的道路上。这也强烈暗示了一个商品化的未来前景。

就像今天的消费者不再关心电脑是由 AMD 还是 Intel 的 CPU 驱动一样,苹果试图掌控用户界面和终端客户,而语言模型智能只是一个热销品,这对他们来说是非常聪明的策略。

哈里·斯特宾斯(Harry Stebbings)

在讨论应用层之前,你认为我们是否应该先讨论基础模型?比如,这些公司是否会被收购?Luan,你提到了一些核心公司,比如 Anthropic 和 Mistral,它们已经筹集了数十亿美元的资金,在这个层面上会发生什么变化呢?

大卫·卢安(David Luan)

我认为,所有一线云服务提供商都会全力以赴并取得成功,因为他们必须这样做。他们会不惜一切代价确保拥有资本、数据、飞轮效应机制和人才来实现这一目标。对于独立公司来说,情况则有所不同。

我们所做的是向企业销售直接面向终端用户的代理产品,这与向开发者销售模型的商业模式非常不同。而那些向开发者销售模型的公司,要么需要有效地成为这些大云服务提供商的第一方合作伙伴,要么在实现规模化之前迅速建立起足够大的经济飞轮,以保持独立。

哈里·斯特宾斯(Harry Stebbings)

如何构建如此庞大的经济体系?我只是想了解一下,比如一个优秀的企业进入市场后,能够产生 50 亿的自由现金流。

大卫·卢安(David Luan)

我认为它应该是那样的。这也是为什么我对独立基础模型公司(除了 Adept 之外)感兴趣的原因。我更关注像 OpenAI 这样的公司,因为他们有 ChatGPT,可以帮助实现这一目标。如果你只是一个纯粹的模型销售商,我认为这会非常困难。或许吧。

哈里·斯特宾斯(Harry Stebbings)

你们会认为 Adept 是一家基础模型公司吗?还是说你们并不这样认为?你们如何看待自己的定位?

大卫·卢安(David Luan)

我们实际上只专注于解决这个特定问题。我们正在尝试构建一个可以委派各种工作任务的 AI 代理,对吗?因此,我们所做的一切都基于这一点。我们并不是在训练基础模型然后出售,而是在构建一个高度垂直整合的系统。 这与我们之前讨论的垂直整合会发生在哪里的问题有关。

我认为在代理领域,拥有从终端用户界面到基础模型层的整个系统是极其重要的。就像我们之前谈到的苹果的例子,在这个 AI 时代,拥有界面给了你巨大的杠杆作用。无论是如何制作足够可靠的代理以用于工作,还是基础模型层需要做出什么调整以使整个端到端系统达到最佳性能。Vertical 说,这就是我们正在做的事情。

哈里·斯特宾斯(Harry Stebbings)

您如何看待电力行业中代理需求的变化?这种变化与以往有何不同?

大卫·卢安(David Luan)

我们的优势就在于此。我们致力于构建一个任何人都能使用的系统,并希望成为企业工作流程的记录系统。对于大公司的员工,我们会教他们如何处理特定任务,例如处理保险索赔的数据获取。我们会展示给他们,然后系统会自动完成这些任务。这种泛化能力,以及处理所有边缘情况和变异性的能力,是我们需要将模型与用例垂直整合的原因。 这也是为什么我认为我们会比那些只专注于某个垂直领域或特定问题的公司做得更好。

正如我与前 Twitter CEO Parag Agrawal 聊天时,他提到的那样,每个企业的工作流程都是一个边缘案例,他说得非常对。这就是为什么你需要对它进行控制。

哈里·斯特宾斯(Harry Stebbings)

他的意思是什么?你能帮我解释一下吗?

大卫·卢安(David Luan)

即使是在 Salesforce 中添加新线索这样简单的事情,对吧?你可以找到 10 家使用 Salesforce 的不同公司,看看他们的配置方式,你会发现每家公司的配置都完全不同。

智能代理与 RPA

哈里·斯特宾斯(Harry Stebbings)

那么你能帮我理解一下传统 RPA 和我们今天看到的新型自动化工具之间的区别吗?

大卫·卢安(David Luan)

这是一个非常好的问题。实际上,这个问题曾经让我非常头疼,因为我发现很难向人们解释为什么智能代理与机器人流程自动化(RPA)不同。

我能想到的最佳类比是,RPA 对于那些高频率且重复的任务非常有用。举个例子,我会用这样的类比:RPA 就像你走进一个工厂车间,那里到处都是机器人。这些机器人沿着地板上的黄色线,从一个工作站移动到另一个工作站,拾取物品。

但智能代理不同,智能代理旨在每一步都不断思考、重新评估和规划,以实现你的目标。这更像是完全自动驾驶。这两者在实用性上的差异相当大,当然有很多领域你不希望有太多变动,因此你应该使用 RPA。

但我认为,大多数情况下,在未来五到十年内,人们会通过给计算机设定高层次的目标来使用它们。

哈里·斯特宾斯(Harry Stebbings)

世界上最大的企业会同时运行基于代理的系统和机器人流程自动化(RPA),RPA 是否是为现有客户提供代理解决方案的最佳选择?

大卫·卢安(David Luan)

这对他们的商业模式来说是一次彻底的颠覆。比如,大公司通常使用 UiPath 进行大型流程改造项目(编辑注:UiPath 是一家全球领先的机器人流程自动化(RPA)软件公司),有时像埃森哲(Accenture)那样,先进行流程识别,然后我们的 RPA 工程师再去构建这些工作流程。六到九个月后,你就可以上线这个系统,每晚自动处理一些发票等工作。

而新的模式是,你只需部署一个代理,代理会观察终端用户如何完成工作,然后你可以用自然语言执行这个过程。这对现有的商业模式是一个巨大的颠覆。 我认为,绕过现有企业的最佳方式是采用与他们不同的商业模式。

哈里·斯特宾斯(Harry Stebbings)

你的商业模式有哪些独特之处?

大卫·卢安(David Luan)

我们目前的做法是首先解决那些非常棘手的使用案例,以此打开局面,但我们真正关注的是如何让最终用户掌握新功能。比如,我应该能够详细输入我的标准操作程序,针对团队的新任务。我应该能够向系统演示十次,并指导如何在美国的医疗门户网站上注册新护士,然后模型应该能够为我完成这项任务。基本上,我们正在开发一种最终能够自助服务的系统。

哈里·斯特宾斯(Harry Stebbings)

大家都在谈论我们将出售成果而非工具。这似乎是目前最热门的观点,意味着按座位定价(per-seat pricing)将终结,我们都在转向基于使用量的定价模式。你同意这种说法吗?你怎么看待这种由 AI 引发的商业模式和定价的根本性转变?

大卫·卢安(David Luan)

在某些情况下,我认为这确实会实现。但在知识工作中,最有价值的事情不会以这种方式定价。原因如下:按工作定价的定义假设了重复性、商品化、模板化,没有创造性,对吧?但我认为这些 AI 系统,尤其是 AI 代理,将赋予人们做新事物的能力,并大大提高他们的时间利用效率,从而给他们更多的机会去发挥创造力。因此,最终我们构建的是一个副驾驶或队友,而副驾驶和队友不会按工作定价。实际上,你是根据他们增强你做新事物的能力来付费的。

哈里·斯特宾斯(Harry Stebbings)

你提到他们采用了一种类似副驾驶的角色。我在节目中有位嘉宾说,副驾驶这种方法在基准测试中表现得非常出色。那么,副驾驶是一种利用现有分发渠道的策略,这样说公平吗?还是你认为这实际上没有给予副驾驶应有的认可?

大卫·卢安(David Luan)

我认为这两件事都可能是真的。协同驾驶系统对现有企业来说是一个很好的战略,因为它们可以将现有的软件商业模式与类似的东西结合起来,同时涉足 AI 领域。

但即使不考虑这一点,我也在思考这些系统最有用的地方在哪里。我觉得这个领域的每个人都有一个愿景,即 AI 将取代所有工作。按工作定价的概念只是 AI 取代所有工作的一个推论,因为这样的话,也许你可以按工作定价在发票上,然后下个月你可以按工作定价在咨询报告上,再然后你可能会按工作定价,例如成为某个公司的 AI CEO。

我不认为事情会这样发展。我认为事情的发展路径是,人类将成为这些代理系统的主要驱动力,这些系统会极大地提升每个人的创造力。

哈里·斯特宾斯(Harry Stebbings)

这会对团队的组织结构产生什么影响?这是否意味着公司会缩小规模或发生其他变化?你认为这实际上会如何演变?

大卫·卢安(David Luan)

我认为主要的表现形式实际上是这样的,这个观点是我从我们的天使投资人 Scott Belsky 那里借用来的,他对此有很多思考。他总是称之为“人才堆栈压缩”。

基本的想法是,在项目和团队中,同一个人同时担任产品经理、设计师、工程师、市场营销人员等多个角色。一个人具备的技能越多,项目推进得越快,效果越好。因此,我认为这将使职场中的人变得更加多面手,并且会导致人们在不同领域承担更多职责,而这些领域在今天是不同的职能。同时,他们最终会监督一群专家级的 AI 副驾驶。

哈里·斯特宾斯(Harry Stebbings)

肖恩,我想谈谈推广问题。我认为我们高估了企业的采用速度。你觉得我们还处在企业采用的试验阶段,还是已经进入了成熟的企业采用阶段?

大卫·卢安(David Luan)

我觉得,哈里,我们应该在 10 年后重听这个播客,看看我们的看法是否有所改变。当我们谈论 AI 时,AI 的应用范围实在是太广了。这有点像我们在互联网早期讨论互联网的整体情况。

我认为,有些用例在企业中显然已经达到了产品市场匹配度(PMF),但大多数情况下,当我们向企业推销产品时,他们仍然有很多东西是本地部署的。他们仍然在使用主机系统运行其工作流程,而现在已经是 2024 年了。

所以我认为,即使是像云技术这样从初创公司的角度看起来非常成熟的技术,在企业中仍然尚未完全普及。我觉得这些现象真的很有趣。因此,我认为我们将在企业 AI 的采用曲线上走很长一段时间。

哈里·斯特宾斯(Harry Stebbings)

所以我们仍然处于预算实验阶段。

大卫·卢安(David Luan)

我认为,大部分内容都是实验性的。比如,我们尽量避免在实验预算下签署合同,因为我们希望获得更高质量的收入。

哈里·斯特宾斯(Harry Stebbings)

你是否认为我们通常高估了企业在短期内的采用率,而低估了长期内的采用率?

大卫·卢安(David Luan)

我认为这对大多数新技术来说都是如此,但在这种情况下尤其明显。

哈里·斯特宾斯(Harry Stebbings)

我非常喜欢 Alex 的作品。他最近发表了一篇关于新技术炒作周期的文章,表达了对 AI 可能像自动驾驶技术一样陷入停滞的担忧。大约 10 年前,我们对自动驾驶技术充满期待,认为这会导致 800 万卡车司机失业。但我想问的是,我们会看到类似的停滞吗?在过去的 10 年里,自动驾驶技术似乎进展不大。你怎么看这个问题?

大卫·卢安(David Luan)

虽然我从未在自动驾驶领域工作过,但如果我应用一个心理模型,你可以告诉我是否符合实际。我觉得在自动驾驶领域,曾经有一个“顿悟时刻”,你知道,你可以让系统工作,然后你会想,好吧,现在它能工作 60%的时间。我们如何让它每天都能达到 99.99999%的可靠性?每天上班时,你只是在解决那些不工作的部分,期望它能达到 99.9999% 的可靠性。但这对当前的 AI 来说并不适用。

抱歉,我说的是专门针对构建越来越智能的模型和代理系统,这些系统最终帮助你完成工作。我要说的是,对于构建这些系统来说,当前的基本情况并不是这样。每天我们上班时,实际上都有全新的科学实验,这些实验显著提高了模型的性能。有些实验不起作用,但有些实验确实有效。我认为我们之前讨论的推理就是一个例子。

另一个例子是像这种通用多模态性,这应该是 4.0 版本的突破,这些突破是可见的。因此,我认为避免这次仅仅成为一个夸大其词的周期并最终失败的关键在于,这些突破还未完全实现。当它们实现时,这些模型的能力将继续提高。而且,重要的是,这些技术已经在使用中。你不需要等到它们达到某种可靠性水平才能部署,它们已经在部署中。

哈里·斯特宾斯(Harry Stebbings)

今天,我们谈到部署和企业采用时,我在推特上提到,AI 服务公司,也就是那些帮助大型企业实施 AI 的公司,其收入将超过模型提供商。事实证明,我是对的。当这些收入数据公布时,一些知名人士称我为先知,这让我非常高兴。你怎么看未来五年内,AI 服务提供商的收入会超过模型提供商?你认为在这个周期中,最大的玩家会是 AI 服务提供商吗?

大卫·卢安(David Luan)

我认为,第三类经济效益还处于早期阶段。这类公司将具有市场契合度的产品转化为可重复使用的产品。想象一下,你是一家大公司 X,需要功能 Y,而你拥有一个先进的基础模型,比如 GPT-4 或 Gemini。中间存在一个巨大的鸿沟。在每一个这样的案例中,我认为最初填补这个鸿沟的方法类似于咨询服务提供商。

然而,一旦这个鸿沟开始被填补,你就会发现这对企业非常有用,随后人们会将其产品化,最终形成一家初创公司。这样,这家公司就成为基础模型和客户之间的桥梁。所以今天,这可能适用于服务,但我认为很多这些东西将会被转化为通用产品。当它们被转化时,这些公司将成为真正的经济受益者。

开放还是封闭

哈里·斯特宾斯(Harry Stebbings)

David,我有两个担忧,其中一个让我夜不能寐,甚至已经让我长出了不少皱纹。

大卫·卢安(David Luan)

不过,你知道,他也想把这些都记录下来。

哈里·斯特宾斯(Harry Stebbings)

什么?我的记忆力很重要,好吧。这是年老带来的挑战。不过你知道,欧洲的监管机构专门研究这个问题。我担心的是,我们可能会在日常数据收集方面过度监管,导致不良后果。实际上,这些模型和 AI 并没有按照我们希望的方式进展。你怎么看这种情况?这种情况有多大可能发生?你希望在监管环境中看到哪些变化?请给我一些安心的建议。

大卫·卢安(David Luan)

我现在主要担心的是监管被俘的问题。正如我们之前讨论的那样,最终只有少数前沿模型公司能够存续。我认为这些公司已经开始采取措施,设置障碍,阻止其他公司追赶。此外,我认为立法者对这项技术了解不深,因此他们通常会听取最权威的意见。然而,这些权威意见往往有着不同的隐藏动机。所以,我对此感到担忧。

哈里·斯特宾斯(Harry Stebbings)

在那种情况下会发生什么?

大卫·卢安(David Luan)

在开源领域进行构建变得更加困难。对于那些有新 AI 想法的新公司来说,启动、训练和扩展将面临更多挑战。我认为这实际上是权力的进一步集中。

哈里·斯特宾斯(Harry Stebbings)

我运行了程序,但由于找不到 Lena,这对我来说是个问题。你提到了一种基于开放平台的能力。我还有一个担忧,我们曾邀请 Alex Wang 参加节目,他曾说过,AI 的威力超过核武器。而且在错误的人手中,特别是 AGI(通用人工智能),它可能成为史上最致命的武器。基于这个原因,我们或许应该有更多封闭的系统。你如何看待开放与封闭系统的争论,尤其是在一些最关键的决策 AI 系统是否应该是封闭的?

大卫·卢安(David Luan)

我认为有两点值得注意。首先,关于使用、误用和安全性的广泛关注非常重要。我认为这件事的一个好处是人们更加公开地讨论这些问题,这一点我非常赞赏。

在许多系统中,误用的方式已经显而易见,比如启动大量服务器,使用最好的代码模型,尝试发现软件系统中的漏洞。如果这种情况已经发生,它将真正开始加速发展。这类问题让我非常担忧。

同时,我认为 AGI(通用人工智能)是一个非常难以推理的概念,因为许多人几乎将其定义为无限。而推理无限是非常困难的,因为即使你将无限乘以 0.01%,它仍然是无限。因此,我认为更好的方式是看路径依赖性,比如这项技术在未来五年内将如何实际发展。

我认为在未来五年内,开放系统总是会落后于封闭系统,因为开放系统背后的资源更少,人们也缺乏动机去使事物开放。 随着这些技术变得越来越昂贵,我认为开放实际上是让整个领域跟上最大现有企业的一种方式。因此,我认为这实际上是相当不错的。

哈里·斯特宾斯(Harry Stebbings)

你提到在人类思维中,AGI(通用人工智能)在某种程度上是无限的。你之前对我说过,最后一步是人机交互,这是 AGI 的最后一个组成部分。在我们深入讨论之前,你能解释一下这是什么意思吗?我对此不太明白。

大卫·卢安(David Luan)

我个人认为,一个充满越来越多具有一般智能的系统,并且这些系统拥有自主性和目标,却不涉及人类最关心事务的世界,并不是我想要生活的世界。这可以回到你之前提到的关于将 AI 作为工作工具与作为软件工具销售的问题上。

我更愿意生活在一个我们与这些 AI 队友和助手互动的世界中。我认为问题在于,如何找到更智能的 AI 系统与人类之间的合适接口? 这个接口的定义实际上会极大地影响你收集的训练数据。人类如何使这些系统与人类的偏好对齐?此外,最终,这些模型是如何构建的,它们的架构是什么?所以,从某种奇怪的方式来看,这个领域的发展方向是让模型变得更智能,然后让用例变得更智能,再将它们交到人们手中,最后弄清楚这对人们意味着什么。

这是一种瀑布式的顺序方法,我认为这不是开发技术的好方法。我认为我们应该从头开始,首先考虑人类最终应该如何使用这些东西,然后以这种方式创建整个端到端的解决方案。这就是为什么在 HCI(人机交互)问题上,人们没有花足够的时间去思考,显然聊天并不是解决方案。

哈里·斯特宾斯(Harry Stebbings)

这种思维方式是错误的。你认为有哪些问题是人们没有问到,但应该多问的呢?

大卫·卢安(David Luan)

随着这些模型变得越来越智能化,它们对世界的理解也越来越深入,执行任务的能力也越来越强。你如何与它们互动?你如何监督它们?你如何纠正它们并教导它们以更符合你的期望?我认为这些问题非常重要。

哈里·斯特宾斯(Harry Stebbings)

抱歉,我说话比较直接。但这不就是最基本的提示吗?

大卫·卢安(David Luan)

当你和同事一起工作时,不仅仅是进行对话。你们实际上会共享同一个工作空间,使用白板或共同查看电脑屏幕上的内容,然后尝试一起解决问题。人类的互动远比写一套指令然后说“做这个事情”,失败后再稍微调整指令要丰富得多。尤其是随着这些系统变得越来越智能,这种互动方式显得非常不合适。此外,我们也没有花足够的时间去探索与这些系统互动的最佳方式。

哈里·斯特宾斯(Harry Stebbings)

我准备了一些问题。我想快速进行一个问答。我会说一个简短的陈述句,你立即给出你的想法。可以吗?

大卫·卢安(David Luan)

请提供需要审阅和纠正的翻译内容,我将根据上述工作流进行审核和修正。

哈里·斯特宾斯(Harry Stebbings)

如果你在过去的 12 个月里对大多数事情的看法都发生了改变,该怎么办?

大卫·卢安(David Luan)

我们之前讨论过这个话题,我认为代理软件和聊天机器人将会分化并演变成两个不同的领域。

哈里·斯特宾斯(Harry Stebbings)

你觉得这个产品怎么样?

大卫·卢安(David Luan)

我认为你将会与这些越来越智能的系统进行更多互动,这些系统可以为你处理一些任务。此外,你还会有其他系统用于治疗或娱乐等用途。

哈里·斯特宾斯(Harry Stebbings)

人们对未来十年人工智能最大的误解是什么?

大卫·卢安(David Luan)

最大的误解在于认为每一步都将取代人类的能力,实现完全自动化,就像当前 AGI(通用人工智能)的隐含目标是取代人类工作一样。 但实际上,我认为 AI 并不能完全涵盖人类工作的许多方面。相反,AI 将成为提升人类智能的工具。

哈里·斯特宾斯(Harry Stebbings)

你对未来智能代理的愿景是什么?如果一切按计划进行,五年后的智能代理将会变得更加智能和自主,能够更好地理解并满足用户的需求。

大卫·卢安(David Luan)

未来的智能代理基本上会像一种非侵入式的脑机接口。我认为这就是智能代理的未来。每个人都会因此得到增强。 你知道,这种感觉就像从 DOS/命令行界面过渡到图形用户界面(GUI),但这次是从 GUI 过渡到智能代理。我们将以目标为导向,与它们进行高层次的互动。它们基本上会让我们拥有新的思维方式,比如在现有基础上进行更高层次的抽象推理。

哈里·斯特宾斯(Harry Stebbings)

对为什么这种情况不会发生的预先分析,以及为什么在 5 年后代理不会那样。最可能的原因是什么?我认为最可能的原因是[具体原因]。

大卫·卢安(David Luan)

这种情况不会发生,因为现有企业从根本上重新定义了软件的捆绑方式,就像代理人一样。今天,我们以功能性方式捆绑软件,比如用 Notion 或 Google Docs 管理文档,用 Salesforce 管理销售,用 Workday 管理人力资源和其他事务。而我们的工作基本上覆盖了所有这些不同的领域,代理人应该连接这些领域。否则,你就无法成为一个更高层次的存在形式。因此,如果我们被现有企业封闭的生态系统所限制,这个愿景就无法实现。

哈里·斯特宾斯(Harry Stebbings)

这听起来像是非常糟糕的风险投资(VC)心态,但当你看到像 UiPath 这样的公司如今已经成为市值 60 到 70 亿美元的企业时,难道不觉得有更大的机会可以追求吗?这家公司用了 17 年,甚至 19 年,才达到市值 70 亿美元并拥有数十亿美元的收入。你是一个非常聪明且有抱负的人,这样的投入感觉需要大量的时间和精力。如果做得好,价值实现仍然是这样的。

大卫·卢安(David Luan)

我认为问题在于,今天的工作中有多少比例可以通过 RPA(机器人流程自动化)来完成?这个比例非常小,对吧?那么,今天的工作中有多少比例可以通过智能代理系统来完成?这个比例大概是前者的 1,000 倍,甚至可能是 10,000 倍,我不确定,但大致是这个数量级。这是一个完全不同的领域。这就像在自动驾驶技术还不存在的时候,讨论我们是否应该研究自动驾驶,然后再看看那些用于仓库的自主移动机器人。