【智能前线】第2期：Transformer七周年专辑，Transformer 幕后故事本期智能前线，作为Transformer七周年专辑，选择《连线》杂志、英伟达创始人黄仁勋，在论文《Attention...

本期智能前线，作为Transformer七周年专辑，选择《连线》杂志、英伟达创始人黄仁勋，在论文《Attention is All You Need》发布临近 7 周年之际，分别访谈Transformer幕后作者纪要，深入了解Transformer诞生幕后故事。

2017年，具有里程碑意义的论文《Attention is All You Need》横空出世，首次引入基于自注意力机制的Transformer模型，摆脱传统RNN与CNN束缚，通过并行处理的注意力机制，有效克服长距离依赖的难题，显著提升序列数据处理速度，在AI领域掀起一场风暴，ChatGPT正是基于这一架构构建。

这项创新成果，源于8位曾在谷歌工作的AI科学家共同努力。他们最初目标非常简单，改进谷歌机器翻译服务，希望机器能完整理解并通读整个句子，而不是孤立逐词翻译。这一理念成为Transformer架构起点，自我注意力机制。在此基础上，8位作者发挥各自专长，2017年12月发表论文《Attention Is All You Need》，开启生成式AI新篇章。

Transformer 7周年幕后故事，8子之一Shazeer曾建议谷歌放弃搜索，Sam Altman表示谷歌错失良机

时间：2024年3月22日

来源：有新Newin

《连线》杂志记者近日采访AI领域里程碑意义论文《Attention is All You Need》背后8位作者，这篇论文写于2017年春季，他们都是谷歌研究人员，尽管当时有一位已离开谷歌。

当最资深的贡献者Noam Shazeer看到初稿时，他对自己的名字出现在首位感到惊讶，这暗示着他的贡献是至关重要的。他说：我没有考虑这个问题。

确定名字的排列顺序，总是一个微妙的平衡行为，谁能获得令人垂涎的首席位置，谁被排到后面。特别是在这样一个案例中，每个参与者都在真正的团队努力中，留下了自己的独特印记。当研究人员匆忙完成他们论文时，他们最终决定破坏排名贡献者的惯例。

他们在每个名字后面加了一个星号，并加了一个脚注：贡献相等，脚注写道，排名顺序是随机的。作者们在截止日期前，将论文送到一个著名的AI会议上，并掀起了一场革命。

临近7周年，这篇《Attention》论文已获得传奇般地位。作者们从一种蓬勃发展、不断改进的技术，一种称为神经网络的AI出发，将其转化为了另一种东西：一种数字系统，输出如同外星智能的产物，这种架构被称为Transformers，是所有那些令人叹为观止AI产品的秘密武器，包括ChatGPT以及图像生成器，比如Dall-E与Midjourney。

Shazeer开玩笑说，如果他知道这篇论文会变得如此著名，他可能会更担心作者顺序的问题。现在所有8位签署者都是微名人。有人要求与我合影，因为我在一篇论文上。随机地，当然，列在第5位的是Llion Jones。

Geoffrey Hinton说道，没有Transformers，我认为我们现在不可能到达这个地步，并不是作者之一，但也许是世界上最杰出的AI科学家。他指的是我们所处的地动山摇的时代，随着OpenAI与其他公司构建的系统可以与人类的产出相匹敌，甚至在某些情况下超越之。

今天，所有8位作者此后都离开谷歌。像数百万其他人一样，他们现在以某种方式与由他们在2017年创建的系统一起工作。

以下为《连线》记者Steven Levy与8位作者交谈的全部内容：

Uszkoreit是Hans Uszkoreit儿子，后者是一位著名的计算语言学家。作为20世纪60年代末一名高中生，Hans因抗议苏联入侵捷克斯洛伐克而在自己祖国东德被监禁15个月。他获释后逃往西德，在柏林学习计算机与语言学。他来到美国，在加利福尼亚州门洛帕克一个AI实验室工作时，Jakob出生。

后来，该家庭最终回到德国，Jakob在那里上大学。他本不打算专注语言，但在攻读研究生阶段，他在谷歌山景城办公室实习，在那里他加入谷歌翻译团队，他继承了家族事业。

Jakob放弃博士计划，2012年决定加入谷歌一个团队，该团队正在研究一种可以在搜索页面上直接回答用户问题，而不需要将其转到其他网站的系统。

苹果刚刚宣布虚拟助手Siri，承诺可以在日常对话中提供一次性答案，谷歌高管闻到巨大竞争威胁：Siri可能会吞噬他们搜索流量。他们开始更加关注Uszkoreit的新团队。

Uszkoreit说那是一场虚假的恐慌，Siri实际上从未真正威胁到谷歌。但他乐于投身于计算机可以与我们进行某种对话的系统。

当时，循环神经网络，曾经是学术上一片死水，突然开始胜过其他AI工程方法。这些网络由许多层组成，信息在这些层之间传递与重新传递，以确定最佳响应。神经网络在诸如图像识别等领域取得巨大成功，AI复兴突然间来临。

谷歌正在疯狂重新调整员工队伍，以采用这些技术。谷歌希望拥有能够产生人类般回答的系统，自动完成电子邮件中句子、或创建相对简单的客户服务聊天机器人。

但是，该领域遇到一些限制。循环神经网络在解析更长文本片段时，遇到困难。以“Joe是名棒球运动员，吃完早餐后，去公园，并打了两次安打”为例，要理解两次安打，语言模型必须记住有关棒球的部分。用人类的术语来说，它必须保持关注。

被接受的解决方法，是一种称为长短期记忆LSTM的东西，这是一种创新，它允许语言模型处理更大、更复杂的文本序列。

但是，计算机仍然严格按顺序处理这些序列，一个单词一个单词，并且错过可能出现在文本后面的上下文线索。Uszkoreit说，我们应用的方法基本上是一种应急措施，我们无法获得真正在规模上真正发挥作用的东西。

到2014年左右，Uszkoreit开始设计一种不同的方法，他称之为自注意力。这种网络，可以通过参考文本的任何其他部分来翻译一个单词。这些其他部分，可以澄清一个词的意图，并帮助系统产生一个好的翻译。它实际上考虑了一切，并且为你提供了一种同时查看许多输入，并以相当选择性的方式提取其中某些内容的有效方式。

尽管AI科学家小心翼翼的不要将神经网络的隐喻与生物大脑的工作方式混淆，但Uszkoreit确实似乎相信自注意力，在某种程度上与人类处理语言的方式相似。

Uszkoreit认为自注意力模型，有可能比循环神经网络更快、更有效。它处理信息的方式，非常适合正在大规模生产以支持机器学习繁荣的强大并行处理芯片。与使用线性方法，按顺序查看每个单词不同，它采用更并行的方法一起查看一堆单词。如果正确执行，Uszkoreit怀疑可以专门使用自注意力来获得更好的结果。

并不是每个人都认为这个想法会震撼世界，包括Uszkoreit父亲，他在儿子为谷歌工作期间，获得了两项谷歌教职研究奖。

Jakob Uszkoreit说道，人们都感到惊讶，这个想法摒弃了所有现有的神经网络架构。要与循环神经网络说再见？那是异端邪说。通过Jakob Uszkoreit与父亲在餐桌上对话，双方并不总是看法一致。

Uszkoreit说服几位同事进行自注意力的实验，他们工作显示出了希望，2016年他们发表一篇论文。Uszkoreit想进一步推动他们研究，团队的实验仅使用了微小的文本片段，但是他的合作者们没有一个感兴趣。相反，就像离开赌场时，带着适度赢利的赌徒一样，他们去应用他们所学到的教训，这件事奏效了。

那篇论文上的人们，对收获与在谷歌的各种不同地方部署它感到兴奋，包括搜索与最终广告。从许多方面来说，这是一个令人惊奇的成功，但我不想就此打住。

Uszkoreit认为自注意力可以承担更大的任务，他会向任何愿意倾听的人，以及一些不愿意的人辩论，他在谷歌校园北部查尔斯顿路地址的1945号大楼的白板上勾画出自己的愿景。

2016年的一天，Uszkoreit在谷歌的一个咖啡厅，与来自乌克兰的科学家Illia Polosukhin共进午餐。Polosukhin在谷歌已工作将近3年，他被分配到一个团队，负责回答在搜索字段中提出的直接问题，但情况并不是很理想。

Polosukhin说，要在google.com上回答问题，你需要一种非常便宜、性能高的东西，因为你只有几毫秒的时间来回答。当Polosukhin抱怨时，Uszkoreit毫不犹豫提出一个解决办法，为什么不使用自注意力？

Polosukhin有时会与同事Ashish Vaswani合作，Vaswani出生在印度，并在中东地区长大，去了南加州大学，在该校精英机器翻译组获得博士学位。Vaswani之后搬到Mountain View加入谷歌，具体来说是新组织Google Brain。

Vaswani将Brain描述为激进的团队，相信神经网络将推进人类理解力，他仍在寻找一个重大项目来参与。他的团队工作在与Polosukhin语言团队相邻的1945号大楼旁边的1965号大楼，他听说了自注意力的想法。这能成为他的项目吗？他同意参与其中。

三位研究人员一起起草《Transformers：迭代自注意力与处理以适用于各种任务》的设计文档。

Uszkoreit表示，他们从零日选择了transformers这个名字。这个想法是，这种机制将改变它所吸收的信息，使系统能够提取出与人类相当的理解力，或者至少给出这种假象。

Uszkoreit对玩Hasbro动作人偶的童年记忆很美好，自己小时候有两个小变形金刚Transformer玩具，这份文件以六个变形金刚在山地地形中互相发射激光的卡通形象结束。

在文章开头有一句话，展现了一些自负：我们很棒。

2017年初，Polosukhin离开谷歌，创办自己的公司。此时，新的合作者加入项目。印度工程师Niki Parmar在印度为一家美国软件公司工作时，搬到美国。她于2015年从南加州大学获得硕士学位，并被所有大科技公司挖角，选择了谷歌。当她加入时，她与Uszkoreit合作，致力改进谷歌搜索的模型变种。

另一个新成员是Llion Jones，出生、成长在威尔士，喜欢电脑，因为那不寻常。他在伯明翰大学学习AI课程，对神经网络产生好奇，被描述为历史的奇特之物。2009年7月，获得硕士学位后，在经济衰退期间找不到工作，靠领取失业救济生活了数月。他在一家当地公司找到一份工作，然后在最后一搏之下申请了谷歌。他成功了，并最终加入谷歌研究部门，他的经理是Polosukhin。

有一天，Jones从同事Mat Kelcey口中听说自注意力概念，他加入Transformer团队。

后来，Jones遇到Kelcey，并向他介绍Transformer项目，Kelcey对此并不买账。Kelcey告诉Jones，我不确定那会不会奏效，这基本上是我生活中最大的错误预测。

Transformer的工作，吸引了谷歌Brain其他研究人员，他们也在努力改进LLM。这第三波人员，包括波兰出生的理论计算机科学家Łukasz Kaiser与他实习生Aidan Gomez。

Gomez在加拿大安大略省一个小农村长大，他的家人每年春天都会去捶枫树取糖浆。在多伦多大学读大三时，他爱上AI，并加入Geoffrey Hinton实验室机器学习小组。他开始联系在谷歌写有趣论文的人，提出延伸他们工作的想法。

Kaiser咬定了Gomez，并邀请Gomez实习。直到几个月后，Gomez才了解到那些实习是为博士生准备的，而不是像他这样的本科生。

Kaiser与Gomez很快意识到，自注意力看起来是解决他们正在处理问题的一个有前景、更激进的解决方案。Gomez说两人进行了一次深思熟虑的讨论，是否要合并这两个项目，答案是肯定的。

Transformer团队着手建立一个自注意力模型，用于将一种语言的文本翻译成另一种语言。他们使用了BLEU的基准来衡量性能，该基准将机器的输出与人类翻译的工作进行比较。从一开始，他们新模型表现良好。Uszkoreit说，我们从没有概念证明，到至少有了一些能够与当时最好的LSTMs替代方法媲美的东西，但与长短期记忆相比，它并不更好。

他们已达到了一个平台，直到2017年的一天，资深的谷歌员工Noam Shazeer无意中听说他们项目。Shazeer 2000年加入谷歌，是谷歌早期广告系统内部传奇人物。Shazeer已从事深度学习5年，最近对LLM产生兴趣，但是这些模型远远不能产生他认为可能的流畅对话。

Shazeer回忆道，他当时正在1965号大楼走廊上经过Kaiser工作区，他发现自己在听一个充满活力的对话。我记得Ashish在谈论使用自注意力的想法，Niki对此非常兴奋。我觉得，这听起来是一个好主意。这看起来是一个有趣、聪明的团队，正在做一些有前途的事情。Shazeer认为现有的循环神经网络令人恼火，并想让我们去替换它们。

Uszkoreit说，Shazeer加入这个团队至关重要，这些理论或直觉机制，比如自注意力，总是需要非常谨慎的实现，通常是由少数有经验的魔术师来完成，甚至表现出任何生命迹象。

Shazeer立即开始施展他的魔法，他决定写出自己版本的Transformer团队代码。Shazeer采用基本思路，然后自己编写了这个东西。他偶尔向Kaiser提问，但大多数时间，他说，他只是自己去做了一段时间，然后回来说，看，它有效果。他使用了团队成员后来用魔法、炼金术、花哨技巧等词来形容的方法，将系统推向了新的水平。

Gomez说，那引发了一场冲刺。他们受到激励，他们也想要在即将到来的截止日期，5月19日，即一年中最重要的AI事件，2024年12月在神经信息处理系统大会上提交论文的截止日期。

随着硅谷所谓的冬季向春季过渡，实验速度加快。他们测试了两种Transformer模型：一种是经过12小时训练的版本，另一种是更强大的版本Big，经过3天半的训练。他们让它们进行英语到德语的翻译。

基本模型胜过所有竞争对手，Big取得决定性的打破了先前记录的BLEU分数，同时更具计算效率。

Parmar说，我们在比其他人更短的时间内做到这一点，而且这只是开始，因为数字一直在提高。

当Uszkoreit听到这个消息时，他拿出了一瓶放在山地远征卡车上的陈年香槟庆祝。

截止日期前的最后两周是疯狂的，尽管团队中一些成员在官方上仍然在1945号楼有桌子，但他们大部分时间都在1965号楼工作，那里的微型厨房里有更好的浓缩咖啡机。Gomez说，人们没有睡觉，作为实习生，他处于不断调试的狂热状态，同时还为论文制作了可视化与图表。在这样的项目中，通常会进行消融试验，拿出一些东西来看看剩下的是否足以完成任务。

Gomez说，有各种各样的技巧与模块的组合，哪个有帮助，哪个没有帮助，让我们将它拿掉，让我们用这个替换它。为什么模型会以这种违反直觉的方式行事？是因为我们没有正确的做屏蔽。它有效果了吗？好的，继续下一个。

Jones说，我们现在称之为Transformer的所有这些组件，都是这种极高速、迭代式试错的产物，消融试验在Shazeer实施的帮助下，产生了一些极简主义的东西，Noam就像一个巫师。

Vaswani记得有一天晚上，团队在写论文时，他在办公室沙发上睡着了。当他盯着将沙发与房间其他部分隔开的窗帘时，他被面料上图案震惊了，对他来说，它看起来像突触与神经元。

Gomez在那里，Vaswani告诉他，他们正在进行的工作将超越机器翻译。最终，就像人类大脑一样，你需要将所有这些模式，语音、音频、视觉，统一到一个架构下，他说。我有强烈的预感，我们正在进行一些更普遍的工作。

在谷歌的高层眼中，这项工作只是另一个有趣的AI项目。Uszkoreit说，我问了几位Transformer团队的人，他们上级是否曾召集他们更新项目情况，并不是那么多，但是我们理解到这可能是一件相当重要的事情。这促使我们真正关注了论文末尾的一个句子，其中我们评论了未来的工作。

这个句子预见了接下来可能发生的事情，将Transformer模型应用于基本上所有形式的人类表达。我们对基于注意力的模型的未来感到兴奋，他们写道。我们计划将Transformer扩展到涉及文本以外的输入与输出模态的问题，并调查图像、音频与视频。

截止日期前几天晚上，Uszkoreit意识到他们需要一个标题。Jones指出，团队已接受了接受通常最佳做法的激进拒绝，尤其是LSTMs，用于一种技术：注意力。

他回忆起披头士乐队曾有一首歌名叫做All You Need Is Love，为什么不把论文命名为Attention is All You Need？

Jones说，我是英国人，这实际上只花了5秒钟的思考时间，我没想到他们会使用它。

他们一直在截止日期前收集实验结果。Parmar说，英法语的数字是在我们提交论文前5分钟到达的；我当时坐在1965号楼的微型厨房里，得到最后的数字，就在剩下不到2分钟的时候，他们送出了论文。

谷歌，就像几乎所有科技公司一样，迅速对这项工作进行了临时专利申请。这样做的原因，不是为了阻止别人使用这些想法，而是为了为防御目的建立专利组合。该公司有一个如果技术进步，谷歌将获益的理念。

当Transformer团队从会议同行评审员那里听到回复时，反应是各种各样的。Parmar说，有一个是积极的，一个是非常积极的，一个是这还行，论文被接受为晚间海报展示之一。

到了12月，论文引起轰动。他们在12月6日举行的4小时会议上，挤满了想了解更多信息的科学家，作者们讲到声音嘶哑。到晚上10:30，当会议结束时，人群还在。

Uszkoreit说，安保人员不得不告诉我们离开。对他来说，也许最令人满意的时刻，是当计算机科学家Sepp Hochreiter上前赞扬了这项工作，考虑到Hochreiter是长短期记忆的共同发明者，而Transformer刚刚取代长短期记忆成为AI工具包中的首选工具，这是相当的赞誉。

Transformer并没有立即统治世界，或者甚至谷歌。Kaiser回忆说，在论文发表时，Shazeer向谷歌高管建议公司放弃整个搜索索引，训练一个巨大的网络使用Transformer，基本上是为了改变谷歌组织信息的方式。在那时，即使是Kaiser也认为这个想法荒谬。现在，普遍认为这只是个时间问题。

初创AI公司OpenAI更快的抓住了机会，论文发表后不久，OpenAI首席研究员Ilya Sutskever，他在谷歌期间认识了Transformer团队，建议OpenAI一位科学家Alex Radford研究这个想法，结果就是第一批GPT产品。

正如2023年OpenAI CEO Sam Altman告诉我的，当Transformer论文发表时，我认为谷歌的任何人都没有意识到它的意义。

内部情况更为复杂。Uszkoreit说，我们很清楚Transformer能做出很神奇的事情。现在，你可能会问，为什么2018年谷歌没有推出ChatGPT？实际上，我们可能在2019年，甚至2020年就推出GPT-3甚至3.5。关键问题不是他们有没有看到，问题是，为什么我们没有利用我们看到的事实去做点什么？答案很棘手。

许多科技评论家指出，谷歌从以创新为中心的游乐场，转向以底线为中心的官僚体制。正如Gomez告诉《金融时报》的，他们没有现代化，他们没有采用这项技术。但对于一个技术领先行业，并为数十年获得巨额利润的巨型公司来说，这需要很大的勇气。

谷歌确实开始在2018年将Transformer集成到产品中，首先是翻译工具。2018年，谷歌还推出基于Transformer的新型语言模型BERT，该模型在之后1年开始应用于搜索。但与微软大胆将基于Transformer系统整合到产品线中相比，这些底层变化似乎显得很羞怯。

2023年，当我问谷歌CEO Sundar Pichai，为什么谷歌不是第一个推出ChatGPT这样的LLM时，Pichai辩称，在这种情况下，谷歌发现让其他公司领先是有利的。我不完全清楚它是否会产生同样好的效果。Pichai说事实上，我们在人们看到它的工作原理后可以做得更多。

无可否认的事实是，论文的所有8位作者，都已离开谷歌，所有创立的公司，除了Near，都基于Transformer技术。

Polosukhin建立市值约40亿美元的区块链项目Near。

Parmar与Vaswani，2021年成为商业伙伴，创立估值10亿美元的Adept；现在他们已创立第二家公司Essential AI，获得800万美元融资。

Llion Jones的东京Sakana AI，估值2亿美元。

Shazeer 2021年10月离职，与人合伙创立估值50亿美元的Character AI。

实习生Aidan Gomez，2019年在多伦多创立估值22亿美元的Cohere。

Jakob Uszkoreit，创立估值3亿美元的生物技术公司Inceptive。

Lukasz Kaiser是唯一一个没有创办公司的人，他加入OpenAI，并是Q*新技术的发明者。

谷歌是否错过了这些离职人才？当然，除了其他从公司转移到新的AI初创公司的人之外。

当我询问他有关Transformer离职者时，Pichai提醒我，行业宠儿OpenAI也看到人员的流失：AI领域非常、非常动态。但谷歌可以自豪宣称，它创造了一个支持追求非传统想法的环境。

Parmar说，在很多方面，谷歌走在前面，他们投资于正确的人才，并创造可以探索与突破界限的环境。需要时间来接受它并不奇怪，谷歌拥有的利益太多了。

没有那种环境，就没有Transformer。这些作者不仅都是谷歌员工，而且还在同一办公室工作。走廊上的偶遇，与午餐时听到的谈话，引发重大时刻。

该团队还具有多元文化，8位作者中，有6位出生在美国以外的国家；其他2位分别是2位持有绿卡的德国人的孩子，他们暂时在加利福尼亚，以及一位第一代美国人，他的家人逃离了迫害。

Uszkoreit在柏林办公室里说，创新完全取决于正确的条件。关键是找到那些对某事非常激动，并且正处于生活正确阶段的人。如果你拥有这样的人，并且在做事时玩得开心，并且你正在解决正确的问题，并且你很幸运，奇迹就会发生。

Uszkoreit与他著名的父亲之间也发生了一些奇迹，在所有那些餐桌上的辩论之后，Hans Uszkoreit，他的儿子报道说，现在已共同创立了一家正在建立LLM的公司，当然，使用的是Transformer。

【智能前线】第2期：Transformer七周年专辑，Transformer 幕后故事

作者：六合商业研选

全部讨论