人工智能革命的前夜：微软的超级计算、系统优化与集群能力 john Roach Azure云科技 2023-03-14 20:35 大约五年前，人工智能研究机构 OpenAI 向...

john Roach Azure云科技 2023-03-14 20:35

大约五年前，人工智能研究机构 OpenAI 向微软提出了一个大胆的想法——构建能够永久改变人机交互方式的“人工智能系统”。

彼时，还没有人知道 OpenAI 所指的是，一个让人们通过简单的语言描述就能创造各式各样美图的系统，或者一个能写 Rap、能写邮件、能编菜单的聊天机器人。但这样的技术并非不可实现。只是，为了构建这样的系统，OpenAI 需要大规模的计算能力支持。微软能够提供吗？

合作渊源：向超级计算迈进

数十年来，微软致力于开发能够帮助人们更有效地利用语言的AI模型。从 Word 中的自动拼写检查器，到 PowerPoint 中的编写图片说明，再到 Microsoft Translator 这个囊括100多种语言的翻译工具。随着这些AI能力的不断提升，微软将其在高性能计算方面的专业知识应用到了 Azure 云基础设施的扩展中，使客户可以利用 Azure 人工智能工具构建、训练和提供定制化的人工智能应用程序。

当人工智能研究人员开始使用更强大的图形处理器（GPU）来处理更复杂的AI工作负载，他们开始看到更大规模的AI模型的潜力。这些模型能够理解细微差别，从而能够同时处理许多不同的语言任务。但是，这些更大规模的模型很快就遇到了现有计算资源的限制。微软明白 OpenAI 所需的是怎样的超级计算基础设施及规模。

“从研究中我们学到的一件事情是，模型越大、数据越多、训练时间越长，模型的准确性就会越好。

因此，我们确实有一种强烈的愿望，希望能够用更大的模型训练更长的时间，这意味着不仅需要拥有最大的基础设施，还必须能够长时间可靠地运行。”

—— Nidhi Chappell

微软 Azure 高性能计算和人工智能产品负责人

2019年，微软和 OpenAI 开始合作伙伴关系，并在今年再次延续合作关系。双方共同研发新的 Azure 人工智能超级计算技术，加速人工智能的突破，实现大语言模型的承诺，并助力确保人工智能的益处得到广泛共享。

自那时开始，两家公司便开始了密切合作，在 Azure 中构建超级计算资源，专门用于 OpenAI 训练日益强大的人工智能模型。这种基础设施包括成千上万个 NVIDIA 针对人工智能进行优化的 GPU，通过基于 NVIDIA Quantum InfiniBand 通信的高吞吐量、低延迟网络连接在一起，以进行高性能计算。

微软负责战略合作的高级主管 Phil Waymouth，曾协助与 OpenAI 达成协议。他指出，OpenAI 训练模型所需的云计算基础设施规模是前所未有的——比该行业任何人尝试构建的 GPU 网络集群都要大得多。

Waymouth 分享道，微软与 OpenAI 的合作源于微软坚信这种前所未有的基础设施规模将带来前所未有的成果——新的人工智能能力、新型编程平台，微软可以将其转化为产品和服务，为客户带来真正的收益。这种信念推动两家公司克服了所有技术挑战，并不断推进AI超级计算的边界。

他说：“从实验室中进行的大规模研究，向AI的产业化转变，让我们看到了当下的一些成果。”

其中包括必应搜索——搜索与AI的组合构成了惊人的效果；Viva Sales 中的聊天机器人可以起草营销电子邮件；GitHub Copilot 从软件开发人员的现有代码中提取上下文，为额外的代码行和功能提供建议，消除了计算机编程的繁琐性；以及 Azure OpenAI 服务，它提供对 OpenAI 大型语言模型的访问，并具有 Azure 的企业级能力。

“与 Azure 共同设计超级计算机对于满足我们日益增长的AI训练需求至关重要，这使我们能够在像 ChatGPT 这样的系统上进行研究和对齐工作。”

—— Greg Brockman

OpenAI 总裁和联合创始人

Microsoft 及其合作伙伴继续推进AI基础设施，以满足不断增长的指数级的更复杂、更大模型的需求。

例如，微软于3月13日宣布推出了新的强大且高度可扩展的虚拟机，它们集成了最新的 NVIDIA H100 Tensor Core GPUs和NVIDIA Quantum-2 InfiniBand网络。虚拟机是微软向客户交付可扩展到任何AI任务规模的基础设施的方式。微软表示，Azure 的新 ND H100 v5 虚拟机为AI开发人员提供了卓越的性能和跨数千个 GPU 的扩展能力。

极限突围：大规模的AI训练

Chappell 指出，技术突破的关键是学会如何构建、操作和维护成千上万个共同部署的 GPU。这些 GPU 通过高吞吐量、低延迟的 InfiniBand 网络相互连接。她解释说，这种规模比 GPU 和网络设备供应商所测试的规模都要大。这是未知的领域，没有人确切知道硬件是否能够承受如此巨大的压力而不会崩溃。

$✸ 图形处理器，也称为 GPU，是针对AI工作负载进行了优化的计算机硬件的关键组成部分。照片由微软提供。

她解释说，要训练一个大型语言模型，计算工作量会在集群中的数千个 GPU 上进行划分。在计算的全约减(allreduce) 阶段中，GPU 会交换它们完成的工作信息。InfiniBand 网络加速了这个阶段，使得在 GPU 开始下一块计算之前必须完成交换。

“因为这些任务涉及数千个 GPU，所以我们需要确保具有可靠的基础架构和后端网络，以便能够更快地进行通信，并持续数周。

这不是只需购买一大堆 GPU，将它们连接起来就可以开始协同工作的事情，而是需要进行许多系统级别的优化才能获得最佳性能，并需要许多次迭代的经验积累。”

—— Nidhi Chappell

微软 Azure 高性能计算和人工智能产品负责人

系统级优化包括软件，使 GPU 和网络设备得到有效利用。在过去几年中，微软已经开发出一些软件技术，扩大了训练具有数万亿参数的模型的能力，同时降低了生产中训练和服务这些模型所需的资源和时间。

Waymouth 指出，微软及其合作伙伴还逐步增加了 GPU 集群的容量，扩展了 InfiniBand 网络，并测试数据中心基础设施的极限，这些基础设施是 GPU集群运行所必需的，包括冷却系统、不间断电源系统和备用发电机。

“我们成功的原因在于，我们为我们的内部团队构建了类似的系统，并且具备互补的元素。” 他说，“但是我们与 OpenAI 一起构建的规模，比内部和其它外部合作伙伴的都大得多。”

微软人工智能平台企业副总裁 Eric Boyd 指出，现在，Azure 为大型语言模型训练优化的基础设施通过云端的 Azure AI 超级计算功能提供。这个资源提供了所需的 GPU、网络硬件和虚拟化软件的组合，以提供所需的计算能力，推动下一波人工智能创新的发展。

“我们看到需要构建专门的集群，以专注于实现大规模训练工作负载，OpenAI 即是最早的证明之一。我们与他们密切合作，了解到他们在构建训练环境时需要的关键要素和重要事项。

现在，当其他人来找我们要同样的基础设施时，我们可以提供给他们，因为这是我们的标准做法。”

—— Eric Boyd

微软人工智能平台企业副总裁

集群能力：普惠的人工智能

在开发面向AI优化的云计算基础设施的早期阶段，微软专注于专门的硬件，以加速AI模型在部署用于完成任务时进行的实时计算，这被称为推理。现在，推理是指AI模型起草电子邮件、总结法律文件、建议晚宴菜单、帮助软件程序员找到一段代码或为新玩具构画概念草图等任务的过程。

将这些AI能力带给全球客户，需要针对推理进行优化的人工智能基础设施。当前，微软已经在遍布全球60多个地区的 Azure 数据中心部署了用于推理的 GPU。这是客户可用的基础设施，例如，用于定制预约医疗服务的聊天机器人、运行定制人工智能解决方案以帮助保持航班准点。

✸ Microsoft 已在其遍布全球60多个地区的 Azure 数据中心部署了针对推理进行优化的 GPU，包括位于华盛顿州的数据中心。照片由微软提供。

Chappell 指出，随着训练好的 AI 模型规模变得越来越大，推理需要将 GPU 进行网络化配置，就像模型训练一样，以提供快速和成本效益高的任务完成，这就是为什么微软一直增强在 Azure 数据中心中使用 InfiniBand 网络构建 GPU 集群的能力。

Chappell 解释道：“由于 GPU 通过更快速的网络相互连接，您可以在其上运行更大的模型。因为模型之间的通信更快，所以能够在较短的时间内完成相同数量的计算，这样就更便宜。从终端客户的角度来看，这一切都关乎我们能够多经济地提供推理服务。”

为了加速推理，Microsoft 投资于使用开放神经网络交换运行时(ONNX Runtime)进行系统优化。ONNX Runtime 是一个开源的推理引擎，它结合了先进的优化技术，可实现高达17倍的推理速度提升。目前，ONNX Runtime 每天执行超过一万亿次的推理，并使许多最普遍的基于AI的数字服务成为可能。

Microsoft 和全球 Azure 客户的团队也在利用这个全球基础架构来针对特定用例优化大型AI模型，从更有用的聊天机器人到更准确的自动生成字幕。Azure 的AI优化基础架构的独特能力使其成为许多当前的AI工作负载的理想选择，包括AI模型的训练和推理，Boyd 指出。

“我们已经做了大量工作，深入了解了规模化提供AI服务的情况。”他说。

持续创新：面向AI时代的基础设施

Microsoft 持续推动着为AI而设计和优化的基础设施的设计创新，Boyd 补充道。这包括与计算机硬件供应商和数据中心设备制造商合作，从头开始构建云计算基础设施，提供高性能、高规模和具成本效益的解决方案。

“早期与处于技术前沿并在推动AI领域发展的人员进行反馈和交流，为我们在推出这项基础设施时提供了很多洞察和优势。” 他说。

这种针对AI进行优化的基础设施现在已经成为 Azure云计算框架中的标准，其中包括一系列为AI工作负载优化的虚拟机、连接的计算和存储资源。

AI基础设施让 OpenAI 的 ChatGPT 和新的 Microsoft Bing 等产品的AI功能得以释出，微软Cloud & AI Group 执行副总裁 Scott Guthrie 说道。

“只有微软 Azure 能提供构建变革性大规模AI模型所需的GPU资源、InfiniBand网络以及独特的AI基础设施，这也是 OpenAI 选择与微软合作的原因。

现在，Azure 已经成为开发和运行大规模AI工作负载的理想场所。”

—— Scott Guthrie

微软Cloud & AI Group执行副总裁$微软(MSFT)$

人工智能革命的前夜：微软的超级计算、系统优化与集群能力

作者：caskfans