百度智能云发布操作系统“万源” 沈抖：传统云计算不再是主角雷递网乐天 4月16日Create 2024 百度 AI开发者大会今日在深圳召开。期间，百度集团执行副总裁、百度智...

雷递网乐天 4月16日

Create 2024 百度AI开发者大会今日在深圳召开。期间，百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布新一代智能计算操作系统——万源，通过对AI原生时代的智能计算平台进行抽象与封装设计，为用户屏蔽掉云原生系统与异构算力的复杂性，提升AI原生应用开发效率与体验。

沈抖表示，随着大模型技术的不断演进，通过自然语言进行编程正在成为现实。编程将不再面向过程或者面向对象，而是面向需求；编程的过程将成为开发者表达愿望的过程，并为操作系统带来革命性的变化。在操作系统的内核中，底层硬件从以CPU算力为主变成以GPU算力为主，并且新增了被大模型压缩的世界知识。操作系统管理的对象发生了本质的变化，从管理进程、管理微服务，进化为管理智能。

“传统的云计算系统依然重要，但不再是主角，我们需要一个全新的操作系统，对新的计算平台，也就是智能计算做好抽象和封装，重新定义人机交互，为开发者提供更简单、更流畅的开发体验。”

本次大会上，百度智能云推出的“万源”智能计算操作系统，旨在“桥接”算力效能与应用创新。具体来讲，万源主要由Kernel（内核）、Shell（外壳）、Toolkit（工具）三层构成，底层屏蔽掉云原生系统与异构算力的复杂性，上层则为AI原生应用的敏捷开发提供支撑与保障。

首先，在内核层，在算力资源管理方面，百度百舸·AI异构计算平台针对大模型训练、推理等任务，对智算集群的设计、调度、容错等环节进行了专项优化。

目前，百舸能够实现万卡集群上的模型有效训练时长占比超过98.8%，线性加速比、带宽有效性分别高达95%。

此外，百舸还兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片，支持用户以最小代价完成算力适配。相比模型推理，“一云多芯”在模型训练场景中是极难攻坚的难题，主要包含两类细分场景：

1、智算集群中存在多个训练任务，单一厂商芯片只服务单一任务；

2、在每个独立的模型训练任务中同时使用不同厂商芯片。这就需要解决不同厂商芯片算力均匀切分、芯片间通信效率优化等问题，难度极高。

百度称，百舸已经实现了单一训练任务下不同厂商芯片的混合训练，且百卡规模性能损失不超过3%，千卡规模性能损失不超过5%。最大程度上屏蔽硬件之间差异，帮助用户摆脱单一芯片的依赖，实现更优成本，打造更具弹性的供应链体系。

万源内核中的另一个重要组成部分是大模型。大模型能够将巨量的世界知识进行高效压缩，并将自然语言的理解、生成、逻辑、记忆能力进行封装。目前，万源内核中既包含了业界领先的ERNIE 4.0、ERNIE 3.5大语言模型，也包括ERNIE Speed/Lite/Tiny等轻量级模型、文心视觉大模型和各具特色的第三方大模型，充分满足用户在不同业务场景下的多样化需求。

在内核层之上是Shell层，通过百度智能云千帆ModelBuilder解决内核中模型的管理、调度、二次开发等问题，屏蔽掉模型开发的复杂性，帮助更多人只投入少量的数据、资源和精力，就能快速精调出适合自己业务的模型。同时，在实际应用中，ModelBuidler提供的模型路由服务，能够自动为不同难度的任务选择合适参数规模的模型，给出平衡效果与成本的最优模型组合。经测算，在模型效果基本持平的情况下，模型路由平均降低推理成本多达30%。

在Shell层之上，千帆AppBuilder和AgentBuilder共同构成了工具层，为开发者提供强大的AI原生应用开发能力。尤其是AppBuilder提供的工作流编排功能，支持开发者使用预置的模板和组件，轻松定制自己的业务流程，还能够集成、扩建自己的特色组件，在不同节点上选用适合的模型，通过灵活的编排实现业务逻辑。

在AppBuilder上开发AI原生应用的过程中，还可以直接调用通过ModelBuilder精调过的模型，让整个开发过程变得极为流畅和便捷。在应用开发完成后，可以一键发布到百度搜索、微信公众号等平台，也可以通过API或SDK的方式直接集成到用户自己的系统中，真正做到极速开发、轻松上市。

百度指出，万源作为开放的操作系统，未来还将进一步开放生态合作，为应用开发者提供更多能力和接口；助力企业打造专属的垂直行业操作系统；将万源部署在客户自有智算中心，提供稳定、安全、高效的智能计算平台服务；适配更多厂商异构芯片并发挥其最大效能。

以下是百度集团执行副总裁、百度智能云事业群总裁沈抖演讲实录：

大家上午好！

今天，我想用一句我非常喜欢的话来开场：“简单是终极的复杂”。这句话来自苹果公司的第一本宣传册，也有人说它来自达芬奇。不论来自哪里，它代表着我们对极简之美的共同追求。在百度，我们的使命就是“用科技让复杂的世界更简单”。回到今天的主题“人人都是开发者”，那我们追求的一种简单，就是让每个人都可以用极简的方式开发出极强的软件。

80年前，第一代“程序员”手动插拔电缆、转动旋钮，用布线板来操作计算机，难度大、效率低，还容易出错。

后来，汇编语言和汇编器出现了。我们可以用一种相对自然的方式告诉机器如何工作，大大提高了开发效率。这种让程序代替人工、让软件管理硬件的方式，就是操作系统的雏形。

但这还远远不够。再后来，高级编程语言和编译器诞生了，计算平台进一步进化，开发者可以用更接近人类的表达方式去开发应用，无需关心底层软硬件的复杂性。大多数的应用可以在不修改任何代码的情况下，在不同硬件上跑起来。

软件越来越复杂，硬件越来越强大，随之升级的是快速迭代的操作系统。

本质上，操作系统就是管理硬件和软件，往下一层层屏蔽底层的复杂性、往上抽象成简单的交互界面。对开发者来说，只需要关注业务本身的逻辑，使用简单的开发语言和工具，开发相应的软件功能。

随着软件规模和复杂度的提高，单台机器已经不能满足需求，集群出现了。这时候，操作系统管理的对象不再是单台机器和运行在上面的“进程”，而是整个集群和上面运行的各种“微服务”，管理的对象和复杂性有了质的变化。

云计算应运而生，集群管理的复杂性从此被隐去，开发者可以按需扩缩容，灵活响应市场的变化。

今天，又不一样了，大模型出现了。机器和系统第一次不再是人类的提线木偶，而是具备了理解、生成、逻辑、记忆的能力。这将彻底改变人和机器的关系，这其中最重要的一点就是软件开发的范式。编程不再是少数经过专业训练的程序员的特权，相反，人人都是开发者；编程不再需要从c/c++学起，而是从自然语言开始；编程不再是面向过程、面向对象，而是面向需求，以后，编程的过程，就是一个人表达愿望的过程。

这是革命性的变化。它会彻底颠覆原有的操作系统。在操作系统的内核中，底层的硬件从以CPU算力为主变成以GPU算力为主，而且第一次增加了硬件和软件以外的资源，也就是被大模型压缩的世界知识。操作系统管理的对象也因此发生了本质的变化，从管理进程、管理微服务，变成了管理智能。

传统的云计算系统依然重要，但不再是主角，我们需要一个全新的操作系统，对新的计算平台，也就是智能计算，做好抽象和封装，重新定义人机交互，为开发者提供更简单、更流畅的开发体验。

这样的操作系统应该是什么样的呢？

它需要能管理万卡规模的集群，需要极致发挥GPU、CPU的性能，需要高速互联。它需要有强大的大模型作为核心引擎，不仅是语言大模型，还有视觉大模型。这就构成了操作系统的内核。

在内核层之上，还需要构建起强大的大模型服务能力，提供全面的模型精调、评估、部署、调用等工具链。

还需要有好的应用开发工具去做工作流编排、插件管理，让应用开发像搭积木一样简单。

作为企业服务，安全和运维也必不可少。它还要隐藏掉上一代云原生系统的复杂性。当然，最终，它要能够加速AI原生应用的爆发。

这就是新一代智能计算操作系统——万源！

这里可以有掌声。为什么呢？因为有一种说法叫软件定义世界，那万源就是来帮助人类用自然语言定义软件。接下来，我们打开万源，看看里面的每一个部分。

首先是内核层。

大模型不是免费的午餐，强大的模型能力需要巨大的算力、甚至电力，算力的有效管理至关重要。因为不合理的管理和使用方法，当下社会上很多算力被浪费掉了。我们需要一个强大的操作系统将现有的算力资源发挥到极致，支撑大模型和应用创新的迭代。

我们知道，训练领先的大模型需要万卡规模的集群。但是，要让上万张卡像一张卡一样工作、实现性能的线性扩展、保障任务不间断，这对集群的设计、调度、容错都是巨大的挑战。目前，百舸在万卡集群上的有效训练时长占比超过98.8%；线性加速比和带宽有效性都达到了95%。这绝对是业界最高级别的算力效能。

在算力方面，国内还有一个特殊情况，就是芯片供应的不确定性，这必然会导致多款芯片并存的格局，短期看，这是大家被动接受的局面，长期看，这一定是大家主动选择的结果。因为只有这样，才能摆脱对单一芯片的依赖，实现更优的成本，保证更有弹性的供应链。然而，不同厂商的芯片差异很大；

即使同一厂商，不同代际的芯片差距也很大。推理或许还可以，但要想在大模型训练、特别是单一训练任务上，管理好多个厂商、不同代际的芯片，非常难。今天，我很高兴地告诉大家，百舸平台上已经实现了百卡规模、单一训练任务下，不同厂商芯片的混合训练，并且把训练的性能损失控制在3%；即使在千卡规模下，性能损失也不超过5%。百舸已经为大家屏蔽掉了芯片之间的差异，给大家自由选择不同芯片组合的权力。

内核中的另一个重要组成部分是大模型。它压缩了庞大的世界知识，将理解、生成、逻辑、记忆能力封装起来、向上提供简单的接口，让AI原生应用可以高效运行。

万源的内核，既包含了业界领先的ERNIE 4.0、3.5大语言模型、也包括ERNIE Speed/Lite/Tiny系列轻量模型，此外还包括文心视觉大模型和一些各有特色的第三方大模型，充分满足用户在不同业务场景下的多样化需求。

内核之上是千帆ModelBuilder。内核中的这些模型的管理、调度、二次开发，都可以通过ModelBuilder解决。

很多场景化的需求，不需要从头去训练大模型，只要在合适的基础大模型上，基于工具链，做些模型精调、甚至是优化一下提示词，就能很好地解决问题。Modelbuilder的目的就是要把这些工具产品化，屏蔽掉模型开发的复杂性，让更多人只投入少量的数据、资源和精力，就能快速精调出适合自己业务的模型。

在实际应用中，就像Robin前面提到的，我们需要合理的组合不同的模型。ModelBuidler提供的模型路由服务，会自动给不同难度的任务选择最合适的模型，实现效果与成本的最优组合，在效果基本持平的情况下，平均降低30%的推理成本。

再往上看，是工具层。千帆AppBuilder和AgentBuilder是强大的应用开发平台，正如Robin刚才演示的，他们可以支持各种agent和应用的快速开发和发布。

通过AppBuilder开发的应用，可以一键发布到百度搜索、微信公众号等平台，也可以通过API或SDK的方式直接集成到自己的系统中。真正做到极速开发、轻松上市。

现阶段，大模型还不够完美，有些场景下，人的经验可以帮助agent做更好的任务规划，因此AppBuilder发布了工作流编排功能。基于AppBuilder的工作流编排，开发者可以使用预置的模板和组件，轻松定制自己的业务流程，还可以在上面集成、扩建自己的特色组件，在不同节点上选用适合的模型。如果你在ModelBuilder上精调了模型，那在AppBuilder上也可以直接调用，整个过程非常便捷。

大家现在看到的万源，从内核到Shell、再到应用开发工具，已经实现了层与层的有机结合、端到端的效能优化。过去一年多，在内外部客户的实际应用中，不断打磨、持续完善，万源，已经成为AI原生时代的智能计算操作系统，为用户提供极简的开发体验、智能的系统内核，和高效的异构算力。

今天的发布是一个起点。未来，我们会进一步开放操作系统层面的生态合作。向上，开放更多的能力和接口，开发者可以非常简单地开发应用。向左，大家可以用万源做基础、打造适合自己的垂直行业的操作系统。向右，可以把万源直接部署在自己的智算中心，享受稳定、安全、高效的智能计算平台。向下，我们会适配更多的芯片，为开发者进一步隐去异构集群的复杂性，让不同的芯片都能发挥最大的效能。

这就是我今天要给大家分享的，全新一代智能计算操作系统——万源，强大、敏捷、开放，为在座诸位和每一个有想法的人提供极致简单的开发体验，让您的每一个创意都能在分钟之间上线、应用！今天，人人都是开发者，人人都是创造者。无需等待，即刻启程。让智能，生成无限可能。

———————————————

雷递由媒体人雷建平创办，若转载请写明来源。

百度智能云发布操作系统“万源” 沈抖：传统云计算不再是主角

作者：雷递

全部讨论