清湛人工智能研究院杨磊：AI赋能工业制造业大模型之战步入后半场，行业逐渐达成共识，大模型的竞争，关键不在技术，而在产业场景落地。传统产业何应对新一轮AI浪潮？AI...

大模型之战步入后半场，行业逐渐达成共识，大模型的竞争，关键不在技术，而在产业场景落地。传统产业何应对新一轮AI浪潮？AI如何帮助行业降本增效？企业如何利用大模型重塑业务？

近日，在中国人工智能学会、清华人工智能研究院、中关村企业家顾问委员会、中关村100企业家俱乐部的大力支持下，由清湛人工智能研究院发起并主办，由盛景网联承办的《大模型时代，AI赋能产业升级与引领》系列论坛于北京中关村全球科创路演中心成功举办。

论坛上，清湛人工智能研究院执行院长杨磊博士发表了以“AI赋能工业制造业”为主题的主题演讲。

以下为精华内容整理，enjoy~

▼

历史迈进工业5.0

制造业是中国未来发展的必经之路，这毋庸置疑。目前工业 4.0正在如火如荼地进行，已深入应用到各行各业，学者界和商业界对工业4.0的未来发展形势总体上持乐观态度。但是也有部分研究者及从业人员逐渐发现工业4.0在发展过程中过于侧重生产制造流程的优化和设备的自动化水平的提升，而忽视了制造过程中最重要的参与者“人”这一主体。

直到今天才发现我们前面一直提“无人工厂”的好多路可能是走不通的。

在过去的5-10年里，我们一直在考虑一个问题，如何发挥新机器的作用，从而替代人。然而，人的创造力是没法替代的，如何和机器紧密结合在一起，这才应该是行业专家所做的工作。

欧洲提出工业5.0的概念，改变了以前“整个工厂是无人化”、“未来工厂只由，一个看门的人和一个看人的狗构成”认知。

在新的工业5.0人机体系中，更强调协作，包括机器的协作、系统和人的协作。

未来，制造业的发展是以人为本，以持续生产为本。过去强调智能化、强调把人的环节剔除的说法是不正确的。

工业背景下谈大模型

过去三年中，大模型的应用已经给很多行业领域创造了震撼的效果。斯坦福大学把目前下载数超过5万的大模型做了一个图谱，超过15870个。基本上每天都有新的大模型出现，为社会带来了巨大的变化。大模型时代的起始最早可以追溯到2019年Google推出的T5大模型，直到GPT-4在22年底推出，23年初开放测试后爆火。至此，真正进入大模型的高速发展时期，也走了很多弯路。

值得注意的是，工业人工智能和商业人工智能有巨大的不同，吴恩达曾说，“在消费者软件互联网中，我们可以训练一些机器学习模型来服务于十亿用户。在制造业中，你可能有10000家制造商建造10000个定制的人工智能模型。”即使是大模型时代，这种由于应用领域的差异化带来的技术路线的不同也是长期存在的。

当前的人工智能系统本质上包括两个主要组成部分：代码和数据。如果我们从2006的深度学习元年计算，我们花了不到二十年的时间，从模型驱动走向了数据驱动，又逐渐走向了更大规模数据的大模型时代。传统的以模型为中心的人工智能专注于在给定一组固定数据的情况下，改进代码以获得更好的结果。对于系统开发的过程，更关注于代码本身。而以数据驱动的人工智能应用是通过将代码视为不可更改的实体来提高数据质量，以实现更好的结果。在以模型为中心的人工智能中，我们在优化人工智能模型上花费的时间相对较多，而在以数据为中心的AI中，我们花在提高数据质量上的时间相对较长。

高质量数据的重要性已愈发明显。大型模型近年的进展在很大程度上依赖于高质量和丰富的训练数据集。相比于GPT-2，GPT-3在模型架构上的改变微乎其微，更大的精力是投入到了收集更大、更高质量的数据集来进行训练。例如，GPT-4与GPT-3的模型架构类似，但使用了RLHF（来自人工反馈过程的强化学习）来生成用于微调的高质量标注数据。

认识到这一现象，人工智能领域的权威学者吴承恩发起了“以数据为中心的AI”运动，这是一种新的理念，它主张在模型架构相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果。这其中包括添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。

因此，未来在大模型开发中，数据成本所占的比例可能会逐步提高。这代表了一种理念的转变，传统的AI工程师需要了解的Python，就可以做个应用。后来需要学习pytorch框架来交付应用。但是现在，这已经不够了。

大模型落地需要新范式，新工具集。

大模型在工业场景的应用

生成式人工智能，特别是大型语言模型如ChatGPT，是目前在制造业内崭露头角的范式转变。生成式人工智能可以利用现有数据来编造新的、独特的数据集，而大模型则进一步发展了这一概念，提供了无与伦比的能力来剖析和协调错综复杂的信息，并和人类以自然语言对话互动。

过去，所有的工厂业主都希望我们能够做一台机器，能把人替换下来。这个机器要比人聪明，比人便宜，而且没有疲劳、没有劳资纠纷。整个制造业一直朝着这个方向努力，造一台更聪明的机器，围绕着这台机器我们要提供更聪明的感知，更聪明的计算能力，更聪明的执行能力、可以思索的能力。

清湛在过去两年中，我们也是围绕这条路线在走。我们提供了基于机器视觉+智能机器人的产线自动化的平台工具。

基于具身智能技术，我们打造了低成本、更高效率的智能移动机器人。围绕着海量的工业数据分析，我们面向市场交付了MLOps/LLMOps平台。我们也尝试把一些多模态技术落地在实际工业场景。包括用一些新的技术视觉视频分析来做环境感知。我们一直在尝试寻找一些新的方法、新的技术给制造业的行业的变革贡献一些力量。但是，我们也是非常困惑于如何提供成本更低的、更为智能的系统服务于制造业产业。

事实上，随着生成式人工智能的到来，尤其GPT-4的实际应用落地，让我们看到了这场变革的新希望。

1.基于大模型的工业知识库

以往在工厂里，通常是老师傅教新工人，把经验技艺都传授出来。但是现在，找老师傅很难找到，因为产线上大部分是18岁以下和55岁以上的人，从业时间很短，他们没有什么经验。同时，产线上的工艺过程、设备操作也变得越来越复杂。整个产业都希望形成一个万能的专家系统或者知识图谱来教大家。

事实上，这一点很多人都尝试过但是很难做到。因为想围绕动态的、需求不断变化的工业生产环境，想形成完备的知识系统是很难的。隐含的知识是无法预先挖掘出来的。现在通过类似OpenAI和Llama这类基础模型系统，我们很快就能够形成一个具有海量常识性知识和垂直领域专业知识的知识库系统，而且可以通过自然语言去对话。

2.基于大模型的产品研发

传统上，产品设计师专注于产品概念和规格，而操作人员则负责生产任务。然而，大模型可以使设计过程信息更加透明，可以将一线操作人员的见解纳入决策过程中。这些一线操作人员拥有实际生产过程的理解能力，能够提出有价值的见解。大模型则能帮助将他们的想法转化为可操作的设计建议。

通过分析操作人员的见解，大模型能够生成考虑到实际因素和限制的设计，从而形成现实有效的解决方案。这种合作方式能培养操作人员的主人翁意识和参与感。由于制造设备和机器人系统中蕴含着丰富的信息，因此大模型可以在产品设计和优化方面发挥重要作用，可以将这些知识与市场趋势、科学文献、不断变化的ESG考虑因素和客户偏好相结合。

举个例子，来自洛桑联邦理工学院（EPFL）和美国罗切斯特大学的研究团队开发了一种能够完成有机合成、药物发现和材料设计等多种化学任务的语言模型代理 ChemCrow。该代理整合了 17 种由专家设计的工具，增强了其在化学领域的性能，并涌现出新的能力。到目前为止，ChemCrow 已经自主设计了一种驱虫剂、三种有机催化剂以及合成其他相关分子。

在传统的工业生产中，在一个材料发现过程中，很难快速通过系统来形成结果。以往，即使应用系统也需要很多跨专业的人，要求他们对各个知识都非常了解。但是现在通过这样的一个系统，材料发现、化学发现的过程可以从数年缩短至几个月、甚至是几天。我们不需要有一个特别资深的化学老师或者是化学诺贝尔奖获得者，就可以获得很深邃的理解。

3.基于大模型的视觉应用

视觉数据大模型在工业中也开始逐步应用于缺陷检测、目标识别。依据以往用成千上万的图片数据训练出来的结果，基于预训练模型调整，两三天就能获得比较高效的结果。众所周知，视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类，我们可以很轻松地借助各种模态，包括但不仅限于视觉、语言、声音等来理解和感知这个世界。随着 Transformer 等关键技术的提出，以往看似独立的各个方向也逐渐紧密地联结到一起，组成了“多模态”的概念。

自 2021 年以来，人们对结合视觉和语言模式的模型（也称为联合视觉语言模型）越来越感兴趣，例如OpenAI 的 CLIP。联合视觉语言模型在图像字幕、文本引导图像生成和操作以及视觉问答等极具挑战性的任务中表现出了特别令人印象深刻的能力。该领域不断发展，其在提高零样本泛化能力方面的有效性也在不断发展，从而产生了各种实际用例。

基于大模型的视觉应用，包括以Meta代表的各种对于图片、视频、音频的“分割一切”的技术，的确给现在生产线的视觉缺陷检测、工业机器人的视觉伺服带来个巨大的便利，也获得了比传统视觉方法更好的检测结果。

4.基于大模型的产品外观设计

产品外观设计也是当前大模型的在工业里面的应用。通过生成式设计技术可以快速获得新的产品设计。

生成设计是一个反复的设计过程，它涉及到一个将产生一定数量的符合某些约束条件的输出的程序，以及一个将通过选择特定的输出或改变输入值、范围和分布来微调可行区域的设计者。设计者不需要是人，可以是测试环境中的测试程序或人工智能，例如生成式对抗网络。随着时间的推移，设计者的设计目标变得更加明确，他们会在每次迭代中学习完善程序（通常涉及算法）。

清湛现在在努力和服装生产商、包装设计的合作伙伴在尝试做一些努力。

5.基于大模型的生产

我们用到的大模型能力，更多是问答、客服、做知识库。如果仅仅把大模型的能力局限在这个领域，就把事情看简单了。我们都在探索，大模型除了聊天对话之外能够呈现地更为“智能”的能力。

事实上，包括OpenAI、Meta、谷歌都在努力探索大模型的“智能自主代理”能力。未来“智能自主代理”可以像人一样，不仅仅是有记忆（短期记忆和长期记忆），而且可以形成规划，对面临的任务进行“任务拆分”，同时系统可以像人一样进行“反思”和“自我评价”，像人一样自主的选择使用不同的“工具”去完成不同的“任务”。

如果大模型能够有这样的“智能”，是不是我们可以基于“大模型技术”去控制生产线，自主的完成生产过程。我们在这样思考的时候，事实上已经开始有团队尝试用“大模型”的智能机制完成整体的生产环节，替代掉产线的控制系统。

MIT和华盛顿大学的团队在论文《大型语言模型如何帮助人类进行设计和制造？》，描述了借助于GPT自主的完成制造过程——通过GPT-4造一个柜子。

整个生产流程由用户通过与GPT-4基于文本的方式交互，GPT-4自动的提供设计规范，GPT-4同时可以将设计转换为制造指令，并生成设计空间和设计变体、计算设计的性能，以及搜索基于性能的设计。GPT-4可以帮助生产过程自动进行采购寻源、供应商比价。这个做传统的制造过程是个非常繁复的过程。通过基础模型，可以在未来全自动的完成包括采购、加工、库存、销售的整个生产流程。

事实上，这个仅仅是这方面的一个例子。微软亚洲研究院的研究人员尝试借助于基础模型带来的大量先验知识，可以作为各种工业控制任务的丰富先验知识来源。通过一个实际的空调温度控制调节的任务作为验证，研究结果表面GPT-4的性能与增强学习方法相当，可以代替经典的自动化控制方法。但样本较少，技术债务较低，这表明了将基础模型直接应用于工业控制任务的潜力。可以设想，未来对很多工业控制场景，可以直接由边缘端的预置的基础模型来发出指令，完成控制动作。

6.基于大模型的机器人控制

基于大模型的机器控制的成果很多了，最为著名的是李飞飞参与的《具有多模态提示的VIMA通用机器人操作》。我们看到，现在基于大模型的机器人控制，不仅仅完成对于环境的理解，还包括任务的自动分解、自动示教学习等等各种传统方法无法完成的任务。

大模型在工业场景的应用

事实上，我们现在对大模型的能力还没有充分认识清楚。何况，大模型技术本身也在快速发展。海量的数据进行百亿级别的参数训练，这个是人类历史上前所未有的。

我相信在半年或一年之内，AIGC或者大模型会对制造业，乃至于工业产业产生巨大的影响。而且，在未来数年内会有很多新的预训练模型出新，围绕着工业产业提供更好的应用场景。

清湛人工智能研究院杨磊：AI赋能工业制造业