大模型内卷升级：2024成AI进程加速年以GPT为代表的生成式预训练大语言模型这两年在人工智能领域各项任务中表现出色，这是一种现今看来具有十亿以上权重或参数的由...

以GPT为代表的生成式预训练大语言模型这两年在人工智能领域各项任务中表现出色，这是一种现今看来具有十亿以上权重或参数的由人工神经网络组成，使用自监督学习或半监督学习对大量未标记文本进行训练的深度学习模型。关于大模型的训练所需总算力，业内有一个公式：6 * 模型的参数量 * 训练数据的 token 数 = 总算力（Flops），这里的模型参数量指的是构建和训练大规模机器学习或深度学习模型时所使用的各种可调整的设置和数值，参数的数量级越大，模型的潜在体量与规模越大。而大模型参数数量级从一开始的过亿级、十亿级，发展到GPT-3的1750亿、文心一言的2600亿等，如今朝着万亿级的趋向演进。

2024年初，Sora的横空出世让原本僵持在千亿参数级别的业内各方大模型瞬间有了危机感，一时间竞逐加速。首先是初创公司Anthropic宣布Claude 3超越OpenAI的GPT-4称王，旋即谷歌升级了Gemini系列模型并开放测试，国内月之暗面的Kimi助手也以不俗的表现赢得业界聚焦。值得注意的是，尽管面临Sora（文生视频）的压力，业内各方仍决定从NLP（自然语言处理）产品的升级着手展开备战，原因也许是Sora本身也只发布了预览效果，且并未公开和组织规模性的测试，在AI视频方面仍有较长的时间窗口。

● 内卷升级，赛道竞逐日趋白热化

由于过去一年生成式人工智能突飞猛进了一整年，在产业层面，国内外科技巨头围绕AI大模型打响了“百模大战”；在资本市场，AI概念成为市场主线之一。因此2024年，业界观点认为大模型领域的竞争将进一步白热化，行业与资本的轮番交互将有望推动本轮AI行情进一步扩散。

当前国际市场自然语言生成式人工智能以OpenAI的ChatGPT（GPT-4）为代表，其主要竞争对手为谷歌DeepMind的Gemini（前身是Bard）、Meta的LLaMA模型、Anthropic的Claude 3以及正在进场的xAI等。大模型的主流框架则由TensorFlow和PyTorch二分天下。文生图方面，DALL-E、Midjourney和Stable Diffusion依然是主流三家，扩散模型在该领域运用得到了迅速发展。

国内方面，过去的AI四小龙商汤、旷视、依图、云从由于生长在资本膨胀时期，赶上了AI风口，前期成长较好，在视觉CV领域各领风骚。然而进入到第二轮赛道竞逐时，意识到训练成本高昂，只有巨头加码烧钱，回报周期又长，故事就不好讲了。资本退潮之后，无一不面临着从模型应用到商业化落地的困境。

但随着GPT-4的压力和Sora的鲶鱼效应，国内巨头开始逐步发力。百度文心、阿里通义、腾讯混元模型升级并朝着多模态进军；讯飞星火、百川智能、360智脑、日日新等逐渐杀出一条血路，还有初创新秀月之暗面Kimi逆风崛起。

经历了大半年的僵持，资本从观望开始向进场转变，对大模型的加注也在持续升温，初创的融资金额从千万到数亿不等；从融资轮次来看，70%的初创处于A轮及A轮前融资阶段，B轮以上融资阶段的企业总数接近30%，整个赛道朝着白热化的趋势变化。

● AGI是终点，多模态是方向

目前大模型市场仍以自然语言处理NLP为主，这主要是因为NLP领域的应用需求巨大，且近年来在技术上取得了显著的进展。NLP大模型如GPT系列、BERT、XLNet等在语义理解、文字生成和翻译等任务上展现出卓越的性能，推动了智能助手、聊天机器人、内容推荐、搜索引擎优化等多个行业的革新。NLP大模型的框架成熟度、参数和token量级也是其他类模型目前所无法比拟的。

但是业界不会止步于此，首先框架来说，Transformer架构已经在NLP领域取得了巨大成功，类似的结构可能会被扩展到多模态学习中，以更有效地处理和融合多种类型的数据。其次是跨模态学习深度，多模态大模型的核心挑战之一是如何实现不同模态之间的有效交互和信息融合，未来的研究可能会探索新的跨模态学习技术，如注意力机制、联合嵌入空间的构建等，以提高模型对多模态数据的理解和生成能力。还有就是数据集和基准的丰富，应用场景的拓宽（自动驾驶、健康医疗等等）对多模态理解复杂环境和用户需求有着较高的要求。因此，大模型由单模态向多模态升级已然成为行业共识。

而通用人工智能AGI作为AI的终极目标，现在去讨论显然是不合适的。目前AGI的发展还处于初级阶段，虽然已有AI在某些特定领域表现出了超越人类的智能水平，但仍有很多局限性，如只能处理特定类型的任务，缺乏泛化能力，且不具备真正的自主学习和自动推理的能力。之前Sora引发的AGI论也只是资本市场的短暂的泡沫和高调而已。

● 落地与盈利，触手可及的希望

虽然研发和资本游戏仍在内卷，大模型的落地和盈利不论从商用还是消费来看，绝对不仅仅是“最后一公里”的事。除了少数AI开发者开放API卖升级服务之外，在更多资本可以想象的场景和市场仍然是一片空白。尽管如此，业界依然寄予厚望，多年来在经历了区块链、元宇宙等概念的泡沫和热潮褪去之后，人工智能深度学习的崛起和大模型的表现让人们看到了扎实的技术革新和触手可及的希望。

正因为如此，随着大模型落地拐点将近，科技巨头开始为之奔走寻求行业支持，初创公司亦如雨后春笋而且精准启动。苹果CEO库克今年3月现身上海首谈生成式AI，诸如Apple Watch的摔倒检测以及iPhone的预测性文本输入等功能，苹果公司正在寻求为自家产品线引入大模型的支持。促使苹果加速AI落地的往往来自同行的压力，谷歌宣布用于取代Google Assistant的Gemini也即将登陆各类安卓应用，而微软作为OpenAI的金主，早已布局了自家生产力工具和产品的方方面面。国内大模型也紧跟趋势，在多个行业如教育、医疗、金融、汽车等方面表现活跃，如星火认知大模型在智能座舱应用场景展现出强大的沟通和理解能力；日日新SenseNova在专业文本理解、代码生成和辅助初步医疗问诊方面表现亮眼。

大模型的落地和盈利要面对的挑战是一个多维度的问题。首先算法和数据处理方面虽取得了显著进展，但算法参数量激增，训练成本高昂，对模型优化和微调提出了更高的要求。其次AI性能很大程度上取决于高质量的数据，数据的获取、清洗、标注和处理是一大挑战，尤其是在保护数据隐私和符合法规要求的前提下。还有场景和应用经验、多模态任务的挑战等等，所以大模型的落地不能仅仅认为是“最后一公里”的事，而是从工程整体上检验案例项目的突破和进展。随着技术的迭代革新和市场逐步成熟，这些挑战最后都能得到有效解决。

文/陈徐毅高级工程师，科技专栏作者，中国计算机学会会员。
本文刊发于《中关村》第251期

大模型内卷升级：2024成AI进程加速年

作者：水哥