Qwen2开源,百模大战结束

发布于: 雪球转发:0回复:0喜欢:0

撰文 | 王长胜

6月7日,阿里云的通义千问推出开源模型系列Qwen2,包括5款模型:0.5B、1.5B、7B、72B、MoE。其中,Qwen2-72B整体性能全面超越了美国最强的开源模型Llama3-70B,成为全球最强开源大模型。

去年还在讨论百模大战,万万没想到,仅仅不到一年,大模型格局已经彻底被改写,大部分国产大模型已经可以宣布名存实亡,最终能活下来的恐怕只有个位数。

这基本符合我去年写的文章《决战大模型,九死一生》,在这篇文章的结尾我预测:

“大模型三要素:算力、算法和数据,缺一不可,而背后支持的就是资金和人才。这是一个烧钱大战。当然,烧钱才能把行业烧热,才能诞生新技术、新革命,这也是大模型从业者对于下一个时代的光荣责任。过几年回头再看,就理解了这个标题,决战‘大模型’,可能不止是‘九死’,而是‘百死一生’。”

如果说Qwen2只是改变了中国AI格局,那格局就太小了。事实上,Qwen2在碾压国内所有大模型的基础上,也成为全球最强大的开源大模型。

为什么这么说?我们先来看看Qwen2发布后,全球AI巨头们的惊讶表情。

Qwen2发布后两小时,Hugging Face联合创始人兼首席执行官克莱门特·德朗格(Clément Delangue)发推宣布:“各位,HF开源大模型榜单新的第一出来了,Qwen2-72B。”

曾几何时,美国Meta一度用Llama系列一统开源大模型的天下,而如今,阿里的通义千问Qwen2凭实力坐上第一把交椅,这不仅仅意味着开源大模型阵营诞生了新标杆,同时,也为全球开发者提供了新的选择。

看不清?再上一张高清图。

这绝不仅仅是皇冠的更迭,更是中美两国在AI领域的争夺战,并且战争已经进入到白热化阶段。

美国不仅全面禁止了英伟达GPU对中国的出口,不想让我们用最先进的芯片训练大模型,甚至还要禁止中国人下载和使用开源的Llama3,连现成的大模型都不让我们用。要知道,Llama3可是当今全球最流行、最强大的大模型。这就如同安卓操作系统一样,如果禁止中国人使用会怎样?

Qwen2的发布,打破了僵局。全球各大机构的测评显示,同样是主力的72B参数对标Llama3-70B,Qwen2已经在绝大多数任务中全面超越了Llama3。也就是说,对我们而言,Qwen2已经完全可以替代Llama3了。Qwen2在多项中文能力上已经达到甚至超过了GPT 4.0,在英文、数学与人类评估上虽然不如GPT4.0,但也是开源大模型当中最好的了。

“自Llama 3以来,Qwen2是最具影响力的开源LLM,性能超过了Llama 3,在学术和聊天方面达到了最先进的性能。”

一石激起千层浪。

Qwen2的强悍登场,让全球众多开源平台和工具也在第一时间宣布了对Qwen2的支持,包括Tensor-RT、OpenVINO、OpenCompass、XTuner、LLaMA-factory、Firefly、OpenBuddy、vLLM、Ollama等,这样的生态影响力,是此前的国产大模型从来没有享受过的待遇。

在这里,我不得不多说一句。虽然开创性、颠覆式创新,我们确实还比不过美国;虽然引领时代的OpenAI,我们目前还无法比肩;但是,中国AI行业的科研人员的追赶能力还是非常强悍的,只要方向走对了,赶超只是一个时间问题。特别是在美国连开源大模型都不想给我们用的时候,阿里能够做出全球最顶尖的开源大模型,真的是给了我们很大的信心。

世界就是这样,竞争就是这样,有人欢呼,就会有人失意。

现在,国内几家头部的大模型公司一定百感交集,直呼“卷,太卷了”。以目前的大模型训练成本估算,Qwen2至少要投入几个亿才能训练出来,如今就这么白送给大家使用,这让那些试图靠大模型挣钱的闭源厂商还怎么活?

“我走你的路,让你无路可走。”

阿里不靠大模型赚钱,别人也别想赚钱。”

阿里是不是傻?把大模型行业卷死了,自己也赚不到钱,何苦呢?”

这也许是很多AI从业者对Qwem2开源的感慨。这么说,也没错,但是,我觉得阿里云应该不是这么想的。我试图帮大家分析一下。

从去年大模型爆发以来,哪家大模型公司挣到钱了?OpenAI?GoogleMETA百度腾讯?华为?科大讯飞?百川智能?智谱?抖音?一家都没有赚钱,目前还都在烧钱阶段。

赚钱的只有卖芯片(算力)的英伟达,卖云服务的亚马逊微软,都赚翻了。中国互联网圈有句名言,羊毛出在猪身上。美国淘金时代有句话,淘金的不如卖铲子的。

现在明白了吧,阿里云可是国内最大的云厂商,通义千问可以不赚钱,但是,最重要的云端算力资源都要跑在阿里云上,阿里云通过云服务把大模型的投入都赚回来,还得翻倍。这笔买卖亏不亏?

当然,有一点需要说明,通义千问开源大模型全球下载了已经超过了1600万,其中很大一部分并不会跑在阿里云上。所以,开源的第一目的并不是圈用户,这只是一个附加结果。从全球范围内来看,任何开源行为,初心大多是普惠,这一点不容诛心之论,其次是构建一个繁荣的生态,把饼做大了才有得分。

阿里的AI战略,或者说AI野心,差不多也是这样,或者说比这个更宏大一些。为什么这么说?要知道,阿里云一家干了美国三家AI领域巨头干的事情。

阿里云开源了通义千问Qwen2大模型对标的是META的开源大模型Llama,你开源,我也开源,你强,我比你更强。阿里云还搞了一个大模型开源社区——魔搭,汇聚了大量开源模型,成为国内开发者最活跃的AI社区,对标的就是美国的开源社区——HuggingFace。阿里云的云服务对标的就是亚马逊的云服务AWS。

作为一家提供基础设施的云厂商,阿里云从底层的算力基座,到大模型应用的构建,再到开放的AI生态,这完全符合当初阿里云的多位高管在多个场合反复说的那句话:“坚持开源和开放,是阿里云的重要策略,我们希望打造一朵AI时代最开放的云,让算力更普惠、让AI更普及。”

阿里集团CEO、阿里云CEO吴永铭在解释为什么暂缓阿里云分拆的时候就说过这句话:“坚决加大对阿里云的持续战略投入强度,让阿里云心无旁骛专注于‘AI+云计算’发展战略。为此阿里云暂缓从阿里集团完全分拆,以便能以更大的研发投入面对不确定的市场环境。”

Qwen2的开源,只是阿里AI战略的一小步,却成为中国AI产业的一大步。它在很大程度上,加速了中国AI的进程,也加速了百模大战提前终结。那些看不到希望的大模型厂家,可以重新做选择了,或者退赛,或者选择一个更适合自己的AI细分赛道,继续在AI产业中贡献力量,不一定非要卷大模型,做服务、做应用落地,都有着光明的前景。

如今,Qwen2利剑出鞘,斩获全球最强开源大模型的桂冠,并在全球范围获得了行业人士的广泛认可,这是“AI+云计算”战略的产物,也是市场竞争的产物。竞争,本身就有资源优化的作用,不要搞重复建设,把最优资源集中到效率最高的地方,AI的时代才刚刚开始,可做的事情还有很多,卷大模型,已经没有未来了。