讯飞的大模型评测体系

发布于: 修改于:雪球转发:2回复:23喜欢:14

根据从各种报告中截图,讯飞评测体系给出的各个大模型的评测如下:

先说结论,讯飞的评测体系还是比较可靠一致的,并且与大家的体会是一致。

1、首先,讯飞V1->V1.5,V3->V3.5各项能力都是逐步提升的,保持了连贯性。而像国内的SuperClue,评分非常不稳定,不同版本间有时评分相差非常大。比如,讯飞V3->V3.5,数学能力翻倍增长;GPT4-Turbo刚发布时,评分竟然接近满分,后来又修正了。为了让前面的GPT4排在前面,排名看起来更合理,SuperClue规则也一直在变,一直调整开放题和客观题的比例。这可能是题目数量不够、分布不太合理造成的。

2、其次,讯飞的评测体系跟大家的直观感受是比较一致的。V1很惊艳,V2知识问答大幅提升,V2代码和多模态,V3压根就没有任何提升,甚至还下降了。为什么?因为V3版本压根就没有训练完,是个中间版本,但是1024这么重大的节日,必须上啊。

3、评测体系对大模型的研发非常重要。对于大多数大模型公司,没有能力研发自己的评测体系,会基于公开数据集的组合建立自己的评测体系。讯飞基于自己的应用方向开发属于自己的数据集,这是很正常的。比如,数学能力,讯飞完全可以基于自己的知识图谱,从小学到高中各种题型出一遍,数量也合适,分布也均匀,相对市面上搜罗一些题目来进行评测,肯定更有说服力。这一点,没有必要怀疑讯飞,讯飞也肯定是本着科学原则建立的体系,没有必要骗自己。讯飞也一定会用公开数据集去做内部评测,只要在自己的评测体系下可以,相信公开数学集也不会太差,至于有多好,也许比不上用公开数据集直接训练的,也只能等讯飞公开的时候了。

4、最后,肯定很多人会说,虽然讯飞没有主动做手脚的动机,但讯飞的评测体系肯定会偏向自己的应用方向,导致自己分数更高。这样的嫌疑肯定是存在的,但我觉得这非常正常啊。我知道自己的业务方向,让我的大模型在这些方向上有所加强,这是不是也是一种优势呢。其它家做医疗方向,怎么验证你的系统可以,大模型公司中可能也就讯飞的评测体系更有说服力吧。我本身想做教育、医疗,结果我开发出来的大模型聊天逗乐很强,这也不合适吧。

最后,说几点我从上面的评分表中得到的一些推测和结论吧:
1、GPT4-Turbo相比GPT4强在了文本生成和数学能力,代码能力有所下降,逻辑推理有所增长,这个不知道和用户的使用感受是否一致。如果准确的话,说明GPT4-Turbo相比GPT4,加入了更多优秀的文本,并进行了大量数学题的训练。

2、星火V3对标的chatGPT,应该是前年最初发布的版本,从中看出分数非常低,不过国内各家也都不把GPT3.5放在眼里了,各种评分也是把GPT3.5远远甩在身后。

3、星火V3.5相对V3是能力的全方位提升,从中可看出能力非常接近GPT4 Turbo。唯一的差距在多模态,其实GPT4 Turbo本身多模态能力一般,而是专门开发了基于多模态推理的GPT4V,星火差距还比较大。

4、一个推测,星火V3.5大概率是V3再训练的版本,V4不知道会不会是万亿参数版本,按理说,万亿参数不会这么快训练完,会不会是3月分发布一个中间版本,4月份再发布一个,6月份发最终版本。理论上,这么大的参数提升,性能上将会实现对V3.5的碾压,和GPT4 Turbo PK也就不在话下了。最乐观的情况是,3月份就已完整训练完,直接碾压了。

5、大模型性能上好,并不一定APP体验就好,当然大模型性能是APP体验的基础,但APP里可能是一堆模型的组合,比如,对于OPENAI来说有三个版本: GPT4、GPT4 Turbo、GPT4V,代码最强的GPT4,多模态最强的GPT4V,而其它方面GPT4 Turbo最强。APP里也有降本的需求。大模型性能到APP体验之间还有许多事要做。

$科大讯飞(SZ002230)$

精彩讨论

九洲仙人02-18 17:52

$科大讯飞(SZ002230)$ 公司都不敢这么吹,竟然比gpt4还厉害。
实际上还不如chatgpt3.5 呢

一只特立独行的猪xz02-14 22:28

AI目前得主要核心盈利还是在公司端,比如广告的效率等等
大模型未来是如何盈利的呢?这点我还没搞懂,虽然大家现在都在搞大模型竞争。

全部讨论

AI目前得主要核心盈利还是在公司端,比如广告的效率等等
大模型未来是如何盈利的呢?这点我还没搞懂,虽然大家现在都在搞大模型竞争。

02-14 12:36

推测下讯飞会不会再大规模融资,如果不融资靠自己这点钱能干成吗。

02-18 17:52

$科大讯飞(SZ002230)$ 公司都不敢这么吹,竟然比gpt4还厉害。
实际上还不如chatgpt3.5 呢

你粉丝这么少不合理呀。

02-14 21:36

大佬,这个数据哪里来的...

02-14 20:48

1024是啥大日子阿?🤔

02-14 13:35

会不会华为成为讯飞第一大股东,注入鸿蒙系统

02-17 14:36

目前ONPENAI盈利不就是靠订阅么,和金山办公没什么区别。问题是讯飞到现在都很多年了,不是新崛起的企业,这么多年都没找到盈利的模式,以后可能找到?不赚钱,能怎么估值?新公司可以暂时容忍亏损个好几年甚至七八年甚至十年,讯飞这都成名很久的企业了,超过10年了,还赚不到钱,以后也赚不到钱。

笑死了,这个都信,呵呵

02-21 10:16

1