发布于: iPhone转发:0回复:4喜欢:0
回复@iFly2023: 这一版高考数学题对比测试是复旦NLP实验室做的。网页链接//@iFly2023:回复@山中一小农:讯飞的数学能力是下降了。
1、前两天有人说讯飞逻辑非常强,我测试了一下确认数学能力真的下降了。首先,之前很多数学题能做对的,现在总是做错,思路往往是对的,但总是考虑不周全或计算错误。其次,对于数学问题,星火非常不稳定,稍微换个提示词答案就会不一样。
2、上面考试讯飞星火的结果我是相信的,我自己试过,星火图文识别还是牛的,但是结果不行。百川4效果这么好有点惊讶,百小应图文识别差,输入数学题目比较麻烦,不知道作者是怎么测的。
3、对于星火来说,更换提示词结果差别比较大,此外,图文识别一次性输入题目的数量也有差异。对于有些大模型,如果一次输入一个题目,和一次输入一张图片,结果差别很大。
$科大讯飞(SZ002230)$
引用:
2024-06-11 09:10
$科大讯飞(SZ002230)$ 讯飞星火高考数学遥遥“领先”,学习机能买吗?

全部讨论

06-12 06:20

本次测评中,主要研究了数学试题的prompt中公式格式对模型性能的影响。大模型在数学推理任务中的鲁棒性与准确性还有很大提升空间。

06-11 12:26

我仔细研究了一下对讯飞星火和百川百小应的评测,现在的评测都是非常不客观的,必须加限定条件:
1、是读入图片测的吗,还是手动输入测的?有些大模型读图片不准,自己测试目前仅有讯飞能读准图文(这项技术的确是遥遥领先)。之前有个测试说星火非常强,百川、智谱非常糟糕,是因为百川、智谱通过图片读入的题目都是错的,自然结果就很差。讯飞如果采用读入图片方式输入,虽然读入是准确的,但是结果会非常糟糕,不知道为什么。可能对于读图的训练没做好匹配。
2、是一道题目一道题目输入测的,还是通篇输入测的?用了什么提示词?有些大模型长文本能力不太行,有些比较强,这也会产生差异。
我觉得复旦的这个结果,对于百川等无法读图的,可能是一道题目 题目输入的,而对于讯飞可以读图的,可能直接读入的文档。
我采用如的方法对星火和百川进行了测试:
1、从星火读入图片,让星火把题目输出,再把题目拷贝到星火或百小应中进行作答。
2、星火正确率非常高(错1-2道),百小应也不差(错2-3道)。但感觉星火有些中间过程并不准确,不知道为何结果是对的。
总之,结论就是:目前国内第一梯队大模型的数学能力都差不多,没有绝对差距,差距都是其它方面造成的,并不是数学能力本身。有个感觉,大模型在参数不占优情况下,对各项能力之间均衡的考量用好了会成为优势,不过最终目标还是扩大参数。
$科大讯飞(SZ002230)$