回复@iFly2023: 这一版高考数学题对比测试是复旦NLP实验室做的。网页链接//@iFly2023:回复@山中一小...

发布于:2024-06-11 11:34

iPhone

转发：0

回复：4

喜欢：0

回复@iFly2023: 这一版高考数学题对比测试是复旦NLP实验室做的。网页链接//@iFly2023:回复@山中一小农:讯飞的数学能力是下降了。
1、前两天有人说讯飞逻辑非常强，我测试了一下确认数学能力真的下降了。首先，之前很多数学题能做对的，现在总是做错，思路往往是对的，但总是考虑不周全或计算错误。其次，对于数学问题，星火非常不稳定，稍微换个提示词答案就会不一样。
2、上面考试讯飞星火的结果我是相信的，我自己试过，星火图文识别还是牛的，但是结果不行。百川4效果这么好有点惊讶，百小应图文识别差，输入数学题目比较麻烦，不知道作者是怎么测的。
3、对于星火来说，更换提示词结果差别比较大，此外，图文识别一次性输入题目的数量也有差异。对于有些大模型，如果一次输入一个题目，和一次输入一张图片，结果差别很大。
$科大讯飞(SZ002230)$

引用：

2024-06-11 09:10

$科大讯飞(SZ002230)$ 讯飞星火高考数学遥遥“领先”，学习机能买吗？

全部讨论

AI赛博朋克

06-12 06:20

本次测评中，主要研究了数学试题的prompt中公式格式对模型性能的影响。大模型在数学推理任务中的鲁棒性与准确性还有很大提升空间。

iFly2023

06-11 12:26

我仔细研究了一下对讯飞星火和百川百小应的评测，现在的评测都是非常不客观的，必须加限定条件：
1、是读入图片测的吗，还是手动输入测的？有些大模型读图片不准，自己测试目前仅有讯飞能读准图文（这项技术的确是遥遥领先）。之前有个测试说星火非常强，百川、智谱非常糟糕，是因为百川、智谱通过图片读入的题目都是错的，自然结果就很差。讯飞如果采用读入图片方式输入，虽然读入是准确的，但是结果会非常糟糕，不知道为什么。可能对于读图的训练没做好匹配。
2、是一道题目一道题目输入测的，还是通篇输入测的？用了什么提示词？有些大模型长文本能力不太行，有些比较强，这也会产生差异。
我觉得复旦的这个结果，对于百川等无法读图的，可能是一道题目题目输入的，而对于讯飞可以读图的，可能直接读入的文档。
我采用如的方法对星火和百川进行了测试：
1、从星火读入图片，让星火把题目输出，再把题目拷贝到星火或百小应中进行作答。
2、星火正确率非常高（错1-2道），百小应也不差（错2-3道）。但感觉星火有些中间过程并不准确，不知道为何结果是对的。
总之，结论就是：目前国内第一梯队大模型的数学能力都差不多，没有绝对差距，差距都是其它方面造成的，并不是数学能力本身。有个感觉，大模型在参数不占优情况下，对各项能力之间均衡的考量用好了会成为优势，不过最终目标还是扩大参数。
$科大讯飞(SZ002230)$

作者：AI赛博朋克

引用：

全部讨论