01-08 07:04
哪个测试靠谱?到㡳
好消息是国内外的差距在缩小,11月的差距还在10分左右,现在是4分左右
测试基于四大维度:
模型象限:
大模型能力分布:
报告全文在此,感兴趣可以仔细研读。看过全文,认为测评基本上称得上科学、客观;如有专业人士,也欢迎发表高见。
在这个榜单中,文言一心4.0API位居国产第一。因为一直用的讯飞星火,这次下载了文言一心、开了个59.9元的会员版(免费版只有3.5版本),准备试用一下。很诧异星火的排名,以前一直用得比较顺手,个人粗略感觉排个前三或者前五应该问题不大。不知各位使用对比的体验如何?报告中的历史排名也部分印证了我的感觉:
不知道还有没有其他类似的专业排名供参考,可以综合比较一下。“百模大战” 估计今年该要决出胜负了,拭目以待吧。