【首个AI高考全卷评测结果发布：最高分303 数学全不及格】《科创板日报》19日讯，上海人工智能实验室旗下司南评测体系O...

发布于:2024-06-19 16:16

雪球

转发：0

回复：27

喜欢：3

【首个AI高考全卷评测结果发布：最高分303 数学全不及格】《科创板日报》19日讯，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。