本次评估使用了300块H100对目前全球100多个主流开源大模型,在BBH、MMLU-PRO、MUSR等六个基准测试集上进行了全新评估。
据介绍,本次重新评估的原因是,许多开发者过于追求排行榜的名次,导致在模型训练过程中过度依赖评估集数据,再加上过去的评估标准对于模型来说过于简单,因此本次评估加大了难度标准,旨在检验各家大模型的真正实力。