大模型祛魅(第一期)杭州知府有没有在北方干过?

发布于: 修改于: 雪球转发:0回复:0喜欢:0

这是一系列大模型能力评测的专题文章的第一期。刷榜行为在AI研究,尤其是机器学习领域由来已久已有,过去10年,时不时就能看到某某技术在某某评测中创造了新的SOTA(最牛结果),超越了人类水平,通过了专业测试……然而,目前绝大多数测试都是基于静态数据,能在这部分数据上取得良好的结果,不代表就能在没有出现过的同类问题上一样取得良好的结果。

举个简单的例子:如果某个人如果能够计算出12+2=14,我们在很大程度上可以确信ta也能计算出12+3=15。然而,如果某个榜单的测试题目中有12+2=14,在这个榜单中取得最高名词的模型或算法,你问它测试题目中没有出现过12+3,它很可能就挂了。

这个问题延续到大模型,目前能看到的各种评测依然无法解决这个问题,你不能确定大模型是真的能够从已有知识中加工出答案,还是以前有人曾经回答过类似的问题,被大模型记住了。这是静态数据测试无法从根本上解决的缺陷,除非有一类测试,每次出的题都是以前从没见过的,但保证它们的考察点具有可比性。由于成本和技术难度的原因,目前还没有出现类似的动态评测。这也是本系列文章的出发点。

目前评测的大模型暂定为5个头部国产产品:百度文心一言、阿里通义千问、智谱GLM、Kimi chat、讯飞星火,均为其公开免费版。

本期评测的问题是:

“北宋初年,杭州的历任最高行政长官中,有没有哪位担任过长江以北重要城市的行政职位?”

如果直接问大模型北宋初年杭州的行政长官是谁,哪些城市位于长江以北,北宋时候山东最大的城市是哪个,苏东坡有没有在开封任过职,等等,这些问题可能都能准确回答,因为这些常规问题极有可能已经有人回答过,或者有文章写过。但是要回答上面这个没有现成答案的组合问题,就需要具备这样的处理能力:1、知道北宋初年是什么合理的时间范围 2、知道在这段时间的最高行政长官定义是什么 3、知道在这个时间范围内,长江以北属于北宋的重要城市有哪些;4、以合理的常识判断北宋时期地方城市重要的行政职位有哪些;5、最终给出符合问题条件的结果

对于人来说,这不是什么困难的事情,只要给足够的时间去查阅历史文献,一个有高中生也能解答这个问题。但对于大模型来说,能回答“北宋时期杭州的主官是谁”,不代表就能回答多加几个条件的,以前从来没出现过的类似的问题了。这种能力的缺失,直接制约了大模型的应用场景,因为我们要解决的现实问题不一定都是以前有文字记载过的。

现在,我们来看看每个大模型的答案:

百度文心一言

阿里通义千问

智谱GLM

Kimi chat

讯飞星火

很遗憾,这五位选手无一例外地都表示公开资料没有现成的答案,所以搞不定……当然,按照所谓思维链模式,通过一系列结合精心调制的promt,拆成多个子问题一步步地问,也许可以得到可用的答案。但这种Prompt hacking的玩法用于解决实际问题的商业价值上限太低,限于时间关系,本系列评测就不做这类研究了。

至少,在当下这个时点,端到端地获得没有现成答案的组合问题,对国产大模型来说,还是一个挺大的挑战。

请注意:如果大家想复现这个问题的结果,请记得把内容进行适当替换,例如杭州换成开封,长江以北换成岭南,北宋换成西夏,等等。否则,这个问题一旦被多次问到,不排除某些产品会抓到新出现的答案,或者从技术上打个补丁。为获得更为客观的结果,也可以把整个问题以类似的思路进行替换,例如:

“罗马共和时期,用于铸造青铜器的主要成分,有没有在中原的重大战役中使用过的武器中出现”

#大模型# #人工智能# #新质生产力#

$英伟达(NVDA)$ $科大讯飞(SZ002230)$ $百度(BIDU)$