阿里通义千问
智谱GLM
Kimi chat
讯飞星火
很遗憾,这五位选手无一例外地都表示公开资料没有现成的答案,所以搞不定……当然,按照所谓思维链模式,通过一系列结合精心调制的promt,拆成多个子问题一步步地问,也许可以得到可用的答案。但这种Prompt hacking的玩法用于解决实际问题的商业价值上限太低,限于时间关系,本系列评测就不做这类研究了。
至少,在当下这个时点,端到端地获得没有现成答案的组合问题,对国产大模型来说,还是一个挺大的挑战。
请注意:如果大家想复现这个问题的结果,请记得把内容进行适当替换,例如杭州换成开封,长江以北换成岭南,北宋换成西夏,等等。否则,这个问题一旦被多次问到,不排除某些产品会抓到新出现的答案,或者从技术上打个补丁。为获得更为客观的结果,也可以把整个问题以类似的思路进行替换,例如:
“罗马共和时期,用于铸造青铜器的主要成分,有没有在中原的重大战役中使用过的武器中出现”