人类常识测试(测试时候，首先保证网络搜不到原题，搜不到原题）2016年的国际比赛Winograd测试，2017年时候度度...

发布于:2024-03-23 10:09

Android

转发：0

回复：2

喜欢：0

人类常识测试(测试时候，首先保证网络搜不到原题，搜不到原题）
2016年的国际比赛Winograd测试，2017年时候度度问答那个截图不过关！那么国内现在中文大模型在人类常识测试中能够过关吗？现在大模型炒作新潮点是500万，1000万，200万的上下文！图片中的问题，Winograd测试中也获得第一名，不过这个第一名也没什么好说的，为什么因为第一名我们$科大讯飞(SZ002230)$ 也只得了60分，人类可以轻松的得到90分。如果你只是从文字的上下文的角度，其实没有太多的信心帮你来得到这个答案；这完全基于我们人类的常识，而这种常识是认知智能一个非常基础的东西。
人类常识测试
张老师给小明同学讲:三岁的大老鼠吉米爬上了一岁多小象汤姆的鼻子，小明同学，吉米和汤姆谁比较重?谁比较体形大吉米还是汤姆?查看图片

引用：

2017-07-07 14:46

$科大讯飞(SZ002230)$ 另一个搜索、知道产生的人工智能算不算：“扯淡”？去年被认为将来要代替图灵测试的国际常识推理比赛（Winograd Schema Challenge），是用来测试机器的推理能力的。例如比赛其中有一个问题是：“爸爸没法举起他的儿子，因为他很重。请问是谁重？”你需要知道是儿子重；如果...

全部讨论

俺是吃素的

03-23 10:12

张老师、小明同学、吉米、汤姆这几个，谁比较老?

俺是吃素的

03-23 10:11

那么“小明同学”与汤姆比，谁比较重?谁体形大?

作者：俺是吃素的

引用：

全部讨论