发布于: Android转发:0回复:2喜欢:0
人类常识测试(测试时候,首先保证网络搜不到原题,搜不到原题)
2016年的国际比赛Winograd测试,2017年时候度度问答那个截图不过关!那么国内现在中文大模型在人类常识测试中能够过关吗?现在大模型炒作新潮点是500万,1000万,200万的上下文!图片中的问题,Winograd测试中也获得第一名,不过这个第一名也没什么好说的,为什么因为第一名我们$科大讯飞(SZ002230)$ 也只得了60分,人类可以轻松的得到90分。如果你只是从文字的上下文的角度,其实没有太多的信心帮你来得到这个答案;这完全基于我们人类的常识,而这种常识是认知智能一个非常基础的东西。
人类常识测试
张老师给小明同学讲:三岁的大老鼠吉米爬上了一岁多小象汤姆的鼻子,小明同学,吉米和汤姆谁比较重?谁比较体形大吉米还是汤姆?查看图片
引用:
2017-07-07 14:46
$科大讯飞(SZ002230)$ 另一个搜索、知道产生的人工智能算不算:“扯淡”? 去年被认为将来要代替图灵测试的国际常识推理比赛(Winograd Schema Challenge),是用来测试机器的推理能力的。例如比赛其中有一个问题是:“爸爸没法举起他的儿子,因为他很重。请问是谁重?”你需要知道是儿子重;如果...

全部讨论

03-23 10:12

张老师、小明同学、吉米、汤姆这几个,谁比较老?

03-23 10:11

那么“小明同学”与汤姆比,谁比较重?谁体形大?