清华自然语言处理科学家孙茂松:深度学习碰壁之后,我们还能做什么?

作者 | 蔡芳芳

AI 前线导读:10 月 31 日,北京创建全球人工智能学术和创新最优生态的标志性学术活动“智源大会”在国家会议中心召开。会上,自然语言处理领域国际领军人物、清华大学教授、智源首席科学家孙茂松接受了 InfoQ 等媒体的采访,他向记者表示:当前,大数据驱动的自然语言处理已经做得不错,但大知识或者比较丰富的知识驱动的自然语言处理才刚刚起步,智源的目标是实现大数据和大知识双轮驱动的自然语言处理。实现这一目标的前提是构建一个全世界通用的人类知识库,这也是智源“自然语言处理”研究方向科学家们现阶段要重点攻克的难题。更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

以下是与孙茂松教授的访谈实录:

孙茂松: 人工智能这几年的发展,大家接触比较多的是图像方面的成果,包括很多创业公司,像人脸识别、刷脸等等,图像方面的进步非常快。但是图像只是智能的一部分,人的智能区别于动物最主要的特征是语言。人工智能领域有一句话叫:让计算机理解自然语言是人工智能皇冠上的明珠。下一步人工智能要害的地方就是想办法让机器理解人类的语言,这是自然语言处理在人工智能学科中的地位。

对于智源的自然语言处理方向,我们也是根据自然语言处理发展的历史脉络设定研究目标。自然语言处理这几年的进展和图像识别进展背后依赖的基本方法是差不多的,就是深度学习。深度学习最显著的特点就是依靠大数据,必须要有海量的数据来训练。自然语言处理相关的,比如语音识别和机器翻译,大家觉得这几年还不错,都是靠大数据驱动。好处就是能使性能飞速提升,但也存在问题,大数据驱动的深度学习是典型的是黑盒。虽然看起来翻译得不错,好像机器理解了这句话,其实完全没有理解,这个系统在处理复杂语义的时候非常脆弱。

如果一个句子中包含世界知识,翻译系统经常会被搞得稀里糊涂。比如公交车上的到站提醒“前门快到了,请从后门下车”,把这个句子给计算机翻译,现在所有的计算机系统都是不行的,它不知道“前门”这个地方。

下一步我们认为要真正理解语言、攻克人工智能的难关,需要知识驱动。我们提出口号,大数据驱动的自然语言处理已经做得不错,大知识或者比较丰富的知识驱动的自然语言处理才刚刚起步。 在智源的框架下,我们希望做到大数据和大知识或者富知识双轮驱动的自然语言处理,这对现在人工智能的大数据驱动的方法也是重要的突破。做这件事非常难,需要有计算机可操作的人类知识库作为基本资源,但这个知识库现在还没有做出来。虽然全世界范围内有一些知识库,但是还没有真正能够很好地驱动自然语言处理的人类知识库,特别是常识库,可能有一些基于某个角度的知识库,但得到全人类认可的还没有。我们希望在常识知识库、世界知识库方面做一些尝试,然后在这个知识库基础上研究新的大数据和大知识结合的人工智能算法。如果做出来肯定是一项非常重要的突破,能不能做出来需要看我们的努力。

问:您提到知识和数据互补,不同的人可能会有完全不同的知识,怎么去提炼人的常识?我们又怎么实现让机器学习什么呢?

孙茂松:知识体系看起来好像每个人都有不同,但实际上人类共同知识的核心是相对稳定的。有一种范畴,在全世界都差不多。比如说人是动物的一种,这一类的知识现在是比较充分的,但更丰富的细节就很匮乏。比如看现在谷歌、Wikidata 等国际上已经放出来的规模特别大的知识库,其实是大而不强的。我举个例子,比如关羽,Wikidata 中关于关羽的描述包括关羽是一个武将,关羽是中国三国时期蜀国的一个将领,他生在哪年、死在哪年,他儿子是谁。但我们熟知的关羽的所有事迹都没有形式化的描写,比如关羽过五关斩六将、走麦城都没有,Wikidata 只是给你一篇文章,它只能做粗浅的处理,没办法做推理。这类世界知识现在做得非常不够,这些知识是客观存在的,我们需要把这些总结出来,全人类应该有很多是有共识的。

我们希望能做这样的一个库,至少做其中的一部分,比如体现北京特色的库,做得比较深入一些。要做到这一点不能完全靠人工。文本中有这种描述:关羽哪年哪年从麦城开了哪个门趁夜逃走,这句话是有的,但是需要形式化。谁逃走了?关羽。地点在哪?城门。什么时候?半夜。这些得抽取出来,抽取出来以后,才能把所有句子变成一阶谓词逻辑表达式,相当于变成数学公式,计算机就可以操作了,可以用数学逻辑的办法来推理,可以比较深入。但前提是必须能对这句话分析出刚才说的结构,这就是自然语言处理的任务。

问:现在有一些学者认为人类很多发明在理论之前,比如先做了飞机再出来空气动力学,他们觉得这是一个合理的过程。在您看来,黑箱对研究和应用会带来什么风险,可能造成什么问题?

孙茂松:黑箱并不是不好。1950 年图灵提出图灵测试,那就是黑箱测试。如果我们在那个时候说一定要把人脑的机制搞清楚才做人工智能,那到现在人工智能都还没法做。实际上黑箱并不是贬义的,在不同阶段,搞不清人脑的时候就只看外特性,外特性有智能就是智能。图灵测试伟大的意义在于,我不需要搞清人脑,也可以做人工智能,这是它最重要的意义,可能很多人没意识到这点。

黑箱有它的问题,它是不得已而为之,如果能搞清人脑的机制再做研究,肯定会更深刻。比如图像识别很容易被攻击,就是因为它是黑箱,是端到端的,端和端的情况千变万化,图像再多也会也例外的东西出现,即使有 99% 的概率可以正确识别,也会有 1% 的例外,那 1% 的例外如果出现某种问题,结果可能就很糟糕。必须有系统性的知识才能有系统性的解决方法,否则这个问题解决不了。

举个简单的例子,60 年代机器翻译业界很有名的一个学者写了一篇文章,他举了一个很简单的例子叫“The box was in the pen”,box 是盒子,pen 有两个意思:一个是钢笔,一个是围栏。翻译这句话对人来说非常容易,对机器却很难。首先它要知道 in 是什么意思,in 是一个小东西装到一个大东西里边;第二要知道 box 盒子比围栏小,所以可以装到围栏里,但不能装到钢笔里,装不进去。这句话现在用谷歌、百度、微软的机器翻译系统翻译出来都是错的,都会翻译成箱子在钢笔里,因为它没有知识,人家没告诉它该怎么翻,它只能按端到端的黑盒来做,做的就是错的。围栏这个词出现的频度很低,钢笔说的频度高,系统就挑了一个更有可能出现的词,就是钢笔。如果系统具备知识,就能知道这样翻译是不对的,因为盒子只能装到围栏里,哪怕围栏这个词出现的频度再低,也只能翻译成围栏。

问:您提到要建立知识库来训练机器和算法,让它在使用黑箱之前优先考虑常识。但是对于何为常识,有一些全人类有共识,有一些没有共识。有些人可能认为登月是阴谋论,可能还有其他关于地缘政治或者其他方面的分歧。想构建适合全人类的知识库就会遇到这个问题,这个问题怎么解决?想要训练机器去阅读这些材料,材料应该怎么选取?

孙茂松:我说的是人类知识的核心部分,核心部分是比较稳定的,也就是所谓的常识。超出常识范围的知识,相当于观点,不同人会有不同。我们试图刻划常识部分,比如你去餐馆,不管全世界哪个餐馆,你要点菜、上菜、吃完之后付账,不付账就跑人家肯定不干,这就属于常识。

观点是灵活的,为什么我们要做“双轮驱动”,因为观点难以穷尽而且因时而变、因人而变、因地而变,这就要靠大数据,需要从数据文本里面挖掘。光靠知识肯定不行,核心知识覆盖面不够,需要两方面结合。

另外,知识库一定要是高质量的,里面不能包含人为的错误,这是基本要求。人类常识和世界知识基本的原则之一,就是要符合事实。

问:如果使用更小的数据集,在现有的研究状态下可能会导致精度下降,基于保护隐私的考虑,如果有人想致力于用小数据集产出同样或类似的结果,这个工作是不是很困难?

孙茂松:很困难。目前这一轮大家用的比较火的方法基本都是基于大数据,没有大数据根本不成。小数据是研究热点,比如医疗领域要拿到病例很困难,可能通过各种许可也只能拿到几百个人的病例,如何把学术研究利益最大化,做出好的成果,必须是小数据驱动。小数据就意味着要有知识,要能够推理和判断,都是这代人工智能最大的短板。

现在大家都在研究小数据,目前如果能取得成功,一般都是在特定领域。针对特定问题有相当的知识,在知识的引导下做小数据,才有可能。目前没有一个通行的公认的解决方案,不像深度学习,有一些基本的工具是全世界都有的。

问:想要打造一个您前面提到的庞大的世界知识库,最大的难点是什么?

孙茂松:这个知识库不可能完全靠专家来写,写知识库需要非常有水平的人,要带着一帮人做 10 年、20 年,才有可能做得不错。在中国,这种条件基本不具备,中国科研评价体系急功近利太厉害了,虽然一再号召我们发扬“板凳干坐十年冷,文章不写半句空”的科研精神,但现在真正坐冷板凳的人还是太少了。而且坐冷板凳的人还得有水平,没水平坐一百年冷板凳也没有用。

做知识库需要对世界万物有准确的把握,世界万物理论上都是相互关联的,全部描写是不可能的,一定要抓主要矛盾。这些东西有关系,要把它的重要关系找出来,需要有判断,这是很不容易的。最早做知识体系的是亚里士多德,他的《范畴论》把世界分成若干个范畴,研究语言的主语、宾语、谓语也是亚里士多德,在中国不太具备同样的条件。

一个可行的办法是我们把现有世界各方面的知识库都拿来,先做一个整合,看能不能汲取一些养分,再从文本中挖掘知识库。你可以设想,互联网上所有知识其实都写出来了,问题是怎么形式化,分出谓词、主语、宾语,让计算机来做这件事很难。但这个事做出来以后,就有可能把互联网上所有的文本形式化,变成类似前面提到的谓词逻辑表达式,相当于变成某种公式化,然后就可以往知识库填充了。如果这条道走通了,问题就能在一定程度上得到解决。但是让机器分析出主谓宾太难了,现在瓶颈卡在这里。能不能达到我们的设想,要看自然语言处理技术能得到多大的帮助,这个有很大的挑战。我们不敢说一定能做出来,但我们正在往那个方向努力,我们认为目标应该要做到这个程度,才有可能解决问题。能否达到不好说,太有挑战性了,既有难度又有规模的挑战。

问:图神经网络最近一年热度很高,前段时间您的研究团队也发表了一篇图神经网络的综述论文,能不能跟我们聊一聊图神经网络未来的发展潜力?

孙茂松:图神经网络本身的算法研究,总的来说还是中规中矩,并没有特别的奇思妙想。把现在神经网络的办法用到图上是一个比较自然的延伸,这两年得到关注是因为端到端基本上走到极致了,科研红利基本走到头了,大家意识到端到端有问题,所以要引入图。引入图就是为了引入相关的知识,显式知识还是隐含的知识,两者有关联,相当于抽取某种知识放进去,就反映我说的,希望把某种知识嵌进去才有图神经网络。图神经网络研究难在于图本身怎么构造,这是我个人感觉最有挑战性的,其他的方法研究反而不是很难。原来图方面已经有很多工作,图的经典算法非常多,图神经网络是图算法和神经网络算法比较自然的结合,这有挑战,但是挑战不是特别大。图如果做的很浅,即使把图神经网络放进来,效果也有限;如果图包含的知识很多,可能就难,目前对图的应用还是相对简单。

问:现在大家都到了对深度学习开始反思的阶段?

孙茂松:现在不是反思,走到这基本上深度学习的好处我们享受得差不多了,它的不足不是做得不好,而是因为它的方法天然就有某种缺陷,大家都碰到了这个问题,不用反思。比如机器翻译,谷歌基本上把全世界双语语料都整全了,按理说功能非常强大,但还是解决不了“Box was in the pen”的问题。翻译要做到信达雅,信现在还没做到呢,更不用说达雅。那要怎么做到信呢,大家现在都意识到深度学习好像不能解决这个问题,没有知识库就解决不了。端到端的功能非常强大,但是有时候又不像我们想象的那么强大,这不是反思,碰壁了就得思考。

问:您怎么评价当前国内在自然语言处理领域学术研究的现状?您觉得做的好和不好的点在哪?

孙茂松:国内自然语言处理从研究角度来看,我认为在国际上应该是处在一线,在最好的之列,并不逊于斯坦福、MIT 这些机构。但是自然语言处理缺一个特别重要的里程碑式突破,比如图像领域有李飞飞团队的 ImageNet,这样一个特别重要的进展。自然语言处理里面有两个方向有比较大的进展,一个是语音识别,一个是机器翻译,这两件事都是由公司在往前推。大学的研究如果从发表高水平论文这个角度来说,国内做得不错,从定量指标来看,我们实际上做得不错。但是这个领域还要看效果,不能光看论文,这方面我们就弱了,反而公司在引领潮流,因为需要强大的计算能力。从研究角度我们做得还不错,并不意味着我们整体做得不错。坦白说,在 NLP 领域我们跟国际上最好的学校做的差别不是太大,反而在比如语义资源建设上,美国有 WordNet,我们没有,当然国内有 HowNet,但是 HowNet 不是大学做出来的。

问:现在有很多成果都是工业界做出来的,这个趋势会延续下去吗?

孙茂松:工业界在享受学术界得到的创新,0 到 1 这个事基本不是工业界做的,像深度学习的 0 到 1 是大学做出来的,1 到 2 大学也在做一些。再往后走,工业界就可以上手了。大学需要在 0 到 1 这个阶段发力,才能真正把方向定清楚,2 到 N,大学是做不过企业的。当然这个过程有时候是分成 0 到 1、1 到 3 和 3 到 N。0 到 1 是原创,1 到 3 还是有一些技术科学的问题搞不清楚。我们现在做得比较多的是 1 到 3,而工业界也开始做 1 到 3 了,大学和工业界比就没有太大的优势。大学就应该放手,不去做 3 到 N。大学应该在 0 到 1 方面发挥作用,这就涉及到更大的问题,涉及到人才培养,涉及到钱学森之问了。

你也「在看」吗?

雪球转发:0回复:0喜欢:1