自然语言处理：让机器善解人意2019年3月访问：华为诺亚方舟实验室语音语义首席科学家刘群网页链接《营赢》：有人认为“...

自然语言处理：让机器善解人意

2019年3月访问：华为诺亚方舟实验室语音语义首席科学家刘群

《营赢》：有人认为“自然语言处理应该是实现通用人工智能的关键挑战，得语言者得天下”，您怎么看？

刘群：这句话有一定的道理。有人把人的智能分为三大类：感知智能、运动智能和认知智能。

第一，感知智能，包括听觉、视觉、触觉等；最近两年，深度学习的引入大幅度提高了语音和图像的识别率，所以计算机在感知智能层面已经做得相当不错了，在一些典型的测试下，达到或者超过了人类的平均水平。

第二，运动智能，指能够在复杂的环境中自由行动的能力。运动智能是机器人研究的核心问题之一。

第三，认知智能属于最高级的智能活动。动物也具有感知智能和运动智能，但在认知智能方面，却明显低于人类。认知智能是包括理解、运用语言的能力，掌握知识、运用知识的能力，以及在语言和知识基础上的推理、规划和决策能力。认知智能中最基础也是最重要的部分就是语言智能，研究语言智能的学科就是自然语言处理。

自然语言处理的研究对象是人类语言，如词语、短语、句子、篇章等。通过对这些语言单位的分析，我们不仅希望理解语言所表达的字面含义，还希望能理解说话人所表达的情感，以及说话人通过语言所传达的意图。没有成功的自然语言处理，就不会有真正的认知智能。

自然语言理解和处理也是人工智能中最难的部分。比如一幅图像，改变像素，或者一个局部，对整个图

像的内容影响并不太大。但文字就不一样了，很多情况下，一句话中改变一个字，意思会完全不一样。

很多人工智能/机器学习技术，在图像识别领域，已经获得了很大的成功，但在自然语言处理领域，还处于起步的阶段。比如说，风格的生成。现在人们很容易把一幅画转变成梵高的风格，但要把一段话转换成莎士比亚风格，还没有技术能够做得很好。

所以，有些学者把自然语言处理称为“人工智能皇冠上的明珠”，是很有道理的，我非常认同这种说法。

《营赢》：您认为目前自然语言处理面临的最大问题是什么？

刘群：我认为自然语言处理今后面临的主要问题是两个。

一是语义理解，或者说知识的学习，或常识的学习问题。这是自然语言处理技术如何变得更“深”的问题。尽管常识的理解对人类来说不是问题，但是它却很难被教给机器。比如我们可以对手机助手说“查找附近的餐馆”，手机就会在地图上显示出附近餐馆的位置。但你如果说“我饿了”，手机助手可能就无动于衷，因为它缺乏“饿了需要就餐”这样的常识，除非手机设计者把这种常识灌入到了这个系统中。但大量的这种常识都潜藏在我们意识的深处，AI系统的设计者几乎不可能把所有这样的常识都总结出来，并灌入到系统中。

二是低资源问题。所谓无监督学习、Zero-shot学习、

深度学习的应用，使得自然语言处理达到了前所未有的水平，也使得自然语言处理应用的范围大大扩展。可以说，自然语言处理的春天已经来临。

Few-shot学习、元学习、迁移学习等技术，本质上都是为了解决低资源问题。面对标注数据资源贫乏的问题，譬如小语种的机器翻译、特定领域对话系统、客服系统、多轮问答系统等，自然语言处理尚无良策。这类问题统称为低资源的自然语言处理问题。对这类问题，我们除了设法引入领域知识（词典、规则）以增强数据能力之外，还可以基于主动学习的方法来增加更多的人工标注数据，以及采用无监督和半监督的方法来利用未标注数据，或者采用多任务学习的方法来使用其他任务，甚至其他语言的信息，还可以使用迁移学习的方法来利用其他的模型。这是自然语言处理技术如何变得更“广”的问题。

《营赢》：过去十年，自然语言处理领域影响最深远的研究是什么？

刘群：答案很明确，就是深度学习技术的引入。

基于深层神经网络的深度学习方法从根本上改变了自然语言处理技术的面貌，把自然语言处理问题的定义和求解从离散的符号域搬到了连续的数值域，导致整个问题的定义和所使用的数学工具与以前完全不同，极大地促进了自然语言处理研究的发展。

在深度学习技术引入自然语言处理之前，自然语言处理所使用的数学工具跟语音、图像、视频处理所使用的数学工具截然不同，这些不同模态之间的信息流动存在巨大的壁垒。而深度学习的应用，把自然语言处理和语音、图像、视频处理所使用的数学工具统一起来了，从而打破了这些不同模态信息之间的壁垒，使得多模态

信息的处理和融合成为可能。

总之，深度学习的应用，使得自然语言处理达到了前所未有的水平，也使得自然语言处理应用的范围大大扩展。可以说，自然语言处理的春天已经来临。

《营赢》：2018年，学术界有哪些新的方法或者趋势，让您觉得会对自然语言处理的应用产生新的影响？

」群：2018年自然语言处理研究领域最令人惊艳的成果是预训练语言模型，这包括基于RNN的Elmo和基于 Transformer的GPT和Bert。预训练语言模型的成功充分证明了我们可以从海量的无标注文本中学到大量潜在的知识，而无需为每一项自然语言处理任务都标注大量的数据。

在应用方面，Google演示的Duplex技术让人耳目一新。与此同时，国内几个公司提供的会议同声翻译技术

也令人印象深刻，语音同传虽然还有很多错误，与人类同声传译相比还有很大差距，但其实用性已经毋庸置疑。这项技术的实际应用在几年前还难以想象，在这么短时间内就达到了现在这样可以初步实用的水平，真是非常出乎意料。

作者：forcode

全部讨论