企业服务交互机器人将向多模态演进作者 | 刘燕采访嘉宾 | 徐易楠，追一科技 AI Lab 高级算法研究员编辑

作者 | 刘燕

采访嘉宾 | 徐易楠，追一科技 AI Lab 高级算法研究员

编辑 | Linda

AI 前线导读：这几年，企业服务赛道异常火热，AI 技术的创新和落地应用在提高企业服务效率上发挥了重要作用。相对于 TO C 端的聊天机器人，运用到企业服务场景中的智能交互机器人对垂直领域知识的专业度和回答的精确度有着更高的要求。现阶段的智能交互机器人还存在一些局限性，在形象化、拟人化、情感洞察方面瓶颈凸显，对此，追一科技提出了一系列解决方案，包括语音语义联合建模、文本风格迁移等。
在 11 月 21-22 日召开的 AICon 全球软件开发大会（北京站）2019 现场，InfoQ 有幸采访到了追一科技 AI Lab 高级算法研究员徐易楠，他分享了追一科技目前在企业服务智能交互机器人上的研究和探索，并就下一代交互机器人的发展趋势发表了看法。更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

以下为 InfoQ 与徐易楠对话全文，有删减。

InfoQ：您自何时因何契机加入追一科技，目前在追一主要负责哪些工作？

徐易楠： 我 2016 年加入追一科技，当时是毕业了回国找工作，个人比较倾向于去创业公司，因此没有去应聘大公司的岗位。当时在和 CEO 聊的时候，感觉是想踏踏实实做事情的风格，也和自己目标契合，所以就加入了。

目前在追一主要负责对话系统和多模态融合算法等前沿技术的探索与实践工作。

InfoQ：从技术的角度看，运用于企业服务场景中，主要服务 TO B 端的智能交互机器人与 TO C 端的聊天机器人有什么区别？

徐易楠：2B 机器人在很多方面和 2C 机器人都有差别，首先，其两者定位上就有较大区别，2B 其代表着一个企业或者机构，是一个严肃、认真、负责的形象，而 C 端机器人更多的是一个风趣、幽默的形象；其次对于服务场景，2B 机器人知识来源于企业内部的业务流程积累，侧重于在一个限定场景内解决问题，因此用户对其解决问题的期望也很高，而 2C 机器人则相反，其知识范畴为全领域，均有所涉及但了解不够深入；再者对于其效果，2B 机器人需要做到稳重、准确，不能出什么差错，而 C 端机器人则要求较低，不会回答可以插诨打科，反显风趣。单从技术角度来说，2B 机器人要准确识别用户问题是否是自己能力范围内的，针对范围外的要予以澄清，范围内的问题要准确回答。

InfoQ：您刚提到，企服智能机器人更多关注垂直领域的知识，我个人理解，为让用户增强信任，机器人需要对这些知识掌握的更加深入，从技术的角度，如何实现这种“深度”？

徐易楠： 一方面，从语料入手，积累这些垂直领域的语料，树立与全领域语料的差异性。另一方面，从行业知识入手，将垂直行业的知识做编码或者将其做成知识图谱化，并设法加入到模型中去。

InfoQ：在多模态情感分析方面，追一的智能交互机器人最近有哪些新的进展？

徐易楠： 多模态是追一非常看重的方向，多模态特别在交互场景有非常重要的意义。我们认为多模态未来会在 AI 三大领域之外形成自己独立的技术路径，因此我们正在积极投入研究。

具体到情感分析上，我们在做一个情感计算的模块，希望融合语音、文本、视觉的一些信息去做综合判断，目前已经取得一定效果，语音加文本的联合建模方式已经落地，并已经服务我们的智能培训、质检、坐席助理等产品。预计在年底，还会融合加入视觉部分，并推出相应的产品应用。

InfoQ：语音加文本建模最大的技术优势是什么？

徐易楠： 有时候在一些场景，ASR 不可避免的会有些错误，比如通用 ASR 对于领域知识识别效果有限，领域关键词识别错误通常会导致意图识别错误。为解决这类问题，我们希望用语音的一些信息去弥补在文本上的差异，从而达到比较好的效果。我们现在主要利用 ASR 语音识别的文本结果，原始的音频信息作为联合建模的“输入”，并得到最终判断。

比如同音字的语音识别上，以“改天”和“改签”为例，这种语音很相近但实际意义差距较大的词，只用文本建模很容易识别错误，这时可以加入一些语音信息纠正错误，这是语音加入到文本里建模的一个优势。

InfoQ：在识别用户的细微情绪变化方面，机器人是怎么做的？

徐易楠： 目前追一在情感识别方面还是主要集中在语音、文本和视觉及其融合技术上面，能够做到根据人说话的时间点变化形成情感变化曲线。在视觉方面，目前正在尝试在人脸整个区域做情感分析之外，也能针对一些局部区域做相关分析。

InfoQ：交互机器人在和人进行交互的过程中，有时会出现热情过度的情况、有时会出现对人爱答不理的情形，您认为，怎样才能达到一个很「自然」的对话效果？

徐易楠： 对话是一个交互的过程，其必然会包含两部分：信息的获取以及输出。

在信息获取方面，一是需要机器人针对当前对话的语境给出一个合理的判断，比如用户很愤怒、高兴等不同心情的对话策略都是不同的；二是要对用户对话的内容准确理解，知道用户在说什么、想表达什么。三是要对用户画像有个合理的理解，知道用户偏好哪一种对话方式，比如某个用户比较偏严肃，如果对话过程中一味的幽默风趣，体验也不太好。基于以上信息，我们才有可能去做一个全面的、合理的判断，做到全面理解用户诉求。

在理解用户诉求后，要做到自然的对话效果，还需要有较好的对话回复。做到好的回复，我们最先想到的当然是使用规则进行回复生成，可以实现配好针对不同用户、不同语境、不同问句的回复，这个也能做到较好的水平。这个就和我们读书时候参加的考试一样，针对某些问题有些固定的回答套路，懂得这些套路，考试中就能得到一个不错的分数，但是再想往更高层次去走，我们要做到深度理解问题并作出相应的回答。其实这时候可以考虑更多样化的对话生成，结合企业知识的生成模型可以达到该目的。

InfoQ：企业服务交互式机器人目前在发展和应用中面临的最大挑战是什么，有什么比较好的技术解决方案吗？

徐易楠： 我觉得在我们的服务中遇到的一个比较多的问题是“可复制能力不够”。企业服务机器人属于面向某一垂直领域，覆盖范围较窄的一类对话机器人，如何从一个场景快速迁移到相似或相近的一些场景里？这是目前大家遇到的一个比较普遍的问题。如果有一个办法能做到快速复制的话，就能极大的降低成本。

针对这个问题，追一目前采用以下方法做优化：第一是数据复用，利用无监督学习构建相似样本，将相似领域的语料或其他数据利用起来，通过主动学习选择最有效的样本进行模型训练，从而降低达到同样效果所需要的标注数据量；第二，对模型做优化，运用零样本或少样本学习、元学习等技术提升模型在相似、相近场景里的效果。此外，我们也在考虑模型复用，运用迁移学习、终生学习等技术，将之前场景中训练出的模型复用到后续的相似、相近场景中去，这样我们就能在后续场景的模型训练中使用到之前场景积累到的知识，从而提高使用效果。在这个过程中，因为数据量在扩大，可能出现数据容量不足的问题，对此我们会在模型容量达到限度时扩大模型的参数量去获取新的知识，最终达到效果层面的持续提升。

但是这个点不是从技术角度就能完全解决的，它是一个系统工程，需要技术、工程和业务部门通力配合去解决的。

InfoQ：这几年，企业服务赛道很火，您认为，未来下一代企业服务机器人将具备怎样的特质？

徐易楠： 我觉得下一代机器人要有智能的大脑、亲切的声音、拟人的形象。

智能的大脑就是要有强大的自然语言理解能力，能够带着语境和知识背景理解用户的问题，能够作出具备人格化的，有温度的，拟人化的表达，能够在对话中不断自我进化、学习知识。准确判断自己的能力边界，做到能回答的准确回答，不能回答的不能错误回答。

亲切的声音就是要交互机器人有自己灵巧的嘴，用带着情感的声音，准确的做出对用户的回复。

拟人的形象是指交互机器人有自己的形象，能够配合对话内容，做出一些表情动作、肢体动作，不再是一个冷冰冰的机器人，提升用户的体验。

InfoQ：您觉得未来 1-3 年或者 1-5 年，企业服务机器人会是怎样的发展趋势？

我觉得多模态交互会是一个发展趋势，现在很多厂商会将其运用到交互系统中去，我估计可能几年后，多模态交互机器人会比较多的出现在市场上，这也算是交互机器人拟人形象塑造延伸的一个部分。现在业内尝试多模态交互机器人多偏向 3D 模型技术路线。我们的思路不太一样，更多希望直接驱动一个真人形象说话，让用户感觉更真实、更亲切。

另外，我认为还有两个技术点会是未来的发展趋势，一是如何解决“答非所问”问题，目前的交互机器人对一些常识性的知识不能做到很好的理解，这很容易导致“答非所问”。对于这个问题，现在学术界和工业界都在研究。二是，文本生成技术，因为自然语言本身的一些特性，文本生成的难度比较大，文本生成距离落地还有很长的路要走。

嘉宾介绍：

徐易楠，追一科技 AI Lab 高级算法研究员，毕业于美国密西根大学安娜堡分校，主要研究方向为文本的向量化表达、语义匹配、对话系统、生成算法及多模态融合算法等。目前在追一科技主要从事相关前沿技术探索与实践工作，持有国家发明专利十余项，作为主要完成人完成国家自然科学基金课题一项。

你也「在看」吗？

企业服务交互机器人将向多模态演进

作者：AI前线