微软小冰首席科学家:我们是如何让小冰更像人类的

发布于: 雪球转发:0回复:0喜欢:0

作者|小葳

导读:2019年微软小冰有哪些最新技术进展,听听三位首席科学家怎么说。


“我们一直想让小冰更像人类。”

2019年11月21日,微软小冰首席科学家宋睿华在面向媒体的“微软小冰2019年度研究进展”沙龙上如是说。

沙龙上,微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威、微软小冰首席语音科学家栾剑向媒体分享了微软小冰在创造比喻和多模态理解、多轮对话、唱歌技术方面的最新进展。

四大技术模块,塑造了今天的微软小冰

从2015年诞生起,微软小冰已经迭代到第七代。作为全球规模最大的跨领域人工智能系统之一,微软小冰已经搭载进4.5亿台第三方智能设备,平均对话轮数达到了23轮。其商业应用场景涵盖聊天机器人、智能助理、内容生产、智能零售等领域。

微软小冰首席科学家宋睿华介绍,微软小冰背后有四大技术模块支撑:自然语言处理、语音学、计算机视觉和图形学、多模态生成。

从最早的文字交流,到语音回复、全双工语音交互、再到今天可以做到部分情况下主导对话流,以及多模态与人类互动,并主动进行艺术创造。这四大模块技术的融合让小冰一步步进化得更像人类。

目前,微软小冰团队共在AAAI(美国人工智能协会)、IJCAI(国际人工智能联合会议)、ACL(国际计算语言学协会年会)等权威会议发表48篇论文,申请专利72个,其中就包括领先业界的全双工专利。

主动引导多轮对话,探索多模态交互

武威博士认为理想的对话机器人应该达到Self-Complete(自我完备)的状态。他认为这一状态需要具备三大能力:

1.学习能力,包括从人类对话中学习以及机器人之间互相学习;

2.自主管理能力,把控整个的对话流程;

3.连接能力,连结散落在各地的、声音、图像、文字、视频等多模态的信息。

目前,多轮对话已成为阿里百度小米等主流智能语音助手的标配能力。微软小冰首席NLP科学家武威介绍,微软小冰的多轮对话更强调通过共感模型主动把控整个的对话流程。微软小冰从第六代开始发布共感模型,共感模型的核心是通过对话策略对整个的对话流程进行把控。

为了让小冰更自然地引导对话,武威及团队开发了很多新模型,比如话题生成模型,将话题引入到回复生成中,再比如将对话上下文进行补全,引入到回复中。

微软小冰首席NLP科学家武威

武威博士强调,当前多轮对话的难点主要存在两大层面:第一个层面,让机器对上下文有很好的理解,难点在于怎么把一些人类习以为常的常识、知识放进来。第二个层面,如何制定对话策略以及策略组合。

“人类的对话是一个非常复杂的交流过程。(制定对话策略)是不是每一轮都要跟上下文相关,都要对上下文理解得非常准确?其实没有必要。就像人一样的,如果我完全不感兴趣,我可以打断你,把话引到另外一个地方去。或者我觉得你说得蛮有趣的,那我就什么也不说,我就倾听。”

小冰团队已经在实际场景中验证对话策略的有效性。在一个线上零售平台的导购场景测试中,微软小冰通过主动提问挖掘用户的购买需求,推荐转化率达到68%左右。

多模态交互是AI更高阶的能力,包括了声音、表情、动作、文字等多种方式。小冰团队希望通过模拟人的能力,首先让AI具有多模态理解能力。

让AI学会比喻,模拟人的理解方式

“爱情就像脂肪,是点点滴滴的积累。”

“孤独像是空无一人的车站。”

“人生就像楼梯,各层楼有各层楼的风景。”

这些比喻句都是出自微软小冰之手。比喻是一种高级的修辞手法,为什么要让AI学习比喻?

宋睿华表示,“我们一直想让小冰更像人类,让小冰更好的理解人类对话、更好的理解语言,模拟人类的能力,看看她能不能在语言背后找到一些常识性的知识。”

微软小冰首席科学家宋睿华

为了让小冰更好地模拟人类能力,小冰团队还在训练小冰的多模态理解能力。

“北极熊常蹑手蹑脚地接近猎物,肚皮贴着地面,慢慢靠近,最后一跃而起,伸出爪子,露出獠牙。”当读到这句话时,人们头脑中会想象出北极星蹑手蹑脚的姿态。

人类在理解语言时,并不只是运用了头脑中语言控制的那个部分,还会调动其他感官,有时还会加上之前的生活经验和常识。而这些恰恰是AI缺失的。

“北极熊悄然接近猎物,有时候会用爪子接近自己的鼻子,变得更不易察觉。”虽然文字中从来没有提过颜色,但人类靠常识就知道其中的逻辑,北极熊是白色的,鼻子是黑色的。而AI要做到这一点则很难。这也是小冰团队正在努力训练的方向之一。

不断提升才艺的歌手小冰

微软小冰首席语音科学家栾剑分享了微软小冰唱歌技巧方面的最新进展。从歌曲Demo试听中,很难听出是AI合成,小冰已经基本掌握了通俗、戏曲等多种演唱风格。

栾剑表示,接下来要一边不断提高模型,一边不断挖据更多的数据,提升小冰的唱歌技巧。

未来,AI唱歌的商业化想象空间很大,一种方式是为音乐平台定制虚拟歌手和歌曲,还可以为普通人提供歌曲创造的平台,让小冰辅助普通人作词作曲。

微软小冰首席语音科学家栾剑

总结一下,2019年,微软小冰在多轮对话方面更加自主,可以在机器与机器之间进行互相的教练、学习,同时不断提升在才艺方面的能力,小冰团队还尝试了多模态理解的探索,目的都是希望以后小冰可以像人那样去理解与交互。