虐完五款当红智能音箱,真为他们智商着急!

发布于: 雪球转发:11回复:14喜欢:44

@徒步投资笔记 @今日话题 @方舟88 

智东西(公众号:zhidxcom)

文 | 寓扬

“Alexa”、“OK Google”、“天猫精灵”、“叮咚叮咚”、“若琪”······

没错,这正是以下五大智能音箱的“名字”:亚马逊Echo谷歌Home阿里天猫精灵X1京东&科大讯飞的叮咚音箱A1Rokid的月石

如果说2014年11月亚马逊Echo的上线,无意间播下了一颗智能音箱的火种,那么今年就是智能音箱的集体大爆发。从芯片/模组到关键的麦克风阵列,到音箱方案商、ODM/OEM整机商,到语音技术提供商,再到内容、服务平台商、渠道商等等,一张关于智能音箱的产业大网已编织成型。

海外市场,智能音箱的标杆来自四大科技巨头亚马逊、谷歌、微软和最后入局的苹果。国内则已经是一片血海,京东、科大讯飞最早入局,最近则是百度、阿里公开宣布入局,另有联想、出门问问、Rokid、喜马拉雅、海尔、小米等一批玩家 。(49家杀入:智能音箱的血海江湖!)

智东西首次集齐国内外最具代表性的5款智能音箱,克服了亚马逊Echo和谷歌Home在使用上的众多“水土不服”,来一场实战体验PK,通过10个典型场景的实测,探寻五款智能音箱的易用性、国内外产品差距、以及能否真正胜任我们生活助手的角色。(文末有视频)

智能音箱究竟是下一个“入口”,还是如当年的VR一样成为一场泡沫,通过这场测试可见一斑。

一、产品亮相与测试环境

本次测试,我们采用亚马逊Echo、谷歌Home、天猫精灵X1、叮咚音箱A1、若琪·月石五款产品,具体信息如下:

亚马逊Echo:亚马逊于2014年11月推出的世界第一款智能音箱,采用6+1环形麦克风阵列,搭载智能语音助手Alexa,售价为179.99美元。目前亚马逊智能音箱品类累计销量已经突破一千万,Alexa平台上技能(skill)达到1万件,打磨产品最久,是行业的开创者和引领者。

(图为亚马逊Echo智能音箱)

谷歌Home:由谷歌在2016年5月推出,采用双麦克风阵列,集成了自身Google Now(智能语音系统)和Google Assistant(智能服务平台)两大技术,售价为129美元。

(图为谷歌Home智能音箱)

叮咚音箱A1:是京东和科大讯飞联手打造的国内首款智能音箱产品,于2015年8月推出,采用7+1麦克风阵列和科大讯飞的语音语义技术,搭载叮咚开放平台,拥有技能60多项,售价为798元。

(图为京东&科大讯飞联合推出的叮咚音箱A1)

若琪:月石是创业团队Rokid打造的第二款产品,于2017年5月推出,采用6麦克风阵列,蓝牙配网,支持多轮对话,售价为1299元。

(图为Rokid公司推出的若琪·月石)

天猫精灵X1:是阿里巴巴在今年7月5日推出的智能音箱,搭载联发科智能语音芯片,采用思必驰的6麦克风阵列,并使用自家AliGenie语音系统和声纹识别,售价为499元。

(图为阿里巴巴推出的天猫精灵X1)

为了得知亚马逊Echo、谷歌Home、天猫精灵、叮咚音箱、若琪这五款音箱到底如何,我们选取了联网时间、唤醒率、远场识别能力、多轮交互能力、语义理解能力、内容丰富程度等10个方面进行实际体验。

本次测试均来自特定的网络环境,因此测试结果可能受网络环境等因素的制约,并且该结果不具有决定性的对比意义,仅供我们了解产品作参考。

二、一场“艰辛”的实测体验

1、配网时间:网络环境和配网方式的综合体现

联网是用户进行智能音箱操作的第一步,联网时间的长短则直接影响用户体验。具体来说联网时间包括用户通过手机和音箱配对到智能音箱联网成功,并能开始使用这样一个过程,本次测试的联网时间包含音箱配对、WiFi设置、配网这几个环节。

目前,智能音箱需要通过手机APP/电脑配对联网,亚马逊Echo和谷歌Home采用WiFi热点配对(通过手机连接音箱的临时热点,进而帮助音箱联网),天猫精灵和叮咚音箱采用声波配对(通过音箱接收手机的声音,进而获取联网信息),若琪采用蓝牙配对。实测发现,声波配对相对较快,但受手机与音箱位置、方向等有关;WiFi热点配对较慢,需要先在手机上连接音箱的临时热点,进而帮助音箱联网。

通过5款音箱的联网时间我们发现,其中,若琪和天猫精灵联网速度更胜一筹,分别用时约为18秒和25秒。叮咚音箱联网稍慢,用时54秒。而亚马逊Echo和谷歌Home则配网很慢,分别用时1分25秒和1分47秒。

此外,不得不吐槽一下亚马逊Echo和谷歌Home在国内的配网体验,不但要科学上网的环境,联网配置也存在失败的现象。

2、唤醒率:天猫精灵、叮咚音箱更灵敏

唤醒是人机语音交互的第一步,目前智能音箱都通过唤醒词(即“名字”)来唤醒。我们在约1.2米的位置,采用了安静、低于电视噪音(约30分贝)、电视噪音(约60分贝)三种环境,来实测5大音箱的唤醒率。

(图为5次测试结果未唤醒的次数统计)

首先在安静环境下,我们使用同一个大小的声音对5款音箱分别测试5次,5款音箱唤醒率都十分不错,仅亚马逊Echo和谷歌Home存在一次未唤醒。

而一旦在噪音环境下,5款音箱的唤醒情况大有不同。我们先是采用了低于电视噪音(约30分贝)作为干扰,置于5款音箱1米以内。在5次测试中,天猫精灵和谷歌Home全部唤醒,叮咚音箱和Echo 存在一次未唤醒,而若琪却3次都未能唤醒。

在电视噪音(约60分贝)环境下,天猫精灵和叮咚音箱表现优秀,5次测试全部唤醒。亚马逊Echo和谷歌Home则分别唤醒了2次和3次,而若琪则全部沦丧,未被唤醒一次。

3、远场拾音能力:难分伯仲

远场拾音能力是为了测试智能音箱在不同的距离,能否唤醒和完成任务。为此,我们在安静的环境下选用了2米、4米、6米三个距离分别进行3次实测。

总的来说,在安静环境下,5款音箱的远场拾音能力都很优秀,仅谷歌Home在6米的测试中,存在一次未唤醒。考虑到谷歌Home仅使用了双麦克风阵列,在成本大幅下降(比亚马逊Echo便宜50美元)的基础上,能有如此效果还是很赞的。

此外,一个有趣的测试是,若琪和谷歌Home还可以实现门外唤醒。智能音箱距玻璃门大约5米左右,我们发现站在玻璃门外,用正常的声音通过门缝也可以对谷歌Home和若琪进行唤醒,而其他音箱并未被唤醒。

4、应答速率:大体2秒左右

身为一个语音助手,能不能够在最快的时间内回答主人的问题是用户体验的一个关键,而反应速率大体受网路情况、云端数据处理时间等影响。我们对5款智能音箱就天气、成语、问答等问题的应答时间进行计时,以检测大家的反应速率。

总的来说,5款音箱的应答速率都在2秒左右,对不同的问题会有不同的反应速率。若琪整体应答速度最快,比如像天气、闲聊之类问题,在1.5~1.7秒即可给予回复。但像“马云是谁”之类问答型的问题,若琪则反应了2.7秒。

叮咚音箱的应答速率排在第二,对天气的应答速率约为1.9秒,普通问答类约为2.2秒。有趣的是,当问它“刘强东是谁”时,叮咚音箱在1.6秒就给出了答案。天猫精灵对不同问题的应答时间基本一致,约为2.4秒,应答速率较其他家略慢一点。

尽管在网络方面存在一定限制,亚马逊Echo和谷歌Home的应答速率也还不错。当问及天气状况时,二者均在2.3秒给出了答案。但当问及“I am hungry”时,亚马逊Echo在2.1秒给出了周边的美食推荐,而谷歌Home则花了2.9秒。

5、多轮交互能力:Echo体验更佳

在5款智能音箱中,天猫精灵、亚马逊Echo和谷歌Home都并未开启通用语的多轮对话能力,为“one shot”模式,即唤醒一次应答一次,但具有任务导向的多轮对话能力,即在一个任务背景下,为完成任务而展开的多轮对话。而若琪则开启了一定时间内的多轮对话能力,叮咚音箱在普通状态下也不具有多轮对话的能力,但可以手动开启“AIUI”模式,可支持一定时间内的多轮对话。

但通过若琪和叮咚音箱的体验我们发现,若琪的多轮对话应用在闲聊上尚说的过去,但要应用到实际功能上就差强人意了,连个闹钟都设置不好。叮咚音箱也是如此,尽管问“刘强东是谁?”,它知道答案,但问“他老婆呢?”,它就傻眼了。如果你还不知道这个问题的答案,请问它“刘强东的老婆是谁”,它才能找对人······

总的来说,通用语的多轮对话体验并不好,机器的上下文理解能力还是很差,或许这也是Echo、Google Home、天猫精灵不开启通用语多轮对话能力的原因吧。但是,它们还是具有任务导向的多轮对话能力的,我们以一个最为基础的闹钟设置功能为例来看各家智能音箱的在多轮交互上的体验。

正常情况下通过“帮我设定一个下午6点的闹钟”指令设定闹钟,这5家音箱都没有问题,但为了考验5款音箱在设定闹钟中的多轮交互和体验,我们将设定闹钟这个任务拆解成“设定闹钟”、“时间(6点)”、“上午、下午”三个层次,看5款音箱的应答情况。

其中,表现最好的是亚马逊的Echo,当我们发出“set a alarm”设定闹钟的指令时,Alexa会问及你要设定的时间,当你告诉它“six”时,它会继续问你是上午还是下午,共进行了3轮对话,直到获取这三层信息。天猫精灵和谷歌Home则进行了2轮对话,当你告诉它时间后,它会默认设置距你最近的时间作为闹钟。

叮咚音箱普通状态下,还是只能开展一轮对话,当你告诉它“帮我设定一个闹钟”时,它不会问你什么时间,反而教你怎么用它设定闹钟,瞬间感觉智商被机器玩弄有没有。而若琪就更加令人无语,本身自带多轮对话属性,体验中俏皮话更是一句接着一句,但在设定闹钟这个基本的功能上傻眼了。当你告诉若琪“帮我设定一个闹钟”,它会问你什么时间,当你告诉它“6点”时,它竟不知如何回应,或者直接“熄火”。

6、语义理解:你喜欢实用型还是调侃型?

能否理解主人的意图,是一款智能音箱成为助手的必备素养。尽管智能音箱在上下文理解上可能并不太好,但是针对具体任务的语义理解还是不错的,其中天猫精灵、亚马逊Echo和谷歌Home更偏重实用,而若琪则最会调侃。

如果你喜欢调侃型的,若琪会是你不错的选择。当你问它“我饿了”,它可能会告诉你“看看你的大腿就不饿了”;你问它“我想吃饭”,它会告诉你“可是我不饿呀”等等。但除非你明确自己想点一个外卖,否则它是不会理解你想点外卖的意图。

而天猫精灵则恰恰相反,当你问“我饿了”还是“我想吃饭”,它都会理解为你想点外卖,并告诉你“我还不具有外卖的功能”。此外,在天气方面,无论你问它“今天天气怎么样?”、“今天热吗?”、“今天晒吗?”,它都可以理解你询问天气的意图,并做出具体的优化。如果你喜欢实用型的,它会是不错的选择。

亚马逊Echo和谷歌Home同样是实用的代表。无论是“I am hungry” 还是“I want to eat ”,它俩都会给你推荐周边的外卖、美食给你,这一点反倒走到了国内智能音箱的前面。有趣的是,当问到“My stomach is empty”时,谷歌Home竟然谈了“胃空”的原因,并建议吃药,瞬间被自己的汉式英文所折服。

7、声纹识别:略糟糕的体验

目前亚马逊Echo和叮咚音箱A1并不具备声纹识别,我们主要体验了天猫精灵和谷歌Home的声纹识别功能。

(图为谷歌Home声纹设置界面)

声纹识别需要先进行声纹设置。目前谷歌Home需要对其将三遍“OK Google”,它就可以为你设定一个声纹,而天猫精灵需要两遍“天猫精灵”即可设定声纹。设定声纹后,理论上说你就可以获得个性化的服务,但较短时间的体验,我们并没有在谷歌Home上有太明显的感觉。

天猫精灵的声纹目前主要应用在购物方面。当你设定声纹后,问它“我是谁”,它就会说出你设置的名字XX。在购物中, 只有设置了声纹,通过声纹验证,你才能够直接支付。如果没有设置声纹,则只能够添加到购物车。

尽管声纹识别背后的个性化服务十分重要,但智能音箱的声纹识别能力并不强。比如,我几天前在天猫精灵上设定了一个声纹,可能由于今天声音在音调和音色上的一些变化,导致它今天并不能识别我,也会导致购物过程的繁琐复杂。

总的来说,声纹识别的体验相对糟糕,也是智能音箱需要进一步攻克的问题。

8、内容丰富程度:叮咚音箱略有优势

这5款智能音箱的功能大体相同,主要为播放音乐、设定闹钟、提醒、播放有声读物,以及家居控制等。其中,亚马逊Echo、天猫精灵和叮咚音箱还具有购物功能。

在内容方面,亚马逊Alexa的“skill”(技能)已经过万,需要手动添加这些功能,但许多内容在国内并不支持,像音乐也需要订阅或购买会员才能使用。谷歌Home也是如此。

(图为天猫精灵和叮咚音箱app内容界面对比)

在天猫精灵和叮咚音箱的内容对比中,二者的功能相似度很高,但由于叮咚音箱具有先发优势(2015年8月推出),已具有60多项技能,内容也更加丰富。

我们为了测试两款音箱曲库的丰富程度,有代表的选择了8首音乐进行测试,分别为:陈奕迅《浮夸》、赵雷《南方姑娘》、五月天《突然好想你》、张学友《忘情水》、 Coldplay《Viva la vida》、Coldplay《something just like this》、Maroon5《maps》、Michael Jackson《heal the world》,发现叮咚音箱拥有7首,乐库更丰富,此外像张学友的《忘情水》,尽管叮咚音箱没有这首歌,它会为你推荐一首相似的歌,这一点值得称赞。而天猫精灵在乐曲库方面略显单薄,由于无法识别英文,在听歌上造成一些不便。

而在新闻方面,叮咚音箱和天猫精灵都支持细分领域内容的播放,如科技新闻、娱乐新闻、体育新闻等。不同的是叮咚音箱采用听闻(第三方)的语音新闻,而天猫精灵则采用TTS语音合成技术,将文字直接转换成语音流,其不足之处仍然是内容较少。

9、购物体验:天猫精灵VS叮咚音箱

在5款音箱中,除了若琪外,其他几款音箱均可支持购物功能,但考虑到语言限制、地区限制,我们尝试了一下亚马逊Echo和谷歌Home的购物功能,结果未遂。只是知道Echo可以将你想买的商品加入购物车,而不能直接支付。

于是,我们在天猫精灵和叮咚音箱的购物功能上做了深刻的体验,且天猫精灵在购物体验上更佳。首先,当你告诉天猫精灵“我想买箱牛奶”,它会为你推荐一款热销的牛奶,并配上基本信息,如瓶数、价格、月销、是否包邮等,你可以选择直接支付或者加入购物车,而直接支付则要进行声纹验证,也增加了购物的安全性。不愧是电商起家的,阿里在音箱中的购物体验也做的如此之细。

而叮咚音箱在购物上的体验则略逊一筹。当你告诉它“我要买一双鞋”时,它会连着商品编号一起念给你,“ZW78······尺寸·······优惠······价格······”,那么没有声纹验证怎么支付呢?为了告诉大家叮咚音箱购物的结果,我冒着money被扣的风险,毅然选择了“确认购买”。然后我听到的就是购买成功,于是我的京东订单中多了一双“货到付款的鞋”。抓狂中······

不得不吐槽叮咚音箱的购物功能,面对无法看到的购物,应该有体验更好的信息,来帮助用户做出决策,而不是报出一堆商品编号。当做出购买决定时,不需要密码、不需要声纹验证,而是直接下单发货,货到付款(还好没有直接扣钱),这样岂不是谁都可以用你家音箱购物了吗?

10、误唤醒:天猫精灵躺枪了

误唤醒也是一个很重要的体验问题,试想一下,如果在半夜智能音箱突然被唤醒,冲着你吼一句,熟睡中的你会不会直接疯掉。为此,我们将几款音箱在办公室环境下放置了一天,来检测它们的误唤醒率。

通过对比天猫精灵和叮咚音箱,我们发现,唤醒灵敏的天猫精灵在一天中竟被误唤醒了3次,而叮咚音箱并没有被误唤醒。由于办公室环境有较少的英文场景,因此亚马逊Echo和谷歌Home并没有被唤醒。

为了保证结果的准确性,我们又联系了叮咚音箱和国外使用亚马逊Echo的朋友。他们表示,Echo和叮咚音箱偶尔也会在电视播放中突然被唤醒。可见误唤醒还是一个常见并且急需改善的问题。

三、联动是家居控制的关键

家居控制也是以上5款产品共有的功能,但由于环境限制,我们并没有实测。

以国内智能音箱为例,目前各家音箱都支持部分家居厂商标准的设备,如叮咚音箱可接入京东微联、美的美居、米家旗下的智米和华米、微控科技等十几家厂商;天猫精灵可接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品。

目前,叮咚音箱能够控制的智能家居标准最多,设备数目以多达两千多种。但家居控制的一个核心问题在于联动,比如当你回家时,电灯开启、空调自动开启、关闭窗户窗帘等,但如果你使用的是不同标准的产品,那么它们之间就没办法设置联动。一个家庭可能会有几十款甚至上百款家居产品,如果只是单个控制,反而违背了当初控制家居的初心——简单高效。

当然,打通不同厂商的家居产品标准,这在短期内又难以实现。

四、智能音箱体验的8大结论

通过实测我们发现:

1、亚马逊Echo和谷歌Home在唤醒、远场识别、内容和用户体验上比较成熟,仍是我国智能音箱学习的榜样。如亚马逊以任务为导向的多轮对话能力,其优质的用户体验来自长期对产品的打磨;再如谷歌Home的双麦克风阵列使用的优质算法所达到的效果,都值得国内玩家用心学习。

2、天猫精灵在唤醒、远场识别方面表现优异,但在误唤醒上存在一定问题。其声纹识别和购物能力是一大亮点,内容在用户体验上更优,但内容和服务不足也是天猫精灵当前最重要的问题。

3、叮咚音箱在唤醒、远场识别、应答速率方面表现也很优秀,进入市场早,内容丰富,具有先发优势。但其在用户体验上略显不足,尤其是购物场景令人吐槽,机械呆板的应答风格也有待改善。

4、而若琪在外观、远场识别、应答速率上都不错,但在噪音环境下的唤醒则存在较大问题。其支持的一次唤醒多轮对话的能力尽管率先使用,但也仅限于搞笑调侃,并不实用,此外其在资源和内容上又难以与巨头匹敌。作为一家创业公司,我们并没有感受到它高价格背后的“黑科技”。

5、通过5款音箱的体验,我们感受到最常用的仍是听音乐、定闹钟、设置提醒、天气预报、听新闻等几个功能而已,如何从这几个小的功能入手,在现有技术的基础上,去打磨用户体验,才是当下问题的关键。

6、核心的语义理解和多轮对话体验不足,自然语言理解还有很长的路要走。目前,各大智能音箱的语义理解更多的局限在以任务为导向的多轮对话,而通用语上的多轮对话能力则都不具备,其技术突破仍需学界、业界的共同努力。

7、智能音箱更多的是一种区域化的产物。不论亚马逊Echo和谷歌Home在国外体验多么好,由于网络环境、语言、服务等的限制,再加上不同地区的风俗习惯,注定了国外智能音箱产品很难攻克国内市场。同理,对于国内音箱而言,也是同样的道理。

8、近年来,以智能音箱为代表的语音入口成为业界公认的一种趋势,从智能音箱帮助我们定闹钟、播新闻到听音乐、故事娱乐再到家居控制,智能音箱确实在扮演我们生活助手的角色,帮我们实现一种人机交互方式的转变。但通过以上的体验我们也发现,智能音箱作为智能助手还有很长的路要走。

总结:智能音箱“道阻且长”

以上是我们针对亚马逊Echo、谷歌Home、天猫精灵、叮咚音箱、若琪五款音箱做的实际体验,它帮助我们还原了风口下最真实的智能音箱全貌。我们并不想凸显谁是最优的智能助手,因为每家音箱都有其优点和不足,在一个尚处于市场早期的新产品,任何定论都为时过早。

而整个智能音箱产业的发展,整个市场的培育和用户的接受,才是当下的关键。这需要我们用心做好语音语义技术,用心丰富内容服务,打磨用户体验。今年下半年还会有更多智能音箱产品的诞生,但是一旦用户不买账,时下火热的智能音箱也将会面临“滑铁卢”式的下跌。

精彩讨论

东坡岛2017-08-01 21:13

张学友的忘情水,当然搜不到

方舟882017-08-01 21:02

赞评测。“当你告诉若琪“帮我设定一个闹钟”,它会问你什么时间,当你告诉它“6点”时,它竟不知如何回应,或者直接“熄火”。”

全部讨论

月儿夜2017-09-29 19:11

jokgan2017-08-05 10:56

场景。。。。

植生关天2017-08-02 11:28

等小米的299

马撕裤2017-08-02 09:30

不知道是在国内测评的还是在国外测评的?