细品百度语音技术:AI促成的超强引擎和行业制高点

发布于: 雪球转发:0回复:0喜欢:2

度小美、度逍遥、度丫丫、度米朵,度博文...
当看到这几个的略显呆萌名字时,你会想到什么?大概率会认为背后是一个个鲜活的人物形象吧。
这样理解没错,但最标准的答案是百度给其语音合成技术按照不同风格拟定的名称,每一个昵称代表一种调性的发音人,比如度小美是标准女声音,度逍遥是情感男生,度米朵则是童声。
我们不妨先来感受一下。

  当你去试用体验,就会惊叹于其输出转化的逼真声音效果。你要做的只是敲入你想要转换的文字,声音即刻输出并下载。

  对用户来说,是一种极简的体验,而这背后,如果你去细品,细细品,则是百度、百度大脑对AI语音技术能力的深耕、创新和突破
语音转换作为语音技术中招牌能力之一,担当着普通用户接触这项技术的重要入口。

  △图注:百度CTO王海峰博士致辞(来源:官方)


今天,这项作为百度大脑开放平台重要的AI能力之一的语音能力引擎,再度轰鸣发动,在召开的百度大脑语音能力引擎论坛中,百度CTO王海峰公布了重磅信息:百度语音技术日调用量破100亿,国内第一。
此外,一口气上新14大产品内容并升级语音自训练平台和呼叫中心语音解决方案,全面提升开发者和企业在智能设备、互联网应用和呼叫中心三大应用场景下的使用体验,加快推动语音技术在各行各业的应用落地进程。
为笔者这样的普通用户、开发者、企业组织乃至整个行业都带来了新的方案,在更大规模和力度的赋能产业上再进一步。
我们试图去探寻这项很大程度上代表未来交互方式的百度牌语音技术能力和未来想象。

陌生的老朋友:已触手可及的百度语音技术

   “随着时间流逝,语音技术最终将变得更加普遍。”

  这是一份出自WTI的权威报告的结论。种种迹象也清晰的昭示了这项预测。


  如果你家中购置了百度智能音箱,那你对有事呼唤“小度小度“的场景并不陌生;如果你开车使用百度地图导航,小度智能语音助手可能已经成为你路途中的陪伴;再进一步,每当你使用百度App时,或许使用语音来说出你想搜的内容已经成为首选和习惯。

  这些已经悄然发生的,正是百度语音技术在背后发挥应有的效力。就像一位陌生的老朋友一样,你即便感受不到这项技术的存在,但却真切的影响和改变着我们的生活方式,一定程度上提升着我们的生活和工作效率。

  如果抛开百度自身,放眼整个行业,我们也看到这样一种不可逆的趋势正迎面而来。Voicebot.ai则表示,语音正在改变我们与个人设备交互的方式。

  百度作为这个领域的重磅玩家,持续的贡献着自己的高能答案。

百度语音技术的势如破竹时刻

   “语音技术将从根本上改变人和机器的关系”,这也已成为无论巨头还是整个行业的共识。

  放置当下,大家可能会好奇,语音技术能力又是怎样一种存在,达到怎样一种状态?我们从百度的语音技术或许就能探寻到整个行业的新高度和全景图。

  有这样一句话挺能说明问题:

全栈语音引擎开放能力,广泛应用于多个行业和场景

  。虽然只有20个字,却高度概括且含金量十足。当我们对其拆解开来之后,就能感受到那份实力。


  △图注:百度语音技术(来源:官方)

  具体来看,百度大脑语音技术已经面向企业和开发者全面开放,提供了包含语音识别、语音唤醒、语音合成、呼叫中心解决方案等技术能力和解决方案,支持各领域的创新应用,并已广泛应用于语音搜索、语音输入、听书播报、音视频质检、智能硬件、游戏娱乐、呼叫中心等众多场景。

  拿语音识别来说,是大家最广泛接触到的一项应用,可以实现略带口音的普通话、粤语四川话方言、英文均可有效识别;搜索内容可以直接以语音的方式输入;可以将直播、视频、现场演讲等音频进行实时的字幕转换等等。

  再看语音合成,我们开篇提到的度小美、度逍遥,正是这项能力的直接体现。据了解,得益于百度提出了一种全新的生成模型,其合成速度比起原始的WaveNet提升数千倍,实现了即合成1秒语音,只需要0.05秒。

  “我们希望做一款超低功耗、超低成本、超高精度的芯片,能够赋予我们的智能设备语音的功能,同时又能把成本降到最低,这是我们的目标。”这是一位百度高管曾传达的信号。

  当然这也得以实现,百度推出了首款智能语音芯片百度鸿鹄芯片。支持高精度超低误报语音唤醒、离线语音识别,同时支持车规级标准,可以应用于智能家居智能汽车等多种不同场景。

  由此,不难看出百度在语音技术上的充分且丰富的布局,更通过持续的深耕创新占领的技术制高点。


  △图注:百度语音首席架构师贾磊主题演讲(来源:官方)

  真正的创新困难且危险,但失去创新的生活是不可想象的。从论坛发布的多项新产品和内容来看,百度语音技术高举高打,站在高维度上再次超越和创新,用实践证明新型生活方式的可行性,为行业和世界贡献着自己的解决方案和智慧。

  而这种技术优势转化为一种势能和效应,一方面为自身业务带来更大规模的突破,更为客户带来更优质的产品和服务体验,达到了一种厚积薄发的状态。

冬日的诚意:语音主题月背后的开放赋能路

   就在活动当天,我们注意到在百度AI的官网高高挂起了一个“因AI而声,语音主题月特惠“的活动,打出了新品0元秒杀,爆款产品低至6折,领券最高可减2万的优惠信息。

  足以能看得出百度的用意,在冬日推出一份面向开发者和企业的好礼。


  △图注:百度语音主题月(来源:官方)

  这一个动作背后,则是百度对AI开发者满满的诚意。

  在为他们提供更高质的语音产品和服务的同时,更通过各种手段鼓励他们体验使用最新最优的产品。正是这种一直以来持续开放赋能的姿态,吸引了诸多用户,让落地产业的目标更进一步。

  事实、细节和平凡的东西是真相的标记。我们从多个案例能感受到百度语音技术对开发者和各个产业的价值贡献。


  △图注:百度大脑语音能力引擎论坛嘉宾分享(来源:官方)
先拿百度和创维的合作来说,基于百度大脑语音能力引擎的软硬件解决方案合作,为创维提供了唤醒模型定制、跨硬件及系统的多平台算法和针对场景优化的语音识别等一系列语音方案。
覆盖电视机型50款, 覆盖电视装机量达到2500万台,提升了产品的溢价能力。在助力创维打造大屏AIoT生态创导者地位上,贡献着百度语音的能力。
当健康医疗遇见语音能力,又会带来怎样的改变? 我们了解到,百度AI 语音加持的临床护理数据采集系统,有效降低了医护人员的工作强度、极大提升医院临床护理效率,间接降低医院科室运营成本。有这样一项数据,通过语音自训练平台进行语音识别模型训练,多次迭代,识别率从80%提升至95%以上。可见语音技术在医疗领域的应用和发挥的价值。
我们知道,百度很早就提出了“Do Better,科技为更好”的口号,通过技术的能力,为公益事业不遗余力。
在百度和善行智能合作的基于百度AI语音技术的小Q智能眼镜产品中,我们能感受到这份公益力量。小Q智能眼镜通过集结搭载一系列的百度AI技术, 诸如百度智能语音控制 、OCR识别、物体识别、实时步行导航、远程视频辅助等,得以实现辅助视力障碍群体出行,感知美好世界。
这几个案例只是百度通过AI技术赋能产业智能化的冰山一角,正是基于百度语音技术的实力和在各行各业逐步展示出的价值,带动更多的企业去体验尝试和使用这项技术,进而让产业智能化的速度和效率更进一步。

一颗“大脑”承载的大想象

   如果说存在某种终极“发明“,那就是这种经济组织形态的出现,它依赖内部蕴含的创造性和直觉来不断尝试创新。
以上说到的如此强大的语音技术,有一个绕不开的角色,那就是百度大脑,也就像存在于百度中的终极发明一样发光发热。
它是百度多年AI技术和业务实践积累的集大成,为自身业务提供标准化、自动化、模块化的AI支持,还通过AI开放平台,助力开发者快速实现应用,以及通过百度智能云进行部署,为企业带去价值。
据了解,百度大脑开放平台是国内服务规模最大的AI开放平台,截止目前,已开放228项AI能力,拥有超过150万的开发者用户,覆盖语音、视觉、自然语言处理、深度学习等全面AI技术。
正是这款大脑的存在,并持续的升级迭代突破,让语音技术得以输出更创新性的产品和能力。而当百度大脑的作用和价值放置全行业,更承载了未来智能生活的一种新想象,即便任重道远,但也清晰可见。

新芒X如是说

   开篇我们提到了多个呆萌的发音人形象。有意思的是,就在今天,那些发音人又增添了新成员,诸如度小鹿、度小台、度小粤等特性十足。
笔者近期也成为这项技术的高频使用者,对于像一位媒体从业者,都已经带来了无可替代的价值。
而当下面对这场产业智能化大浪潮,面向行业,凭借技术能力和不断创新突破,这个已然轰鸣的语音技术引擎,势必会带来更具想象力的交互未来和新式生活样貌。

$百度(BIDU)$ @今日话题