奇富科技智能语音模型再升级,川渝方言识别准确率提升超35%

发布于: 雪球转发:0回复:0喜欢:0

“喂,你要爪子嘛?”“嫩干啥哩?”——奇富科技智能营销及贷后提醒业务场景中,每天都能接到大量带方言口音的电话,客户口音的多样性直接影响到语音识别的准确率和业务的流畅度。然而,市面上通用语音识别技术在面对方言时往往显得力不从心,导致人机交互的准确性和智能性大打折扣,服务效率和质量受损。

为此,奇富科技“QI语精灵”方言识别技术再度升级,成功将业内首个全自研Qifusion框架集成到业务场景中,不仅弥合方言识别对自身业务的影响,而且在业内知名的Kespeech 开源方言数据集性能对比测试中,字错率刷新模型最低值,达到国内顶尖水平,为金融科技行业树立了新标杆。

图:Kespeech 开源方言数据集性能对比

QI语精灵是奇富科技全自研智能语音模型,此次升级依托自身丰富的贷后提醒及方言数据样本,不仅延续了对国内八种主流地区方言的覆盖,包括东北官话、胶辽官话、北京官话、冀鲁官话、中原官话、江淮官话、兰银官话和西南官话,还特别针对四川、重庆、山东、河南、贵州等用户分布较多的地区方言的识别能力进行了强化,平均识别准确率相对提升了25%,川渝地区方言识别准确率相对提升超35%。同时,融合方言信息提取模块,它能够自动识别不同口音,并在时间维度上对文字进行解码修正,将方言口音的语音识别误差率降低了30%以上,整体语音识别字错率降低了16%以上,显著提升了用户体验。

在模型结构上,QI语精灵依托全自研的Qifusion结构,突破传统方言识别模型受限于地区先验条件,需预先知晓方言种类才能准确识别的局限,无需方言种类的先验条件,便能直接进行精准的识别和转译。并创新采用了多任务学习方法,在复杂的通话环境下实现了超过93%的语音识别综合准确率。此外,意图识别功能同样表现出色,准确率超过95%,能够迅速而准确地识别用户需求并做出响应。

在业务应用上,基于QI语精灵提出的预训练方言信息模块及增量业务数据训练策略的结合,能大幅提升智能营销、贷后提醒、风险控制业务应用场景识别准确率。在智能电销及贷后客户沟通服务中,QI语精灵能将大量的语音转写成文字,无论是标准的普通话还是方言口音都能精准捕捉并转写,大幅减轻客服人员的工作压力。同时,能快速且准确地解析用户需求并作出响应,为用户提供精准高效的服务体验。

QI语精灵技术在实际应用中展现出的显著成效,这得益于奇富科技在人工智能语音领域的持续研究与开发积累。《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》、《基于多粒度Transformer的多模态情绪识别》和《基于SE模块和多尺度特征学习的语音情感识别》等多篇论文被ICASSP和 INTERSPEECH两大顶级语音领域的国际学术会议连续收录,这不仅证明了奇富科技在智能语音领域的研究实力,也为全球智能语音技术的发展贡献了中国智慧。

从卷语义到卷方言,奇富科技的智能语音模型——QI语精灵,不仅在方言库的扩展上不断取得进步,还在提升对复杂语音环境的适应能力、拓宽应用场景等方面持续进阶,实现更深层次的智能化和个性化服务。