发布于: 雪球转发:0回复:0喜欢:0

$科大讯飞(SZ002230)$

预计三季度可推向市场的讯飞端到端的语音技术建模排在计划中

GPT-4o对万物互联时代语音浪潮的推动,类似于当年Siri对语音应用的推动。它备受关注的原因有几个点:

超拟人合成,使得说话不再是朗读腔调,而是真的像人一样自由对话;全双工交互,可以同时(瞬时)进行信号的双向传输,人机对话可以随时打断和继续;通过语音到语音的端到端建模实现快速反应的极致交互体验。

目前科大讯飞在超拟人合成技术方面,中英文、多语种都做到了国际领先。全双工技术方面,科大讯飞早在2016年就定义了万物互联时代的人机交互标准,包括远场、多人、全双工这些特性,2020年1月,在韩国釜山举行的ISO/IEC JTC 1/SC 35全会上,科大讯飞主导提出了全双工语音交互国际标准,2023年5月正式颁发。端到端的语音技术,背后有语音识别、文本生成、语音合成的过程,今年6月27日,讯飞星火V4.0发布也将给大家展示最新的端到端落地成果;

端到端的语音技术建模,科大讯飞有全栈技术方案,也排在计划中,需要算力和时间去实施,预计三季度推向市场。

除此之外,科大讯飞还可提供GPT-4o没有的一句话复刻、高噪音场景语音识别、多方言多语种免切换功能。