从语音到token再到文本”的建模新范式，这种已经落后了吧，转换为文本会丢失很多语音和语调信息。 gpt4o已经能直...

作者：瑞宅77

发布于:2024-05-25 17:41

雪球

转发：0

回复：0

喜欢：0

从语音到token再到文本”的建模新范式，这种已经落后了吧，转换为文本会丢失很多语音和语调信息。 gpt4o已经能直接处理语音语调及背景噪声的问题了。而且这种多层转换会降低推理速度。

【中国电信发布首个支持30种方言混说语音大模型】近日，中国电信人工智能研究院发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型，打破单一模型只能识别特定单一方言的困境，可同时识别理解粤语、上海话、四川话、温州话等30多种方言，是国内支持最多方言的语音识...