发布于: 雪球转发:0回复:0喜欢:0
从语音到token再到文本”的建模新范式, 这种已经落后了吧, 转换为文本会丢失很多语音和语调信息。 gpt4o已经能直接处理语音语调及背景噪声的问题了。 而且这种多层转换会降低推理速度。
引用:
2024-05-25 15:34
【中国电信发布首个支持30种方言混说语音大模型】近日,中国电信人工智能研究院发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是国内支持最多方言的语音识...