发布于: Android转发:0回复:0喜欢:0
近日,微软公布了VASA-1。官网介绍道:只需使用单张人物肖像照片+一段语音音频,即可实时生成高仿真的数字人讲话视频,唇部动作、面部动作和头部运动都与音频内容同步,其表现高度自然协调。微软表示,这是一个新的框架,可以在给定单张静态图像和语音音频的情况下,生成具有吸引人的视觉情感技能(VAS)的逼真的虚拟数字人说话视频。$微软(MSFT)$ $微美全息(WIMI)$