近日，微软公布了VASA-1。官网介绍道：只需使用单张人物肖像照片+一段语音音频，即可实时生成高仿真的数字人讲话视频...

作者：灵敏雅各布

发布于:2024-05-13 09:49

Android

转发：0

回复：0

喜欢：0

近日，微软公布了VASA-1。官网介绍道：只需使用单张人物肖像照片+一段语音音频，即可实时生成高仿真的数字人讲话视频，唇部动作、面部动作和头部运动都与音频内容同步，其表现高度自然协调。微软表示，这是一个新的框架，可以在给定单张静态图像和语音音频的情况下，生成具有吸引人的视觉情感技能（VAS）的逼真的虚拟数字人说话视频。$微软(MSFT)$ $微美全息(WIMI)$