要点: 谷歌与李飞飞的斯坦福团队合作推出了基于Transformer的视频生成模型W.A.L.T,在图像和视频生成领域取得了媲美Gen-2的逼真效果。W.A.L.T采用因果编码器和基于窗口注意的变压器架构,将图像和视频压缩到共享潜在空间,实现联合训练和生成,为... 网页链接