发布于: 雪球转发:0回复:0喜欢:0

前两天还在看关于文生视频的介绍文章,关于runway、pika以及google的video poet的方法,关于diffusion和transformer的路线选择,关于图像和视频数据的tokenization,没想到,open ai这么快就来了,发布了我所见过的最强的文生视频产品,效果令人惊讶。

看完文字说明和视频样例,记录一些核心要点如下:

1、高清视频,与常见的720P视频不同,本次视频都是1080的,建立画质基准线,以后文生视频没有1080P就不要拿出来了。。。,另外Aspect Ration(宽高比)可以自由设定,匹配不同的设备屏幕

2、超长视频,最长能到1分钟,相比于秒级的视频也是巨大提升

3、支持多对象大动作,除了Prompt里描述的动作,对真实物理世界里运动规律有很好的理解,sample视频里那个成千上万的纸飞机飞向大树非常体现能力,每个飞机都有自己的轨迹,整个1分钟没有任何违和

4、除了文生视频,Sora还可以根据图片生成视频,或者根据视频片段进行扩展,开局一张图,后面全靠编,成为了现实,限制你我的可能只剩想象力了

5、还可以根据prompt对视频进行剪辑,变换背景、变换风格,进行转场

6、能生成视频当然可以生成图片,图片只是视频的一帧而已,能不能追上Midjourney V6? 从样张上看相当不错

7、从技术层面上使用的是diffusion和transformer的结合,官网称之为diffusion transformer,这种方法学界也已有研究

8、使用visual patch的方案实现视频和图像数据的tokenization

9、训练处理上上包括使用原始视频的分辨率和Aspect Ration,而不去预处理和标准化,从而可以显著提升构图和取景的质量,也能获得输出分辨率的灵活性。这个从sample视频上的确可以明显看出来,不是那种怼脸的不自然构图,镜头运动也更丝滑

10、最后,AI肯定不会代替一书创造者,它是一个强大的创作工具,让有想法相当导演的人都能进行艺术创作。但当前还只是内部评测,没有外部开放,得再等等。

虽然我知道放出来的视频肯定是精挑细选过的,但是OpenAI,或者基于transformer,scaling 的brutal force还是再次震惊了我,如何演进下去,拭目以待。

#openai #chatgpt #sora#