前两天还在看关于文生视频的介绍文章，关于runway、pika以及 google 的video poet的方法，关于di...

前两天还在看关于文生视频的介绍文章，关于runway、pika以及google的video poet的方法，关于diffusion和transformer的路线选择，关于图像和视频数据的tokenization，没想到，open ai这么快就来了，发布了我所见过的最强的文生视频产品，效果令人惊讶。

看完文字说明和视频样例，记录一些核心要点如下：

1、高清视频，与常见的720P视频不同，本次视频都是1080的，建立画质基准线，以后文生视频没有1080P就不要拿出来了。。。，另外Aspect Ration（宽高比）可以自由设定，匹配不同的设备屏幕

2、超长视频，最长能到1分钟，相比于秒级的视频也是巨大提升

3、支持多对象大动作，除了Prompt里描述的动作，对真实物理世界里运动规律有很好的理解，sample视频里那个成千上万的纸飞机飞向大树非常体现能力，每个飞机都有自己的轨迹，整个1分钟没有任何违和

4、除了文生视频，Sora还可以根据图片生成视频，或者根据视频片段进行扩展，开局一张图，后面全靠编，成为了现实，限制你我的可能只剩想象力了

5、还可以根据prompt对视频进行剪辑，变换背景、变换风格，进行转场

6、能生成视频当然可以生成图片，图片只是视频的一帧而已，能不能追上Midjourney V6? 从样张上看相当不错

7、从技术层面上使用的是diffusion和transformer的结合，官网称之为diffusion transformer，这种方法学界也已有研究

8、使用visual patch的方案实现视频和图像数据的tokenization

9、训练处理上上包括使用原始视频的分辨率和Aspect Ration，而不去预处理和标准化，从而可以显著提升构图和取景的质量，也能获得输出分辨率的灵活性。这个从sample视频上的确可以明显看出来，不是那种怼脸的不自然构图，镜头运动也更丝滑

10、最后，AI肯定不会代替一书创造者，它是一个强大的创作工具，让有想法相当导演的人都能进行艺术创作。但当前还只是内部评测，没有外部开放，得再等等。

虽然我知道放出来的视频肯定是精挑细选过的，但是OpenAI，或者基于transformer，scaling 的brutal force还是再次震惊了我，如何演进下去，拭目以待。

作者：金色碎片