效果非常惊艳!OpenAI发布文生视频模型“Sora”

发布于: 修改于:雪球转发:0回复:12喜欢:10

北京时间凌晨,OpenAI 发布了一个AI模型——Sora,可以根据文本指令创建现实且富有想象力的视频。此前,Runway、Pika、G oogle和 Meta都有涉足此领域,如今OpenAI终于也来了。

看了下官网给出的视频(非常多),超厉害,超逼真,超级王炸。我们先来欣赏几个视频,然后再聊聊这个Sora。

雪球发不了视频,这里不贴了,可以出去的话,去官网看有更多视频,地址:网页链接,或者去隔壁“林不再的选股思路”看。

看完上面,大概能感受到Sora的厉害之处,那到底厉害在哪里?

1、能生成60S视频,远超之前10S。对视频数据进行生成建模,方法有循环网络、生成对抗网络、自回归变压器和扩散模型等。他们通常关注一小类视觉数据、较短的视频或固定大小的视频。Sora 能生成不同时长、不同长宽比和不同分辨率的视频,还有图像。

2、超强自然语言理解能力,能够准确理解提示,并生成引人注目的符号,来表达充满活力的情感;

3、高度模拟现实世界交互;

4、在单个生成的视频中创建多个镜头、多个角色、复杂场景,准确地保留角色和视觉风格。

当然,Sora也有一些问题,难以准确模拟复杂场景的物理原理;可能无法理解因果关系的具体实例;可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件。

我们看一个例子。这个视频的提示语是:

可以看到,视频还是很生动的,但发现了没,蜡烛并没有随着吹气而动,可见Sora还是没有处理在模拟对象和多个角色之间的复杂交互。

二、Sora技术原理

OpenAI 官网介绍了Sora原理原理,包括给出了一份技术报告,这部分比较专业,挑重点简单说说。

大意是说,Sora 是一种扩散模型

所谓扩散模型,专业解释是这样的,“扩散模型或概率扩散模型是使用变分推理训练的参数化马尔可夫链,以在有限时间后生成与数据匹配的样本”。简单理解,扩散模型可以生成与其训练数据相似的数据,比如模型对猫进行训练,那可以生成逼真的猫图。

另外,Sora 与 GPT 模型类似,也是采用了transformer架构 ,这是一种注意力机制(Self-Attention),比较复杂不展开写了。

如果想了解更多Sora 的技术原因,可以看这里。网页链接

三、利好哪好板块?

Sora这种效果是非常惊艳的,将会颠覆现有的游戏、影视和传媒行业。

试想一下,中文在线目前累积数字内容资源超 550 万种,如果采用Sora创作,生成视频变现,这是多大的一个体量?而成本又只有多少?

反正,这个消息非常猛,说OpenAI 再一次改变世界也不为过。下一个爆款AI应用将会在这里面诞生。关注节后A股游戏、影视和传媒行业板块吧。

最后,一起欣赏更多Sora生成的视频。

注:上面这张图,为什么城市在水下呢?源于一个传说,柏拉图在晚年著作《克里提亚篇》和《蒂迈欧篇》中提过,“在梭伦九千年前左右,海格力斯之柱(直布罗陀海峡)对面,有一大岛,从该处你们可以去其它岛屿,该等岛屿的对面,就是海洋包围着的一整块陆地,此是‘亚特兰蒂斯’王国。当时亚特兰蒂斯正要与雅典展开一场大战,没想到亚特兰蒂斯却突然遭遇到地震和水灾,不到一日一夜就完全没入海底,成为希腊人海路远行的阻碍。”

感谢阅读,祝好~找资料、写文辛苦,如觉有用请点赞转发,感谢!

另可关注我的备用号“林不再的午间思路”,主要发午间复盘和突发消息。以及雪球(林不再)。有需要留言。

全部讨论

我觉得OpenAI是故意的,去年春节之后的gpt掀起了炒作洪流,今年又是赶在春节开市前发布文生视频。文生视频的重点不是文,而是视频!视频都是有版权的,Sora做的工作是把现有视频叠加起来。$传媒(BK0064)$

02-17 19:24

中文在线

02-16 19:10

林大,你觉得这个对鸿博股份有多大影响?

02-16 16:48

震撼是震撼,但是国内相关太不正宗了