视频大模型领域取得里程碑式进展

发布于: 雪球转发:0回复:0喜欢:0

2月15日,OpenAI在官网正式发布Sora,根据OpenAI官网信息,Sora是一个人工智能模型,能够通过文本提示生成逼真且富有想象力的视频。

Sora文生视频功能强大,能够通过文本提示生成长达1分钟的视频

根据OpenAI官网介绍,作为文生视频大模型,Sora可以在保持视觉质量和遵循用户的文本提示的情况下,生成长达1分钟的视频。在OpenAI的官网页面,OpenAI展示了通过以下文本提示词生成的1分钟视频:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着黑色手提包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。Sora生成的这1分钟的视频体现了文本提示的精确主题和背景细节的复杂场景,准确展现了角色和视觉风格。以往的图像和视频的生成方法,通常会通过调整大小、裁剪或修剪等方法将视频调整为标准尺寸,比如分辨率为256X256的4秒视频。相比以往的视频生成方法,Sora的文生视频能力显然更加强大,Sora可以采样宽屏1920x1080视频、垂直1080x1920视频以及介于两者之间的所有视频,这使得Sora 可以直接以原生宽高比为不同设备创建内容。另外,Sora目前能够生成的视频时长可长达1分钟,遥遥领先于以往的视频生成时长。

Sora呈现良好的多模态能力,不仅支持文本生成视频,还具备图像生成视频等能力

另外,Sora还有生成图像的能力。Sora是一个扩散模型,与OpenAI的GPT模型类似,Sora也是使用transformer的架构。OpenAI将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于GPT中的令牌。通过统一表示数据的方式,OpenAI可以在比以前更广泛的视觉数据上训练Sora,涵盖不同的持续时间、分辨率和纵横比。Sora建立在OpenAI过去对DALL·E 和GPT模型的研究之上。因此,Sora能够在生成视频时更忠实地遵循用户的文本提示。Sora表现出良好的多模态能力,不仅支持文本生成视频,还能够根据提供的图片作为输入来生成视频。在OpenAI官网,OpenAI演示了根据DALL·E2和DALL·E3的图片生成的视频。Sora还能够扩展生成的视频,在时间上向前或向后扩展,并具有连接视频等视频编辑的能力。另外,Sora还有生成图像的能力,Sora可以生成不同尺寸大小的图像,分辨率最高可达2048X2048的水平。

Sora在理解和模拟物理世界方面取得了积极进展

在OpenAI官网发布的信息中,OpenAI并不止于将Sora定位为一个文生视频的大模型,OpenA计算机行业点评I将Sora定位为模拟世界的视频生成模型。通过训练Sora,OpenAI正在教授人工智能理解和模拟运行中的物理世界,目标是训练模型帮助人类解决需要现实世界交互的问题。在模拟物理世界方面,Sora取得了积极的进展。在与现实世界互动方面,Sora有时能够以一些简单的方式模拟现实世界的状态。比如,画家可以在画布上留下新的笔画,并且这些笔画随着时间的推移会持续存在。再比如,视频中人可以吃汉堡并在汉堡上留下咬痕。另外,在模拟数字世界方面,在视频游戏中,Sora可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及《我的世界》的标题提示来让Sora实现。OpenAI称,Sora当前所拥有的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。当然,Sora仍有很多局限性。比如,它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互(例如吃食物)并不总是会产生对象状态的正确变化。目前,Sora并未完全开放。在Sora可用之前,OpenAI将采取一些重要的安全措施。OpenAI正在与红队成员(错误信息、有害的内容和偏见等领域的领域专家)合作,这些红队成员将以对抗性的方式测试Sora模型的安全性。