视频大模型领域取得里程碑式进展 2月15日，OpenAI在官网正式发布Sora，根据OpenAI官网信息，Sora是一个人工智能模型，能够通过文本提示生...

2月15日，OpenAI在官网正式发布Sora，根据OpenAI官网信息，Sora是一个人工智能模型，能够通过文本提示生成逼真且富有想象力的视频。

Sora文生视频功能强大，能够通过文本提示生成长达1分钟的视频

根据OpenAI官网介绍，作为文生视频大模型，Sora可以在保持视觉质量和遵循用户的文本提示的情况下，生成长达1分钟的视频。在OpenAI的官网页面，OpenAI展示了通过以下文本提示词生成的1分钟视频：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拿着黑色手提包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。Sora生成的这1分钟的视频体现了文本提示的精确主题和背景细节的复杂场景，准确展现了角色和视觉风格。以往的图像和视频的生成方法，通常会通过调整大小、裁剪或修剪等方法将视频调整为标准尺寸，比如分辨率为256X256的4秒视频。相比以往的视频生成方法，Sora的文生视频能力显然更加强大，Sora可以采样宽屏1920x1080视频、垂直1080x1920视频以及介于两者之间的所有视频，这使得Sora 可以直接以原生宽高比为不同设备创建内容。另外，Sora目前能够生成的视频时长可长达1分钟，遥遥领先于以往的视频生成时长。

Sora呈现良好的多模态能力，不仅支持文本生成视频，还具备图像生成视频等能力

另外，Sora还有生成图像的能力。Sora是一个扩散模型，与OpenAI的GPT模型类似，Sora也是使用transformer的架构。OpenAI将视频和图像表示为称为补丁的较小数据单元的集合，每个补丁类似于GPT中的令牌。通过统一表示数据的方式，OpenAI可以在比以前更广泛的视觉数据上训练Sora，涵盖不同的持续时间、分辨率和纵横比。Sora建立在OpenAI过去对DALL·E 和GPT模型的研究之上。因此，Sora能够在生成视频时更忠实地遵循用户的文本提示。Sora表现出良好的多模态能力，不仅支持文本生成视频，还能够根据提供的图片作为输入来生成视频。在OpenAI官网，OpenAI演示了根据DALL·E2和DALL·E3的图片生成的视频。Sora还能够扩展生成的视频，在时间上向前或向后扩展，并具有连接视频等视频编辑的能力。另外，Sora还有生成图像的能力，Sora可以生成不同尺寸大小的图像，分辨率最高可达2048X2048的水平。

Sora在理解和模拟物理世界方面取得了积极进展

在OpenAI官网发布的信息中，OpenAI并不止于将Sora定位为一个文生视频的大模型，OpenA计算机行业点评I将Sora定位为模拟世界的视频生成模型。通过训练Sora，OpenAI正在教授人工智能理解和模拟运行中的物理世界，目标是训练模型帮助人类解决需要现实世界交互的问题。在模拟物理世界方面，Sora取得了积极的进展。在与现实世界互动方面，Sora有时能够以一些简单的方式模拟现实世界的状态。比如，画家可以在画布上留下新的笔画，并且这些笔画随着时间的推移会持续存在。再比如，视频中人可以吃汉堡并在汉堡上留下咬痕。另外，在模拟数字世界方面，在视频游戏中，Sora可以同时通过基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。这些能力可以通过用提及《我的世界》的标题提示来让Sora实现。OpenAI称，Sora当前所拥有的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。当然，Sora仍有很多局限性。比如，它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎。其他交互（例如吃食物）并不总是会产生对象状态的正确变化。目前，Sora并未完全开放。在Sora可用之前，OpenAI将采取一些重要的安全措施。OpenAI正在与红队成员（错误信息、有害的内容和偏见等领域的领域专家）合作，这些红队成员将以对抗性的方式测试Sora模型的安全性。

视频大模型领域取得里程碑式进展

作者：市值那点事