OpenAI 之Sora 技术报告详解——未来已来，致敬一个全新的多视角，多纬度时代 Sora 详细的技术报告发布了，今天加班挖掘并研究新的投资机会，相信很多相关从业者可能比我还更着急，因为意味着即将颠覆更...

Sora 详细的技术报告发布了，今天加班挖掘并研究新的投资机会，相信很多相关从业者可能比我还更着急，因为意味着即将颠覆更多的工作机会和岗位，很多优质的3D和视频门槛将降低为0。

文章中涉及 Open AI的训练思路以及 Sora 详细的技术特性，如下为用高中时学到的一点点语文水平概括了一下主要要点，想了解更详细的可以自己去看完整内容。

一句话就是：Sora 的训练量足够大并且已经产生了类似涌现的能力！

技术特点

三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界：Sora同步能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力。

长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。

与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。

训练过程

Sora 的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型（diffusion transformer）。

首先将视频压缩到一个低维潜在空间19中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加，样本质量有了显著提升。

Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似，也利用了GPT技术，将用户的简短提示转换成更详细的提示，然后发送给视频模型。Video generation models as world simulators

论文关键点OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型，这些模型同时在视频和图像上进行训练，处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点：统一的视觉数据表示：研究者们将所有类型的视觉数据转换为统一的表示，以便进行大规模的生成模型训练。Sora 使用视觉补丁（patches）作为其表示方式，类似于大型语言模型（LLM）中的文本标记。视频压缩网络：研究者们训练了一个网络，将原始视频压缩到一个低维潜在空间，并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练，并生成视频。扩散模型：Sora 是一个扩散模型，它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。视频生成的可扩展性：Sora 能够生成不同分辨率、时长和宽高比的视频，包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容，或者在生成全分辨率视频之前快速原型化内容。语言理解：为了训练文本到视频生成系统，需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术，首先训练一个高度描述性的标题生成器，然后为训练集中的所有视频生成文本标题。图像和视频编辑：Sora 不仅能够基于文本提示生成视频，还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务，如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。模拟能力：当视频模型在大规模训练时，它们展现出了一些有趣的新兴能力，使得 Sora 能够模拟物理世界中的某些方面，如动态相机运动、长期一致性和对象持久性等。讨论：尽管 Sora 展示了作为模拟器的潜力，但它仍然存在许多局限性，例如在模拟基本物理交互（如玻璃破碎）时的准确性不足。研究者们认为，继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。这篇论文提供了对 Sora 模型的深入分析，展示了其在视频生成领域的潜力和挑战。通过这种方式，OpenAI 正在探索如何利用 AI 来更好地理解和模拟我们周围的世界。

论文报告：网页链接。

Ps:

1.今年的策略除保持量化系统外将只买入预期10倍以上的个股并持续拿一段时间，相信今年将有很多小盘股锐变成十倍股。今天已经挖掘到3只候选股做更深入研究跟进。

2.针对这个主题，下午已经挖掘好相应个股并已经准备好开盘前凌晨涨停挂单的准备。每一次科技革命的到来，都讲造就一批弄潮儿。

3.科技正在不断拉开我们的距离并倒逼着我们的跟进和发展，如今不是一年两年的距离，而是数十年的距离……

OpenAI 之Sora 技术报告详解——未来已来，致敬一个全新的多视角，多纬度时代

作者：黄河路车夫

技术特点

训练过程

全部讨论