发布于: Android转发:0回复:0喜欢:1

Sora 详细解读

1)效果:远超所有此前文生视频方案,几乎实现了两个代际的提升,接近消费者/工业生产需要。60S的内容长度远超此前文生视频的10S长度,达到了短视频的爆款长度;极度稳定的镜头;模型不仅理解用户在提示中要求的内容,还理解这些东西在物理世界中的存在方式,实现不少物理交互(不仅可以生成完整流畅的走路和划船,甚至可以生成非常真实的猫踩睡觉的人,船在波涛里旋转的接近物理世界镜头),其它握手拥抱这些还不太行。
2)能力提升根源:白皮书还没发,OpenAI认为Sora作为Diffusion模型能力提升的很大来自于,更多的视频(甚至可能有3D)作为训练集、准确深入的语言理解能力、世界构造能力。从研究人员来看,真正研发Sora的人员仅有三人,其它均为支持性工作,我觉得大幅提升可能主要来自于三方面:
Diffusion-Transformer架构
可能通过UE5、Unity、Nerf等大量生成了合成数据作为训练集
大语言模型的能力提升(OpenAI说了正在教AI理解和模拟运动中的物理世界,目标是训练能帮助人们解决需要真实世界交互的问题的模型)
3)目前商业化进度:OpenAI尚未公开开放Sora权限,表示Sora目前仅为研究项目的开始,CEO Altman在Twitter邀请留言生成视频展示能力,并表示OpenAI已经在和安全测试机构、电影和视频创作者合作,以改进产品。我觉得6个月内就会商业化和GA。4)未来市场展望:2千亿美金的短视频市场、3D、游戏、商业拍摄、特效、IP转化等内容创作工作流,都有望被颠覆,可以增强用户体验、极大降低用户使用壁垒、极大降低创作成本、并极大拓展创作者能力边界。看到了下一个亿级用户超级应用的雏形。$中际旭创(SZ300308)$ $工业富联(SH601138)$ $天孚通信(SZ300394)$ 新易盛浪潮信息沪电股份