发布于: 雪球转发:0回复:0喜欢:0

《Sora 的买家秀,当魔术背后的真相被揭开,走下神坛?》 SORA能够生成整个视频,一次性可长达一分钟,这在技术上是一个巨大的进步,尤其是它在保持视频中主体一致性方面的能力。 在网上所放出的精挑细选的影片中,Sora 让人印象深刻,但同时大家也都知道这是 cherry pick 的卖家秀。 一些制作团队在过去几周获得了Sora的有限访问权限,其中包括Shy Kids团队,他们制作了SORA短片《Air Head》。 这让我们看到了Sora当前的实际工作状态和痛点,看看真正的买家秀。 - 300:1。这是生成的原始素材与最终影片中使用素材的比例。这意味着为了得到最终影片中的一秒钟内容,他们可能需要生成并审视300秒的原始素材。 - 每次视频渲染需要 10-20分钟,可以生成3-20秒的视频。 - 也就是说要制作60秒的视频,大概需要60*300分钟的时间生成素材。也就是12天。 - 尚未支持多模态输入,很难保持多镜头一致性 - 需要大量的后期处理,包括分级、稳定化、上采样以及移除不需要的元素。 - 比较适合Sora视频的编辑方式是采取了类似纪录片的方法,从大量素材中编织故事,而不是严格按照剧本拍摄。 - 制作团队有一个刚需是电影镜头的控制,如跟踪、平移、倾斜、推入等。最初的Sora中并未支持,OpenAI的研究人员并未思考过这个问题,他们很意外地发现,创作者需要控制镜头来讲故事。