【长期主义】第280期智能说:Sam Altman美国大学对话,Sora主要作者揭秘Sora原理

发布于: 雪球转发:0回复:0喜欢:4

2024年1月,OpenAI联合创始人、CEO Sam Altman做客美国霍华德大学Howard University,与校长Ben Vinson III、计算生物学与生物信息学中心主任William Sutherland,围绕AI与对人类影响,进行一场炉边对话,全程视频近期放出。Sam认为,AI可能成为有史以来最伟大技术革命,要实现这一目标,需社会各界合作与整合,确保以公平方式部署该技术,让所有人都能受益。

OpenAI文生视频大模型Sora,主要作者Tim Brooks、Bill Peebles,近期在AI社区AGI House发表主题演讲,轮番分享Sora训练细节、数据工程、未来设想、最新进展、面临主要挑战等,带来Sora技术报告之外最一手信息。两人认为,Sora是视频技术GPT-1阶段,很快会有显著进步。Sora将彻底改变内容创作,对实现AGI至关重要。

本期长期主义,选择Sam Altman美国霍华德大学Howard University对话、Sora主要作者Tim Brooks与Bill Peebles演讲,腾讯科技、Z Potentials发布,六合商业研选精校,分享给大家,Enjoy!

Sam Altman美国大学对话:202X年AGI到来,会是智力丰富、廉价的时代

时间:2024年4月28日

来源:腾讯科技

2024年1月,OpenAI联合创始人、CEO Sam Altman做客美国霍华德大学Howard University,与校长Ben Vinson III、计算生物学与生物信息学中心主任William Sutherland,围绕AI与对人类影响,进行一场炉边对话,对话全程视频近期放出。

霍华德大学是1867年成立的综合类私立大学,全美著名黑人大学。AI迅速普及,让霍华德大学很多学生、教职员工、社区成员,对人类未来产生疑问。AI继续在社会各个部门迅速渗透,导致人们担心人类在此过程中可能的损失。

针对这些,3名对话人,深入沟通AI潜力与责任、伦理考量、偏见与多样性、算法偏见、AI在教育中应用、AI与文化多样性等议题。

Sam Altman认为,AI可能成为有史以来最伟大的技术革命,要实现这一目标,需社会各界合作与整合,确保以公平方式部署该技术,让所有人都能从中受益。

对话内容摘要:

Ben Vinson III:很高兴你来到我们校园。

AI发展如此之快,绝对令人着迷,你一直站在这场变革前沿。

作为一个致力社会公正、道德与责任的机构,我想问的问题是,我们如何确保在这么快发生这么多事情情况下,优先考虑道德因素?

像你与你的一些同事这样的行业领导者,应该发挥什么作用?领导者应该在确保采取负责任的做法方面,发挥什么作用?

Sam Altman:AI可能是世界上最伟大的技术革命,最伟大的新工具,最伟大的经济增长引擎。这项技术是惊人的,要得到很好部署,需要与整个社会合作与整合,确保以公平方式实现这一点。

我认为这项技术非常适合这一点,我们无法独自完成。这也是我们喜欢与硅谷以外的人交谈,拜访世界各国大学,向不同背景、不同行业、不同目标的人,询问他们希望AI能够做些什么的原因。

ChatGPT目前是使用非常广泛的产品,它必须为许多人服务,必须以包容的方式、公平的方式来做到这一点,并以某种方式把该项技术的最好部分带给每个人。

当我们训练第一代GPT时,曾遇到很多非常困难的问题,我们当时训练第一代模型,必须通过互联网,会得到非常有偏见的系统。

为解决这个问题,我们有了一些想法,其中一个叫从人类反馈中强化学习,比我们想象的要好得多。

我不会说去偏见本身是个系统,我相信没有人会认为任何一个系统都可以去偏见。如果你看看GPT-4在任何偏见测试中的表现,与早期版本相比,我们取得很大进步。现在我们面临更难的问题,也就是谁来决定这些系统的行为应该是什么?这个过程是什么样?如何确保难以被注意到的边缘声音被放大?为此我们需要大量合作。

我们将推出一些关于民主输入的新内容,我们感觉非常兴奋的点是,技术现在允许这样做。现在我们要面对的是更困难的社会问题,确保这一切能发生。

William Sutherland:我与同事们讨论过的一件事是,当你在开发AI或ChatGPT时,你觉得在开发阶段,进行边缘化输入会产生什么影响。多样性会在多大程度上有助于解决偏见问题?

Sam Altman:关键在于提出工程想法的人,他们必须确保编写系统行为规范的人没有问题,然后是回答问题的人,在此基础上提供的人类反馈,我认为这在各个层面都很重要。

有很多原因让我很高兴访问贵校,我总是喜欢在大学里演讲,其中一个原因是,请申请加入OpenAI,我们很想招募你们。

Ben Vinson III:我想就此问题再延展一下,我看到很多学生都在微笑,这是对我们上一个问题的反应。

在一所大学,在霍华德大学,我们有令人难以置信的人才队伍。你对我们学生有什么建议?他们可能想进入这个行业,在OpenAI或是其他AI公司工作,他们可以做什么?应该准备什么?

Sam Altman:在来学校参加活动之前,我参加了一个播客节目录制。我会再重复在那个节目中说过的话,我真的很满意这个答案。

我认为这可能是最伟大的时刻,至少是自互联网革命以来最伟大时刻。对进入科技行业感兴趣的年轻人,现在,特别是目前,都非常幸运。当一个新行业刚刚诞生,出现在巨大变化的时刻,年轻人拥有最大优势与最多机会,年轻人要比年长的人更熟悉AI工具。他们带来一系列新的视角,不仅关于如何做现有的事情,关于如何创造未来,这些在此之前是不可能的。

我认为年轻人推动了很多技术革命,我之前曾在创业孵化期YC工作,这对我们来说是显而易见。

这是一件非常重要的事情,也是一个非常特别的机会。除此之外,从这个角度看,年轻人也将在发生令人难以置信的变化的事情进入自己的职业生涯。这是刚刚起步或更早的人的优势所在。

这太棒了,就像当地面震动时,当所有规则发生变化时,当现有权力结构受到威胁或削弱时等。年轻人将有机会开始一些全新的事情,可以是创办家新公司,可以是一种新的创造性工作,就像在现有公司做一份工作,比年轻人年长10或20岁的人,不会有的那些创造性的火花。

作为一名投资者,这是我第一次错过机会。我并没有错过太多,因为开发AI更有趣。

当前是创办新公司的机会,新公司将在新技术革命的开端诞生。这是一个像互联网革命开始的时期,就像是亚马逊谷歌与其他公司创办之初的模样,或者像移动革命开始时的模样,新的大公司,往往会在大规模技术变革开始时出现。

Ben Vinson III:没有太多背景的学生机会是平等的吗?你对此有什么看法?

Sam Altman:你们可以加入OpenAI。

我们对这一技术革命感到兴奋的一件事是,代表人数不足的社区,同样接受了这一技术性的革命。我们正利用新工具引领潮流,利用新工具开发新产品与服务。我们对目前看到的情况非常乐观,认为这将是更具代表性的新举措。

William Sutherland:我们学校刚启动大规模的数据科学项目,成立该项目目的,是确保为学生与毕业生打下良好的技术基础,让他们知道需要使用哪些工具。

我们希望为他们职业生涯做好准备,无论是创造性思维,还是批判性技能与思维,工具是不断变化发展的,希望你能够就此给出一些建议。

Sam Altman:我非常赞同这一点,我认为批判性思维是创造力,是发现他人需求的能力,是产生新想法的能力。

某种意义上说,这将是未来最有价值的技能。想象一下,未来AI助手在整个公司无处不在,它们为我们完成任务,帮助我们表达我们愿景,并为他人制作东西,届时最重要的是创意的质量与创意的策划。

世界上最重要的是创意的质量与创意的管理,AI可以产生许多伟大创意,仍然需要有人来确定这是其他人想要的东西。我认为人类真的很关心事物背后的人,当我读一本书时,我做的第一件事是去读作者简介。如果让AI阅读这本书,情况会有点不同。如果我正在使用某家公司产品,我想知道创造产品人的情况。

我认为从两个方面看,人类知道其他人想要什么,人类关心某些东西背后的人类,这将是一项超级重要的技能。我认为学习这种创造的能力,以及从AI提供的众多选项中挑选出合适的方案,这将非常有价值。

我同意你的观点,工具将发生变化,我认为熟悉当今的工具与使用计算机的新方式非常重要。

这对每个人都很重要,不仅是工具制造者,每个人都喜欢过去的方式。如果你不能使用手机,对你来说是巨大的劣势,它们并不难用,人们会学习,在你职业生涯中越早熟悉它,就越了解生活。

在座所有人都很熟悉手机,可能从记事起就如此。我记得我第一次看到老年人使用手机的情形,他们难以适应,就像我想象的那样直观。

我认为人类适应性值得注意,我很高兴人们不再认为与计算机交谈是件难事,它就像与人交谈一样。计算机可以理解我们,与我们交谈,并为我们做事。

2年前,几乎没有人认为这在不久的将来是可能的。2年前,使用ChatGPT,充其量只是科幻小说中才有的情节。如果你在当时告诉全世界,2年后它将成为人们日常生活的一部分,我想他们会不相信,这是好莱坞电影才会有的桥段。

这是世界刚经历的一个重大变化,我认为这可能是肯定的,这是自手机触摸屏以来,我们使用电脑方式的最重大变化,我认为它可能会比触摸屏带来的变革更大。

你将能够像告诉朋友或员工一样告诉计算机,我需要这件事发生或者你对此有什么看法?或者你能帮我解决这个问题吗?亦或者你对这个问题有什么看法?

现在它可能会像写一些代码,为你编辑一篇论文,帮助你分析问题,有一天它会为你编写一个完整的程序,为你做一个完整的研究项目,帮助你提出新的构想。这一天不会在遥远的未来,我认为这是件非常重要的事情。

William Sutherland:我上周参加了一场关于移动计算的国际会议,这次会议上,关于ChatGPT的讨论占据相当多时间。

有人当时问了一个与ChatGPT相关的问题:人类社会正处于变革时代。这不一定是因为ChatGPT是技术天才开发的,而是因为它是变革性的,无论是准备STEAM考试的学生、人文学科的学生、家庭主妇还是中学生,它对每个人来说都易于使用。与会的研究人员在当时的会议中认为,我们正在经历变革性的时刻,几乎就像互联网刚推出时一样。你对此有何看法?

Sam Altman:我将分两部分回答这个问题。

首先,我同意这种转变的量级,正在发生的事情,是我们正在从一个智力有限、昂贵的世界,走向一个丰富、廉价的世界。

想一想,如果你有大量的认知劳动可以支配,你可以做多少事情来建立你希望看到发生的构想,对其他人有用,提供服务与建议。现在你可以雇人,可以协调他们。这有点困难,非常昂贵,世界上大多数人都负担不起这么多。我们把这个称之为认知服务,就像是没有多少人能负担起优秀的律师的费用。

例如,这是一种非常专业、非常昂贵的认知服务。如果这样做的成本降低100倍或1万倍,不仅是法律咨询,我认为没有人需要更多的法律咨询。

对于所有我们想要的东西,伟大的娱乐,伟大的产品与服务,其他一切,伟大的教育,伟大的医疗保健。这对世界来说是深刻的转变。我们对此感到非常兴奋,我认为每个人都可以感受到这种转变的幅度。

你的第二点,是一个我被问了很多次的问题,我认为这是一个很好的问题。

我在YC学到的一件事是,就像一个研究技术历史的孩子一样,在使技术易于使用与获取的问题上,你永远不会走得太远。你可以创造一种技术,让也许2倍的人使用它,或者让他们使用它2倍的时间。

我们有了这项我们认为非常酷的技术,我很清楚人们会有多喜欢它,但我们有一种感觉。我们首先在API中发布了它,就像一些技术人士玩得很开心一样,但不是很多人,这是一种未知的世界。

我们把GPT-3放入API,大概是2020年6月或7月,人们开始用打孔机给电脑编程。我不知道那些人是怎么做到的,我觉得这听起来很神奇。很疯狂,但他们做到了。

我们开始思考什么是最好、最简单、最自然的用户界面。现在终于,我们变得越来越像我们与世界互动的方式。许多人开始使用它,我们知道如何指向事物,鼠标是一个合理的类比。键盘有点假,也够好了。这种想法是,我们有这些像窗口与图形信息显示给我们,就像我们看世界,我们看屏幕,有图像都可以工作。

智能手机在当时是一场巨大的革命,让我们用手完成操作,彻底摆脱鼠标与键盘。我们在想接下来会发生什么,科幻小说已经预测到这一点,我们不应像现在这样花这么长时间来搞清楚。

你真的只是想要一台能与你对话的电脑,就像你与人类对话一样。我们非常善于使用语言,以及语言的细微差别与复杂程度。还不精确,还存在问题,我们可以在很高带宽下,用语言交流非常复杂的想法。聊天界面本身很琐碎,问题是我们如何调整底层模型?

观众提问:我是Camila Armas,来自北卡罗莱纳州罗利。我是政治学专业大一新生,也是人文与社会科学学者项目Analo Core的一员。

我问题是,随着AI技术最近蓬勃发展,许多隐私问题已经引起人们关注,这项技术的许多数据,来自没有同意在这些项目中使用的来源,当被使用时,也没有得到认可。

创建OpenAI与开发ChatGPT的过程中,你是否意识到这些问题?目前是否采取任何措施来解决这些隐私问题?

Sam Altman:从知识产权角度看,从训练的内容中学习,但不要记住内容,我们认为这是非常重要的知识产权原则,我们不应该尽最大可能重复内容。

这很难做到完美,《华尔街日报》文章在互联网上被其他媒体转载。尽管模型在努力学习,但在某些情况下,它们可能会不经意记住一些片段,我们想做的是建立技术,确保当这些模型为用户提供输出时,不会侵犯知识产权,我们会找到用新收入来源,补偿知识产权持有者的方法。

我们已经开始与许多新闻机构或许多出版商达成许可协议,我认为每个人都对这可能带来的新收入来源感到兴奋。

观众提问:作为工程专业的学生,我知道我们希望看到更多专业项目,尤其是机器学习。我只是想知道OpenAI,是否真的接触到更多边缘化的大学机构,让学生能够参与AI的研究?

Sam Altman:是的,我们有很多项目。

我们会培训学生擅长AI,我们希望一些学生毕业后,能够加入OpenAI,我们会培训学生成为AI研究员与AI工程师。

观众提问:我是霍华德大学商学院创新教授。感谢你的到来,感谢你倾听我们声音。我们正处于AI发展初期,许多互联网时代先行者已经不再是领导者。

我想知道,你是如何看待OpenAI不同之处?目前市场竞争格局,与20世纪90年代不同,我想问你是如何让自己与众不同,并为OpenAI描绘出将持续20年或30年的未来?

Sam Altman:这是很好的问题,我一直在思考这个问题。很明显,很难得到反馈。

我们采用基本模型,并让它以某种方式运行。我们需要决定它应该如何运行,让人们说这是一个好的响应,那不是一个好的响应;或者这符合规范,那不符合规范。

所有这些步骤中,非常重要的一点是,找出让社会认同的行为,确认它们应该是什么样。我知道我已经提过这事几次,但这是巨大的挑战,要做到这一点,需要各种各样声音。我认为这对该领域的发展至关重要。

观众提问:我是理科硕士,我问题倾向IAGI,AI未来会成为AGI,AI如何拥有情感或能够自我学习,这是潜在风险的来源,我一直很喜欢这种潜在风险。我想知道OpenAI在AGI问题上,会如何平衡风险与收益?

Sam Altman:这可能是我们想得最多的事情。我认为AGI目前就像一个模糊的术语,人们以许多不同方式使用它。你问的问题,我认为更接近于我所说的超级智能,不是可以做人类可以做的工作,而是可以做研究的东西。

OpenAI研究人员如何思考当我们达到那个水平时,世界会是什么样,以及如何确保我们面对系统风险,这很难做到。

我们有新团队帮助我们思考,为未来世界做好准备;也有技术安全工作来思考如何确保人类保持对更先进模型的控制。这是一件大事,真的很重要,它将会以一种巨大的方式影响我们所有人,我们需要共同决定如何平衡这些风险与利益。

观众提问:我们会在什么时候达到AGI水平?

Sam Altman:这很难说,我不太愿意给出答案。我总是很乐意预测未来会发生什么,特别是在研究方面,这非常困难。

我想说的是,在21世纪20年代,我们会有非常强大的系统。我想把它称之为AGI,这是它的一个版本。在20年代,将会出现早期版本。这是我的猜测,可能会更长。

观众提问:我来自澳大利亚,主修荣誉管理专业,辅修非洲研究。我问题是OpenAI计划如何保护与支持工人的心理健康?这些工人从事着从OpenAI系统中标记与删除有毒或暴力内容的工作,这项工作通常由有色人种完成。

Sam Altman:我们正在尽可能与自己团队成员合作,在我们能够更好控制所提供的支持时,做更多工作。我们能做的最好的事情,是使用这些AI工具,确保人类不必看到最糟糕的内容,或与最糟糕的内容和工具互动。这些工具可以帮助人类获得更好、更轻松的体验,同时产生相同或更大的影响。我认为这是我们可以为提供这种反馈的人,做的一件新事情。

观众提问:你认为OpenAI与AI,将在加强协作式教育,以及人类未来如何通过AI学习的方面,会发挥什么作用?

Sam Altman:这是我们最兴奋的几个领域之一。学生与教师,是ChatGPT的第一批大规模采用者,他们在做的每一步,都继续给我们带来惊喜,这已经对教育产生非常大的影响。

很少有学生付费使用GPT-4,他们中大多数人仍只是使用免费版本。GPT商店,已有许多教育GPT,我认为这是很好的教育体验。

我们可以看到一条通往每个学生都能获得出色的AI个性化导师的道路,这将改变他们学习方式。学生需要人类教师来提供大量支持但ChatGPT可能会放大教师能力。18年后的每一个大学生,都比在座的任何一位新生都要聪明,我认为这将是巨大的胜利。

OpenAI Sora主要作者,亲自揭秘Sora原理,Sora能带我们通往AGI吗

时间:2024年4月27日

来源:Z Potentials

OpenAI文生视频大模型Sora,主要作者Tim Brooks、Bill Peebles,在AI社区AGI House发表主题演讲,轮番分享Sora训练细节、数据工程、未来设想、最新进展、面临主要挑战等,带来Sora技术报告之外最一手信息。两人认为,Sora是视频技术GPT-1阶段,很快会有显著进步。Sora将彻底改变内容创作,对实现AGI至关重要。

Sora主要突破:

Sora训练过程中,学到大量关于物理世界知识,不仅维持视频对象持续性,还有三维结构准确性。

Sora第一个版本主要目标,是实现至少1080P分辨率与至少30秒视频。

技术报告放出的视频样例中多机位镜头,没有经过后期拼接处理,或多次合成,Sora自己决定何时切换镜头角度,在不同场景中保持角色一致性。

Sora物理学怎么样:

Sora基于简单、可扩展的框架,尽可能避免人为设定物理规则。团队发现,要模型扩展得足够大,它就能自主理解三维几何结构,无需在模型中设定严格的一致性规则。

目前包含三维效果在内的所有信息,都隐含在像素与算法的权重里。

团队曾尝试过模拟汽车碰撞与旋转等动作,团队认为Sora没有完全掌握牛顿三大运动定律,但正在接近目标。

Sora最终需要能够模拟人类思考方式,而要创造真正逼真的视频与动作序列,必须构建内部模型,这个模型要能理解所有对象、人类与环境的运作机制。

用户将如何使用:

短期Sora可替代昂贵的好莱坞CGI技术,以及难以搭建的拍摄场景,这仅是模型潜力的表层。

用户的精细调整与更强的可控性,理论上完全可行,Sora正处在探索阶段。

Sora运行速度,不足以支持用户即时互动,如暂停并修改,完成这些操作,至少需要几分钟时间。

互联网数据支持我们通往AGI吗:

Sora开发中,团队深刻体会到处理视频数据的困难,需要完成大量精细而又单调的工程任务。

Sora采用混合模式做视频评估,包括损失值,图像评估指标,以及人工评估。

目前人类所有数据支持实现AGI,对使用创新方法突破限制表示乐观。

主持人:在AGI House,我们非常重视你们这样的朋友们,我们特意邀请你们来到这里。现在,请大家以热烈掌声欢迎Tim登台。

Tim多么充满活力的现场。我是Tim,旁边是Bill,我们在OpenAI与一支杰出的团队共同开发Sora。今天,我们非常高兴有机会向大家介绍它。我们将简要介绍Sora主要功能,它在内容创造领域潜力,背后技术支持,它为何成为实现AGI的重要一步。

这是我们一个里程碑,当我们探索如何在视频生成技术上取得突破时,我们目标是制作时长1分钟的1080P高清视频。

这段视频在细节上做得非常出色,比如反射与阴影效果处理得很精细。注意这个亮点,蓝色标志牌,女主角即将经过它。她走过后,标志依旧可见。这展示视频生成中一个挑战性问题:如何在视频中保持对象持续性与一致性。

Sora还能创造多种风格的视频。比如,这里展示的是一个纸艺世界,非常独特与引人入胜,它还精通三维空间的理解。

你可以看到,随着人物移动,摄影机在三维空间中流畅转动,准确捕捉世界几何与物理特性。

Sora在这方面已经学习了很多,不仅如此,Sora在训练过程中,还学到大量关于物理世界的知识。

现在,让我们探讨一下,Sora在视频生成方面,将如何彻底改变内容创造的未来。

Sora将彻底改变内容创作

Bill:我们对Sora持续研发与应用前景感到兴奋,不仅它对于达成AGI的重要性,更因为它在短期内,将极大促进创意内容发展。

这里有一个我们特别喜欢的例子,30岁宇航员的冒险电影预告。这个例子亮点在于,宇航员角色在多个镜头中持续出现,全都是Sora自主生成。我们没有进行后期拼接处理,也没有需要多次拍摄再合成。Sora自己决定何时切换镜头角度,在不同场景中保持角色的一致性。

考虑到特效复杂性,这也是我们非常欣赏的一个例子。例如,一个外星人在纽约市自然融入人群,这是使用极其昂贵的传统好莱坞CGI技术才能得到的效果,这项技术短期内可能带来的影响,是巨大的。

Sora不仅能创作出逼真的视频,还能创作动画内容。这里有一个非常可爱的水獭动画,可以看到水獭Otter的拼写错了,带着一丝不完美的魅力。

让我们思考一下,那些使用传统好莱坞设备难以拍摄的场景。例如,我们设想的一个场景,是纽约市Bloom Zoo商店,这里既是珠宝店,又是动物园,展示镶有钻石与黄金的圣牙虎,以及镶有翡翠的海龟等。这些都是用传统方法难以实现的,但对Sora来说,这些只是小菜一碟。

最后,我将时间交给Tim,他将讨论我们如何与艺术家合作使用Sora,以及他们能通过这项技术实现哪些创意。

Tim我们已经向少数艺术家开放使用权限。这还不是一个对外广泛开放的产品,而是我们研究成果。

我们相信,通过与外部世界交流,我们可以更好理解这项技术价值,确保其安全性。这是我们发布这一消息的原因,从安全团队到艺术家,我们开始与各种团队合作,探索这项技术的可能性。

Shy Kids是我们合作的艺术团队之一,他们对Sora评价是,Sora擅长创造看似真实的图像,我们更兴奋的是它创造出完全超现实作品的能力。

我觉得这非常酷,想一想,当我们提到生成视频时,我们生活中已经存在的诸多视频应用会浮现在脑海中,比如库存视频或是现有电影。

真正让我感到兴奋的是,人们正在创造一些全新的东西。全新的媒介形式、娱乐方式与前所未有的新体验,即将通过Sora及未来的视频生成技术变为可能。

我想向大家展示一个例子,这是由Shy Kids利用我们提供的Sora权限创作的有趣视频。

这段视频讲述有趣的故事,主角是头顶气球的男子。我们发布了名为《Sora首印象》的博客,展示我们授权给多位艺术家的视频。其中一个特别的片段是,这位头顶气球的男子,从一个独特的视角讨论生活,极具创意。

我们授权其他艺术家,也创作了许多既有创意、又与众不同的作品。每位艺术家运用这项技术的方式,各不相同,这种多样性非常令人振奋,它展示了这项技术的广泛应用潜力。这真的很有趣,许多人都有绝妙的想法。

这些想法在以前可能很难实现,比如制作一部电影,或者一些全新、不同的创作。

希望这项技术能够长期使内容创作民主化,使更多具有创造性的人,能将他们想法变为现实,展示给全世界。

Sora技术原理揭秘

Tim我简要介绍Sora技术背后原理,我会从模型扩展性能力,来谈这些模型为什么如此成功。

长期看,随着算力增强,能够有效利用,并随着规模扩大,而持续优化的方法,将最终胜出。

随着时间推移,我们可以使用的计算资源越来越多,如果这些方法能够很好利用这些资源,它们表现就会越来越好。

语言模型之所以能够做到这一点,是它们能够处理各种不同形式的文本,从数学、编程到散文等。这些内容被转化成通用的Token语言,并在这些不同类型Token上训练大型的Transformer模型,从而形成种通用的文本数据模型。

通过在广泛的不同类型文本上进行训练,我们学到这些非常通用的语言模型。你可以利用这些模型来执行各种任务,如使用ChatGPT或任何你喜爱的语言模型。它们从这些多样化数据的组合中,学到广泛知识。

我们希望对视觉数据也能做同样事情,这正是我们在Sora项目中所做的。我们收集竖直视频、方形图像,以及各种分辨率图像,无论是长视频、还是短视频,将它们转换成时空中的Patch,你可以把它想象成一堆帧的叠加。这些帧形成像素的体积,我们从中提取这些小立方体。

这样的处理,让我们能在任何像素体量上工作,将其全部转换为时空Patch,这些Patch就是我们的数据Token。视频可以被看作是一系列图片的堆叠,每一帧都是一个像素的集合。

无论是高清还是低清图像,无论视频长度如何,我们都能将这些像素,转换成所谓的时空Patch,这些Patch在我们系统中,扮演类似Token的角色。

我们接下来会在这些时空Patch上,训练Transfomer模型,这些模型具有很高的可扩展性。这种方式,让我们能够像处理语言模型一样处理视频内容,不断提升系统处理能力与数据处理能力,使得模型随时间推进,变得越来越好。这种多宽高比的训练方法,也让我们能够创造出适应不同屏幕尺寸的视频内容。

我们能够生成竖直、方形,甚至横向视频,这不仅扩大数据的使用范围,更增加内容多样性。现在,随着人们越来越多通过手机等移动设备消费视频内容,能够生成适应不同方向与格式的视频,变得尤为重要。

我们还利用ZeroShot技术,来增强视频到视频的转换能力。这包括使用SDEdit方法,这是一种常与扩散技术结合使用的技术。通过这种方法,我们模型逐步给视频降噪,生成清晰的视频内容。这种技术允许我们修改视频的输入,例如可以将一个视频重新创作成像素艺术风格,或者将其背景设置在带有彩虹之路的太空中,甚至改变其主题为中世纪风格。这种灵活性,为创意提供几乎无限的可能性。

你可以看到,视频经过编辑,整体结构保持不变。例如,接下来我们将经过一个隧道,视频将以多种方式呈现这个隧道,其中中世纪风格尤其引人入胜。这得益于模型智能,它不仅进行表面修改,而是根据情景变换,比如在中世纪场景中,没有汽车,模型会智能转换成马车。

这个模型还能在不同视频间进行巧妙过渡。例如,展示的视频中,有两种不同生物,视频将从左侧的生物,平滑过渡到右侧的生物。这种无缝、令人赞叹的转换方式,正体现利用这些模型可以创造出许多独特与创新的内容。

就像我们最初使用语言模型时,人们最初的反应通常是用它来写作,语言模型的用途远不止于此。

现在,每天都有人提出新的创意用法。这些视觉模型的潜力,也远未被完全挖掘。我们才刚开始探索可以用它们做些什么,未来的可能性无限。

这里有一个我特别喜欢的例子:左侧是无人机视频,右侧是水下的蝴蝶,我们将在这两者之间进行插值。视频中的细微表现,比如中间的竞技场在过渡过程中逐渐衰败,并沉入水中,效果非常壮观。

还有一个例子同样引人注目,展示如何将一种地中海景观,平滑过渡到一个姜饼屋,这种变换,在三维物理世界中保持连贯。

模型提供了一种独特的解决方案,使姜饼屋逐渐从建筑后面显露出来。

如果你还未曾查看,我强烈推荐你阅读我们主要博客文章与技术报告,技术报告中包含了这些示例及一些幻灯片中未展示的其他精彩内容。

这些仅仅是触及到模型潜力的表层,还有更多精彩内容值得探索。还有一些有趣的功能,例如可以扩展视频的播放时间。

这里有一个示例,是一张静态图片,我们使用DALLE-3生成,并计划利用Sora为其添加动画效果。

Sora对实现AGI至关重要

Bill:大家都对大型语言模型LLMs,在实现AGI中的重要作用持乐观态度。我们认为视频模型,是实现这一目标的关键技术路径之一。

通过观察Sora生成的如东京雪景这样的复杂场景,我们发现它已经能够展现出对人类交互行为与身体接触的深入理解。

随着我们不断推进这一技术,我们相信Sora最终需要能够模拟人类的思考方式。要创造真正逼真的视频与动作序列,必须构建内部模型,这个模型要能理解所有对象、人类与环境的运作机制。

我们认为Sora,将对实现AGI起到关键作用。正如LLMs发展重点是扩展能力一样,我们也将这一策略应用于视频模型。为了实现这一目标,我们开发了基于Transfomer的框架,这个框架可以高效扩展。我们比较了不同配置的Sora模型,其中唯一的差异在于我们为模型投入的计算资源量。

最基本的配置下,Sora甚至无法准确识别狗的外形,它只能大致模拟相机应该如何在场景中移动

如果我们将计算资源增加4倍,你会看到它开始能够识别狗的形态,甚至可以在狗身上添加帽子,背景中加入人物。

如果我们将计算资源提升到32倍基准,你将会看到环境中极为详细的纹理,如狗在场景中移动时,腿部的细微动作,甚至可以看到一个女士与一顶针织帽互动。

随着我们持续扩大Sora规模,就像我们在大型语言模型中看到的新功能一样,我们相信视频模型也将展现出新能力。我们目前投入的计算资源还未达到32倍,我们已经观察到一些令人兴奋的进展,我将花时间进一步探讨这些进展。

首先是动物的复杂场景。这是另一个展示东京雪景的样本,你可以看到摄像机穿越整个场景。它保持了三维结构的准确性,一对情侣手牵手,你还能看到摊位上的人们。

这展示Sora能够同时模拟带有大量主体的复杂环境。目前,我们能做的还比较基础,如一些简单的互动。随着我们不断推进模型扩展,这些将预示我们未来可以期待的成果。例如,人们之间更具深度与意义的对话,以及更复杂的物理互动。

与大型语言模型相比,视频模型一个优势是我们可以处理动物。这是关于意大利Verano狗的例子。你可以看到它试图跳到另一个窗台,有些蹒跚,最终稳住身体。

我们不仅模拟人类在场景中移动方式,还在探索其他动物移动模式。

我们特别看好的另一个特性,是三维一致性。此前在学术界曾一度有很多争论,关于我们在生成模型中需要多少归纳偏差,才能真正使其成功。

开发Sora过程中,我们目标是创建简单、可扩展的框架,尽可能避免人为设定物理规则。我们的发现,证明了这种方法有效性。只要模型扩展得足够大,它就能自主理解三维几何结构,无需我们直接在模型中设定严格的一致性规则。

在圣托里尼岛的蓝色时刻,我们展示标志性的白色基克拉迪建筑与蓝色圆顶,这种壮丽的航拍视角,通常与Sora的协同使用,效果极佳,无需过多挑剔,即可获得成功的画面。

Sora在保持一致性方面表现出色,无论是展现优胜美地的徒步旅行者与壮丽瀑布的场景,还是捕捉极限徒步的冒险瞬间。

对于视频生成系统来说,一直难以解决的问题,如对象持久性,Sora虽不完美,但已取得显著进展。

例如,在我们喜爱的布拉诺岛达尔马提亚犬的场景中,人来人往,狗依然出现在画面中。

Sora不仅能处理短暂的交互,如之前在东京捕捉到路过蓝色标志的瞬间,即使面对多重遮挡,也能有效恢复画面。

个优秀的视频生成系统,需要能在时间推移中,呈现出丰富、有趣的事件,这是Sora正在努力实现的

以往我们制作的4秒视频,大多简单如动画GIF。现在的Sora,已经迈出重要一步,它不仅能捕捉动作,还能永久改变世界状态。

在这方面,Sora还有提升空间,但已经有不少成功案例,比如一幅水彩画,艺术家的每一笔都真实留在画布上,让画面变得生动有趣。

另外,就像一个老人吃汉堡时留下的咬痕,这些简单的互动,对视频生成系统至关重要,不仅有助于内容创作,还能模拟真实体验,这对AI的发展尤为重要。

我们希望Sora是一个世界模拟器,以模拟真实世界的物理规律。我们也希望Sora能扩展到虚拟世界,比如电脑与操作系统中,从而学习与适应更多规则与现象。这标志着,我们在向更加全面与深入的世界模拟迈进。

作为初步尝试,我们选择Minecraft来展示Sora能力,这次我们使用迄今为止最精细的高清AP材质包。

Sora已经能够很好理解Minecraft运作机制,它不仅能渲染虚拟环境,还能控制玩家进行一些基本操作,这些还不够引人入胜,但已经是很好的开始。

我们激动期待着有一天,我们能开发出统一的模型,这个模型将融合所有不同虚拟世界的知识。我们常开玩笑说,未来某天,你甚至可以在文生视频模型上运行ChatGPT这样的语言模型。

让我们看看一些失败的案例,Sora的路还很长,这真的是一项商业活动,充满了挑战。

例如,Sora在处理一些我们认为简单的物理互动时,仍然遇到困难,如一个看似简单的椅子,Sora往往处理不当。甚至更简单的物理现象,比如玻璃杯掉落并破裂,Sora大多数情况下也会处理错误。它在理解一些我们认为理所当然的基本事物上,还有很长的路要走。

总体来说,我们对这个新兴技术的发展方向感到兴奋。我们将Sora看作是视频技术GPT-1阶段,我们相信这项技术很快就会有显著进步。我们已经看到一些令人兴奋的特性,我们对未来发展充满期待,相信它将带来革命性、令人惊叹的成果,我们非常期待看到大家如何利用这项技术。