【长期主义】第280期智能说：Sam Altman美国大学对话，Sora主要作者揭秘Sora原理 2024年1月，OpenAI联合创始人、CEO Sam Altman做客美国霍华德大学Howard University...

2024年1月，OpenAI联合创始人、CEO Sam Altman做客美国霍华德大学Howard University，与校长Ben Vinson III、计算生物学与生物信息学中心主任William Sutherland，围绕AI与对人类影响，进行一场炉边对话，全程视频近期放出。Sam认为，AI可能成为有史以来最伟大技术革命，要实现这一目标，需社会各界合作与整合，确保以公平方式部署该技术，让所有人都能受益。

OpenAI文生视频大模型Sora，主要作者Tim Brooks、Bill Peebles，近期在AI社区AGI House发表主题演讲，轮番分享Sora训练细节、数据工程、未来设想、最新进展、面临主要挑战等，带来Sora技术报告之外最一手信息。两人认为，Sora是视频技术GPT-1阶段，很快会有显著进步。Sora将彻底改变内容创作，对实现AGI至关重要。

本期长期主义，选择Sam Altman美国霍华德大学Howard University对话、Sora主要作者Tim Brooks与Bill Peebles演讲，腾讯科技、Z Potentials发布，六合商业研选精校，分享给大家，Enjoy！

Sam Altman美国大学对话：202X年AGI到来，会是智力丰富、廉价的时代

时间：2024年4月28日

来源：腾讯科技

2024年1月，OpenAI联合创始人、CEO Sam Altman做客美国霍华德大学Howard University，与校长Ben Vinson III、计算生物学与生物信息学中心主任William Sutherland，围绕AI与对人类影响，进行一场炉边对话，对话全程视频近期放出。

霍华德大学是1867年成立的综合类私立大学，全美著名黑人大学。AI迅速普及，让霍华德大学很多学生、教职员工、社区成员，对人类未来产生疑问。AI继续在社会各个部门迅速渗透，导致人们担心人类在此过程中可能的损失。

针对这些，3名对话人，深入沟通AI潜力与责任、伦理考量、偏见与多样性、算法偏见、AI在教育中应用、AI与文化多样性等议题。

Sam Altman认为，AI可能成为有史以来最伟大的技术革命，要实现这一目标，需社会各界合作与整合，确保以公平方式部署该技术，让所有人都能从中受益。

对话内容摘要：

Ben Vinson III：很高兴你来到我们校园。

AI发展如此之快，绝对令人着迷，你一直站在这场变革前沿。

作为一个致力社会公正、道德与责任的机构，我想问的问题是，我们如何确保在这么快发生这么多事情情况下，优先考虑道德因素？

像你与你的一些同事这样的行业领导者，应该发挥什么作用？领导者应该在确保采取负责任的做法方面，发挥什么作用？

Sam Altman：AI可能是世界上最伟大的技术革命，最伟大的新工具，最伟大的经济增长引擎。这项技术是惊人的，要得到很好部署，需要与整个社会合作与整合，确保以公平方式实现这一点。

我认为这项技术非常适合这一点，我们无法独自完成。这也是我们喜欢与硅谷以外的人交谈，拜访世界各国大学，向不同背景、不同行业、不同目标的人，询问他们希望AI能够做些什么的原因。

ChatGPT目前是使用非常广泛的产品，它必须为许多人服务，必须以包容的方式、公平的方式来做到这一点，并以某种方式把该项技术的最好部分带给每个人。

当我们训练第一代GPT时，曾遇到很多非常困难的问题，我们当时训练第一代模型，必须通过互联网，会得到非常有偏见的系统。

为解决这个问题，我们有了一些想法，其中一个叫从人类反馈中强化学习，比我们想象的要好得多。

我不会说去偏见本身是个系统，我相信没有人会认为任何一个系统都可以去偏见。如果你看看GPT-4在任何偏见测试中的表现，与早期版本相比，我们取得很大进步。现在我们面临更难的问题，也就是谁来决定这些系统的行为应该是什么？这个过程是什么样？如何确保难以被注意到的边缘声音被放大？为此我们需要大量合作。

我们将推出一些关于民主输入的新内容，我们感觉非常兴奋的点是，技术现在允许这样做。现在我们要面对的是更困难的社会问题，确保这一切能发生。

William Sutherland：我与同事们讨论过的一件事是，当你在开发AI或ChatGPT时，你觉得在开发阶段，进行边缘化输入会产生什么影响。多样性会在多大程度上有助于解决偏见问题？

Sam Altman：关键在于提出工程想法的人，他们必须确保编写系统行为规范的人没有问题，然后是回答问题的人，在此基础上提供的人类反馈，我认为这在各个层面都很重要。

有很多原因让我很高兴访问贵校，我总是喜欢在大学里演讲，其中一个原因是，请申请加入OpenAI，我们很想招募你们。

Ben Vinson III：我想就此问题再延展一下，我看到很多学生都在微笑，这是对我们上一个问题的反应。

在一所大学，在霍华德大学，我们有令人难以置信的人才队伍。你对我们学生有什么建议？他们可能想进入这个行业，在OpenAI或是其他AI公司工作，他们可以做什么？应该准备什么？

Sam Altman：在来学校参加活动之前，我参加了一个播客节目录制。我会再重复在那个节目中说过的话，我真的很满意这个答案。

我认为这可能是最伟大的时刻，至少是自互联网革命以来最伟大时刻。对进入科技行业感兴趣的年轻人，现在，特别是目前，都非常幸运。当一个新行业刚刚诞生，出现在巨大变化的时刻，年轻人拥有最大优势与最多机会，年轻人要比年长的人更熟悉AI工具。他们带来一系列新的视角，不仅关于如何做现有的事情，关于如何创造未来，这些在此之前是不可能的。

我认为年轻人推动了很多技术革命，我之前曾在创业孵化期YC工作，这对我们来说是显而易见。

这是一件非常重要的事情，也是一个非常特别的机会。除此之外，从这个角度看，年轻人也将在发生令人难以置信的变化的事情进入自己的职业生涯。这是刚刚起步或更早的人的优势所在。

这太棒了，就像当地面震动时，当所有规则发生变化时，当现有权力结构受到威胁或削弱时等。年轻人将有机会开始一些全新的事情，可以是创办家新公司，可以是一种新的创造性工作，就像在现有公司做一份工作，比年轻人年长10或20岁的人，不会有的那些创造性的火花。

作为一名投资者，这是我第一次错过机会。我并没有错过太多，因为开发AI更有趣。

当前是创办新公司的机会，新公司将在新技术革命的开端诞生。这是一个像互联网革命开始的时期，就像是亚马逊、谷歌与其他公司创办之初的模样，或者像移动革命开始时的模样，新的大公司，往往会在大规模技术变革开始时出现。

Ben Vinson III：没有太多背景的学生机会是平等的吗？你对此有什么看法？

Sam Altman：你们可以加入OpenAI。

我们对这一技术革命感到兴奋的一件事是，代表人数不足的社区，同样接受了这一技术性的革命。我们正利用新工具引领潮流，利用新工具开发新产品与服务。我们对目前看到的情况非常乐观，认为这将是更具代表性的新举措。

William Sutherland：我们学校刚启动大规模的数据科学项目，成立该项目目的，是确保为学生与毕业生打下良好的技术基础，让他们知道需要使用哪些工具。

我们希望为他们职业生涯做好准备，无论是创造性思维，还是批判性技能与思维，工具是不断变化发展的，希望你能够就此给出一些建议。

Sam Altman：我非常赞同这一点，我认为批判性思维是创造力，是发现他人需求的能力，是产生新想法的能力。

某种意义上说，这将是未来最有价值的技能。想象一下，未来AI助手在整个公司无处不在，它们为我们完成任务，帮助我们表达我们愿景，并为他人制作东西，届时最重要的是创意的质量与创意的策划。

世界上最重要的是创意的质量与创意的管理，AI可以产生许多伟大创意，仍然需要有人来确定这是其他人想要的东西。我认为人类真的很关心事物背后的人，当我读一本书时，我做的第一件事是去读作者简介。如果让AI阅读这本书，情况会有点不同。如果我正在使用某家公司产品，我想知道创造产品人的情况。

我认为从两个方面看，人类知道其他人想要什么，人类关心某些东西背后的人类，这将是一项超级重要的技能。我认为学习这种创造的能力，以及从AI提供的众多选项中挑选出合适的方案，这将非常有价值。

我同意你的观点，工具将发生变化，我认为熟悉当今的工具与使用计算机的新方式非常重要。

这对每个人都很重要，不仅是工具制造者，每个人都喜欢过去的方式。如果你不能使用手机，对你来说是巨大的劣势，它们并不难用，人们会学习，在你职业生涯中越早熟悉它，就越了解生活。

在座所有人都很熟悉手机，可能从记事起就如此。我记得我第一次看到老年人使用手机的情形，他们难以适应，就像我想象的那样直观。

我认为人类适应性值得注意，我很高兴人们不再认为与计算机交谈是件难事，它就像与人交谈一样。计算机可以理解我们，与我们交谈，并为我们做事。

2年前，几乎没有人认为这在不久的将来是可能的。2年前，使用ChatGPT，充其量只是科幻小说中才有的情节。如果你在当时告诉全世界，2年后它将成为人们日常生活的一部分，我想他们会不相信，这是好莱坞电影才会有的桥段。

这是世界刚经历的一个重大变化，我认为这可能是肯定的，这是自手机触摸屏以来，我们使用电脑方式的最重大变化，我认为它可能会比触摸屏带来的变革更大。

你将能够像告诉朋友或员工一样告诉计算机，我需要这件事发生或者你对此有什么看法？或者你能帮我解决这个问题吗？亦或者你对这个问题有什么看法？

现在它可能会像写一些代码，为你编辑一篇论文，帮助你分析问题，有一天它会为你编写一个完整的程序，为你做一个完整的研究项目，帮助你提出新的构想。这一天不会在遥远的未来，我认为这是件非常重要的事情。

William Sutherland：我上周参加了一场关于移动计算的国际会议，这次会议上，关于ChatGPT的讨论占据相当多时间。

有人当时问了一个与ChatGPT相关的问题：人类社会正处于变革时代。这不一定是因为ChatGPT是技术天才开发的，而是因为它是变革性的，无论是准备STEAM考试的学生、人文学科的学生、家庭主妇还是中学生，它对每个人来说都易于使用。与会的研究人员在当时的会议中认为，我们正在经历变革性的时刻，几乎就像互联网刚推出时一样。你对此有何看法？

Sam Altman：我将分两部分回答这个问题。

首先，我同意这种转变的量级，正在发生的事情，是我们正在从一个智力有限、昂贵的世界，走向一个丰富、廉价的世界。

想一想，如果你有大量的认知劳动可以支配，你可以做多少事情来建立你希望看到发生的构想，对其他人有用，提供服务与建议。现在你可以雇人，可以协调他们。这有点困难，非常昂贵，世界上大多数人都负担不起这么多。我们把这个称之为认知服务，就像是没有多少人能负担起优秀的律师的费用。

例如，这是一种非常专业、非常昂贵的认知服务。如果这样做的成本降低100倍或1万倍，不仅是法律咨询，我认为没有人需要更多的法律咨询。

对于所有我们想要的东西，伟大的娱乐，伟大的产品与服务，其他一切，伟大的教育，伟大的医疗保健。这对世界来说是深刻的转变。我们对此感到非常兴奋，我认为每个人都可以感受到这种转变的幅度。

你的第二点，是一个我被问了很多次的问题，我认为这是一个很好的问题。

我在YC学到的一件事是，就像一个研究技术历史的孩子一样，在使技术易于使用与获取的问题上，你永远不会走得太远。你可以创造一种技术，让也许2倍的人使用它，或者让他们使用它2倍的时间。

我们有了这项我们认为非常酷的技术，我很清楚人们会有多喜欢它，但我们有一种感觉。我们首先在API中发布了它，就像一些技术人士玩得很开心一样，但不是很多人，这是一种未知的世界。

我们把GPT-3放入API，大概是2020年6月或7月，人们开始用打孔机给电脑编程。我不知道那些人是怎么做到的，我觉得这听起来很神奇。很疯狂，但他们做到了。

我们开始思考什么是最好、最简单、最自然的用户界面。现在终于，我们变得越来越像我们与世界互动的方式。许多人开始使用它，我们知道如何指向事物，鼠标是一个合理的类比。键盘有点假，也够好了。这种想法是，我们有这些像窗口与图形信息显示给我们，就像我们看世界，我们看屏幕，有图像都可以工作。

智能手机在当时是一场巨大的革命，让我们用手完成操作，彻底摆脱鼠标与键盘。我们在想接下来会发生什么，科幻小说已经预测到这一点，我们不应像现在这样花这么长时间来搞清楚。

你真的只是想要一台能与你对话的电脑，就像你与人类对话一样。我们非常善于使用语言，以及语言的细微差别与复杂程度。还不精确，还存在问题，我们可以在很高带宽下，用语言交流非常复杂的想法。聊天界面本身很琐碎，问题是我们如何调整底层模型？

观众提问：我是Camila Armas，来自北卡罗莱纳州罗利。我是政治学专业大一新生，也是人文与社会科学学者项目Analo Core的一员。

我问题是，随着AI技术最近蓬勃发展，许多隐私问题已经引起人们关注，这项技术的许多数据，来自没有同意在这些项目中使用的来源，当被使用时，也没有得到认可。

创建OpenAI与开发ChatGPT的过程中，你是否意识到这些问题？目前是否采取任何措施来解决这些隐私问题？

Sam Altman：从知识产权角度看，从训练的内容中学习，但不要记住内容，我们认为这是非常重要的知识产权原则，我们不应该尽最大可能重复内容。

这很难做到完美，《华尔街日报》文章在互联网上被其他媒体转载。尽管模型在努力学习，但在某些情况下，它们可能会不经意记住一些片段，我们想做的是建立技术，确保当这些模型为用户提供输出时，不会侵犯知识产权，我们会找到用新收入来源，补偿知识产权持有者的方法。

我们已经开始与许多新闻机构或许多出版商达成许可协议，我认为每个人都对这可能带来的新收入来源感到兴奋。

观众提问：作为工程专业的学生，我知道我们希望看到更多专业项目，尤其是机器学习。我只是想知道OpenAI，是否真的接触到更多边缘化的大学机构，让学生能够参与AI的研究？

Sam Altman：是的，我们有很多项目。

我们会培训学生擅长AI，我们希望一些学生毕业后，能够加入OpenAI，我们会培训学生成为AI研究员与AI工程师。

观众提问：我是霍华德大学商学院创新教授。感谢你的到来，感谢你倾听我们声音。我们正处于AI发展初期，许多互联网时代先行者已经不再是领导者。

我想知道，你是如何看待OpenAI不同之处？目前市场竞争格局，与20世纪90年代不同，我想问你是如何让自己与众不同，并为OpenAI描绘出将持续20年或30年的未来？

Sam Altman：这是很好的问题，我一直在思考这个问题。很明显，很难得到反馈。

我们采用基本模型，并让它以某种方式运行。我们需要决定它应该如何运行，让人们说这是一个好的响应，那不是一个好的响应；或者这符合规范，那不符合规范。

所有这些步骤中，非常重要的一点是，找出让社会认同的行为，确认它们应该是什么样。我知道我已经提过这事几次，但这是巨大的挑战，要做到这一点，需要各种各样声音。我认为这对该领域的发展至关重要。

观众提问：我是理科硕士，我问题倾向IAGI，AI未来会成为AGI，AI如何拥有情感或能够自我学习，这是潜在风险的来源，我一直很喜欢这种潜在风险。我想知道OpenAI在AGI问题上，会如何平衡风险与收益？

Sam Altman：这可能是我们想得最多的事情。我认为AGI目前就像一个模糊的术语，人们以许多不同方式使用它。你问的问题，我认为更接近于我所说的超级智能，不是可以做人类可以做的工作，而是可以做研究的东西。

OpenAI研究人员如何思考当我们达到那个水平时，世界会是什么样，以及如何确保我们面对系统风险，这很难做到。

我们有新团队帮助我们思考，为未来世界做好准备；也有技术安全工作来思考如何确保人类保持对更先进模型的控制。这是一件大事，真的很重要，它将会以一种巨大的方式影响我们所有人，我们需要共同决定如何平衡这些风险与利益。

观众提问：我们会在什么时候达到AGI水平？

Sam Altman：这很难说，我不太愿意给出答案。我总是很乐意预测未来会发生什么，特别是在研究方面，这非常困难。

我想说的是，在21世纪20年代，我们会有非常强大的系统。我想把它称之为AGI，这是它的一个版本。在20年代，将会出现早期版本。这是我的猜测，可能会更长。

观众提问：我来自澳大利亚，主修荣誉管理专业，辅修非洲研究。我问题是OpenAI计划如何保护与支持工人的心理健康？这些工人从事着从OpenAI系统中标记与删除有毒或暴力内容的工作，这项工作通常由有色人种完成。

Sam Altman：我们正在尽可能与自己团队成员合作，在我们能够更好控制所提供的支持时，做更多工作。我们能做的最好的事情，是使用这些AI工具，确保人类不必看到最糟糕的内容，或与最糟糕的内容和工具互动。这些工具可以帮助人类获得更好、更轻松的体验，同时产生相同或更大的影响。我认为这是我们可以为提供这种反馈的人，做的一件新事情。

观众提问：你认为OpenAI与AI，将在加强协作式教育，以及人类未来如何通过AI学习的方面，会发挥什么作用？

Sam Altman：这是我们最兴奋的几个领域之一。学生与教师，是ChatGPT的第一批大规模采用者，他们在做的每一步，都继续给我们带来惊喜，这已经对教育产生非常大的影响。

很少有学生付费使用GPT-4，他们中大多数人仍只是使用免费版本。GPT商店，已有许多教育GPT，我认为这是很好的教育体验。

我们可以看到一条通往每个学生都能获得出色的AI个性化导师的道路，这将改变他们学习方式。学生需要人类教师来提供大量支持但ChatGPT可能会放大教师能力。18年后的每一个大学生，都比在座的任何一位新生都要聪明，我认为这将是巨大的胜利。

OpenAI Sora主要作者，亲自揭秘Sora原理，Sora能带我们通往AGI吗

时间：2024年4月27日

来源：Z Potentials

OpenAI文生视频大模型Sora，主要作者Tim Brooks、Bill Peebles，在AI社区AGI House发表主题演讲，轮番分享Sora训练细节、数据工程、未来设想、最新进展、面临主要挑战等，带来Sora技术报告之外最一手信息。两人认为，Sora是视频技术GPT-1阶段，很快会有显著进步。Sora将彻底改变内容创作，对实现AGI至关重要。

Sora主要突破：

Sora训练过程中，学到大量关于物理世界知识，不仅维持视频对象持续性，还有三维结构准确性。

Sora第一个版本主要目标，是实现至少1080P分辨率与至少30秒视频。

技术报告放出的视频样例中多机位镜头，没有经过后期拼接处理，或多次合成，Sora自己决定何时切换镜头角度，在不同场景中保持角色一致性。

Sora物理学怎么样：

Sora基于简单、可扩展的框架，尽可能避免人为设定物理规则。团队发现，要模型扩展得足够大，它就能自主理解三维几何结构，无需在模型中设定严格的一致性规则。

目前包含三维效果在内的所有信息，都隐含在像素与算法的权重里。

团队曾尝试过模拟汽车碰撞与旋转等动作，团队认为Sora没有完全掌握牛顿三大运动定律，但正在接近目标。

Sora最终需要能够模拟人类思考方式，而要创造真正逼真的视频与动作序列，必须构建内部模型，这个模型要能理解所有对象、人类与环境的运作机制。

用户将如何使用：

短期Sora可替代昂贵的好莱坞CGI技术，以及难以搭建的拍摄场景，这仅是模型潜力的表层。

用户的精细调整与更强的可控性，理论上完全可行，Sora正处在探索阶段。

Sora运行速度，不足以支持用户即时互动，如暂停并修改，完成这些操作，至少需要几分钟时间。

互联网数据支持我们通往AGI吗：

Sora开发中，团队深刻体会到处理视频数据的困难，需要完成大量精细而又单调的工程任务。

Sora采用混合模式做视频评估，包括损失值，图像评估指标，以及人工评估。

目前人类所有数据支持实现AGI，对使用创新方法突破限制表示乐观。

主持人：在AGI House，我们非常重视你们这样的朋友们，我们特意邀请你们来到这里。现在，请大家以热烈掌声欢迎Tim登台。

Tim：多么充满活力的现场。我是Tim，旁边是Bill，我们在OpenAI与一支杰出的团队共同开发Sora。今天，我们非常高兴有机会向大家介绍它。我们将简要介绍Sora主要功能，它在内容创造领域潜力，背后技术支持，它为何成为实现AGI的重要一步。

这是我们一个里程碑，当我们探索如何在视频生成技术上取得突破时，我们目标是制作时长1分钟的1080P高清视频。

这段视频在细节上做得非常出色，比如反射与阴影效果处理得很精细。注意这个亮点，蓝色标志牌，女主角即将经过它。她走过后，标志依旧可见。这展示视频生成中一个挑战性问题：如何在视频中保持对象持续性与一致性。

Sora还能创造多种风格的视频。比如，这里展示的是一个纸艺世界，非常独特与引人入胜，它还精通三维空间的理解。

你可以看到，随着人物移动，摄影机在三维空间中流畅转动，准确捕捉世界几何与物理特性。

Sora在这方面已经学习了很多，不仅如此，Sora在训练过程中，还学到大量关于物理世界的知识。

现在，让我们探讨一下，Sora在视频生成方面，将如何彻底改变内容创造的未来。

Sora将彻底改变内容创作

Bill：我们对Sora持续研发与应用前景感到兴奋，不仅它对于达成AGI的重要性，更因为它在短期内，将极大促进创意内容发展。

这里有一个我们特别喜欢的例子，30岁宇航员的冒险电影预告。这个例子亮点在于，宇航员角色在多个镜头中持续出现，全都是Sora自主生成。我们没有进行后期拼接处理，也没有需要多次拍摄再合成。Sora自己决定何时切换镜头角度，在不同场景中保持角色的一致性。

考虑到特效复杂性，这也是我们非常欣赏的一个例子。例如，一个外星人在纽约市自然融入人群，这是使用极其昂贵的传统好莱坞CGI技术才能得到的效果，这项技术短期内可能带来的影响，是巨大的。

Sora不仅能创作出逼真的视频，还能创作动画内容。这里有一个非常可爱的水獭动画，可以看到水獭Otter的拼写错了，带着一丝不完美的魅力。

让我们思考一下，那些使用传统好莱坞设备难以拍摄的场景。例如，我们设想的一个场景，是纽约市Bloom Zoo商店，这里既是珠宝店，又是动物园，展示镶有钻石与黄金的圣牙虎，以及镶有翡翠的海龟等。这些都是用传统方法难以实现的，但对Sora来说，这些只是小菜一碟。

最后，我将时间交给Tim，他将讨论我们如何与艺术家合作使用Sora，以及他们能通过这项技术实现哪些创意。

Tim：我们已经向少数艺术家开放使用权限。这还不是一个对外广泛开放的产品，而是我们研究成果。

我们相信，通过与外部世界交流，我们可以更好理解这项技术价值，确保其安全性。这是我们发布这一消息的原因，从安全团队到艺术家，我们开始与各种团队合作，探索这项技术的可能性。

Shy Kids是我们合作的艺术团队之一，他们对Sora评价是，Sora擅长创造看似真实的图像，我们更兴奋的是它创造出完全超现实作品的能力。

我觉得这非常酷，想一想，当我们提到生成视频时，我们生活中已经存在的诸多视频应用会浮现在脑海中，比如库存视频或是现有电影。

真正让我感到兴奋的是，人们正在创造一些全新的东西。全新的媒介形式、娱乐方式与前所未有的新体验，即将通过Sora及未来的视频生成技术变为可能。

我想向大家展示一个例子，这是由Shy Kids利用我们提供的Sora权限创作的有趣视频。

这段视频讲述有趣的故事，主角是头顶气球的男子。我们发布了名为《Sora首印象》的博客，展示我们授权给多位艺术家的视频。其中一个特别的片段是，这位头顶气球的男子，从一个独特的视角讨论生活，极具创意。

我们授权其他艺术家，也创作了许多既有创意、又与众不同的作品。每位艺术家运用这项技术的方式，各不相同，这种多样性非常令人振奋，它展示了这项技术的广泛应用潜力。这真的很有趣，许多人都有绝妙的想法。

这些想法在以前可能很难实现，比如制作一部电影，或者一些全新、不同的创作。

希望这项技术能够长期使内容创作民主化，使更多具有创造性的人，能将他们想法变为现实，展示给全世界。

Sora技术原理揭秘

Tim：我简要介绍Sora技术背后原理，我会从模型扩展性能力，来谈这些模型为什么如此成功。

长期看，随着算力增强，能够有效利用，并随着规模扩大，而持续优化的方法，将最终胜出。

随着时间推移，我们可以使用的计算资源越来越多，如果这些方法能够很好利用这些资源，它们表现就会越来越好。

语言模型之所以能够做到这一点，是它们能够处理各种不同形式的文本，从数学、编程到散文等。这些内容被转化成通用的Token语言，并在这些不同类型Token上训练大型的Transformer模型，从而形成种通用的文本数据模型。

通过在广泛的不同类型文本上进行训练，我们学到这些非常通用的语言模型。你可以利用这些模型来执行各种任务，如使用ChatGPT或任何你喜爱的语言模型。它们从这些多样化数据的组合中，学到广泛知识。

我们希望对视觉数据也能做同样事情，这正是我们在Sora项目中所做的。我们收集竖直视频、方形图像，以及各种分辨率图像，无论是长视频、还是短视频，将它们转换成时空中的Patch，你可以把它想象成一堆帧的叠加。这些帧形成像素的体积，我们从中提取这些小立方体。

这样的处理，让我们能在任何像素体量上工作，将其全部转换为时空Patch，这些Patch就是我们的数据Token。视频可以被看作是一系列图片的堆叠，每一帧都是一个像素的集合。

无论是高清还是低清图像，无论视频长度如何，我们都能将这些像素，转换成所谓的时空Patch，这些Patch在我们系统中，扮演类似Token的角色。

我们接下来会在这些时空Patch上，训练Transfomer模型，这些模型具有很高的可扩展性。这种方式，让我们能够像处理语言模型一样处理视频内容，不断提升系统处理能力与数据处理能力，使得模型随时间推进，变得越来越好。这种多宽高比的训练方法，也让我们能够创造出适应不同屏幕尺寸的视频内容。

我们能够生成竖直、方形，甚至横向视频，这不仅扩大数据的使用范围，更增加内容多样性。现在，随着人们越来越多通过手机等移动设备消费视频内容，能够生成适应不同方向与格式的视频，变得尤为重要。

我们还利用ZeroShot技术，来增强视频到视频的转换能力。这包括使用SDEdit方法，这是一种常与扩散技术结合使用的技术。通过这种方法，我们模型逐步给视频降噪，生成清晰的视频内容。这种技术允许我们修改视频的输入，例如可以将一个视频重新创作成像素艺术风格，或者将其背景设置在带有彩虹之路的太空中，甚至改变其主题为中世纪风格。这种灵活性，为创意提供几乎无限的可能性。

你可以看到，视频经过编辑，整体结构保持不变。例如，接下来我们将经过一个隧道，视频将以多种方式呈现这个隧道，其中中世纪风格尤其引人入胜。这得益于模型智能，它不仅进行表面修改，而是根据情景变换，比如在中世纪场景中，没有汽车，模型会智能转换成马车。

这个模型还能在不同视频间进行巧妙过渡。例如，展示的视频中，有两种不同生物，视频将从左侧的生物，平滑过渡到右侧的生物。这种无缝、令人赞叹的转换方式，正体现利用这些模型可以创造出许多独特与创新的内容。

就像我们最初使用语言模型时，人们最初的反应通常是用它来写作，语言模型的用途远不止于此。

现在，每天都有人提出新的创意用法。这些视觉模型的潜力，也远未被完全挖掘。我们才刚开始探索可以用它们做些什么，未来的可能性无限。

这里有一个我特别喜欢的例子：左侧是无人机视频，右侧是水下的蝴蝶，我们将在这两者之间进行插值。视频中的细微表现，比如中间的竞技场在过渡过程中逐渐衰败，并沉入水中，效果非常壮观。

还有一个例子同样引人注目，展示如何将一种地中海景观，平滑过渡到一个姜饼屋，这种变换，在三维物理世界中保持连贯。

模型提供了一种独特的解决方案，使姜饼屋逐渐从建筑后面显露出来。

如果你还未曾查看，我强烈推荐你阅读我们主要博客文章与技术报告，技术报告中包含了这些示例及一些幻灯片中未展示的其他精彩内容。

这些仅仅是触及到模型潜力的表层，还有更多精彩内容值得探索。还有一些有趣的功能，例如可以扩展视频的播放时间。

这里有一个示例，是一张静态图片，我们使用DALLE-3生成，并计划利用Sora为其添加动画效果。

Sora对实现AGI至关重要

Bill：大家都对大型语言模型LLMs，在实现AGI中的重要作用持乐观态度。我们认为视频模型，是实现这一目标的关键技术路径之一。

通过观察Sora生成的如东京雪景这样的复杂场景，我们发现它已经能够展现出对人类交互行为与身体接触的深入理解。

随着我们不断推进这一技术，我们相信Sora最终需要能够模拟人类的思考方式。要创造真正逼真的视频与动作序列，必须构建内部模型，这个模型要能理解所有对象、人类与环境的运作机制。

我们认为Sora，将对实现AGI起到关键作用。正如LLMs发展重点是扩展能力一样，我们也将这一策略应用于视频模型。为了实现这一目标，我们开发了基于Transfomer的框架，这个框架可以高效扩展。我们比较了不同配置的Sora模型，其中唯一的差异在于我们为模型投入的计算资源量。

最基本的配置下，Sora甚至无法准确识别狗的外形，它只能大致模拟相机应该如何在场景中移动。

如果我们将计算资源增加4倍，你会看到它开始能够识别狗的形态，甚至可以在狗身上添加帽子，背景中加入人物。

如果我们将计算资源提升到32倍基准，你将会看到环境中极为详细的纹理，如狗在场景中移动时，腿部的细微动作，甚至可以看到一个女士与一顶针织帽互动。

随着我们持续扩大Sora规模，就像我们在大型语言模型中看到的新功能一样，我们相信视频模型也将展现出新能力。我们目前投入的计算资源还未达到32倍，我们已经观察到一些令人兴奋的进展，我将花时间进一步探讨这些进展。

首先是动物的复杂场景。这是另一个展示东京雪景的样本，你可以看到摄像机穿越整个场景。它保持了三维结构的准确性，一对情侣手牵手，你还能看到摊位上的人们。

这展示Sora能够同时模拟带有大量主体的复杂环境。目前，我们能做的还比较基础，如一些简单的互动。随着我们不断推进模型扩展，这些将预示我们未来可以期待的成果。例如，人们之间更具深度与意义的对话，以及更复杂的物理互动。

与大型语言模型相比，视频模型一个优势是我们可以处理动物。这是关于意大利Verano狗的例子。你可以看到它试图跳到另一个窗台，有些蹒跚，最终稳住身体。

我们不仅模拟人类在场景中移动方式，还在探索其他动物移动模式。

我们特别看好的另一个特性，是三维一致性。此前在学术界曾一度有很多争论，关于我们在生成模型中需要多少归纳偏差，才能真正使其成功。

开发Sora过程中，我们目标是创建简单、可扩展的框架，尽可能避免人为设定物理规则。我们的发现，证明了这种方法有效性。只要模型扩展得足够大，它就能自主理解三维几何结构，无需我们直接在模型中设定严格的一致性规则。

在圣托里尼岛的蓝色时刻，我们展示标志性的白色基克拉迪建筑与蓝色圆顶，这种壮丽的航拍视角，通常与Sora的协同使用，效果极佳，无需过多挑剔，即可获得成功的画面。

Sora在保持一致性方面表现出色，无论是展现优胜美地的徒步旅行者与壮丽瀑布的场景，还是捕捉极限徒步的冒险瞬间。

对于视频生成系统来说，一直难以解决的问题，如对象持久性，Sora虽不完美，但已取得显著进展。

例如，在我们喜爱的布拉诺岛达尔马提亚犬的场景中，人来人往，狗依然出现在画面中。

Sora不仅能处理短暂的交互，如之前在东京捕捉到路过蓝色标志的瞬间，即使面对多重遮挡，也能有效恢复画面。

一个优秀的视频生成系统，需要能在时间推移中，呈现出丰富、有趣的事件，这是Sora正在努力实现的。

以往我们制作的4秒视频，大多简单如动画GIF。现在的Sora，已经迈出重要一步，它不仅能捕捉动作，还能永久改变世界状态。

在这方面，Sora还有提升空间，但已经有不少成功案例，比如一幅水彩画，艺术家的每一笔都真实留在画布上，让画面变得生动有趣。

另外，就像一个老人吃汉堡时留下的咬痕，这些简单的互动，对视频生成系统至关重要，不仅有助于内容创作，还能模拟真实体验，这对AI的发展尤为重要。

我们希望Sora是一个世界模拟器，以模拟真实世界的物理规律。我们也希望Sora能扩展到虚拟世界，比如电脑与操作系统中，从而学习与适应更多规则与现象。这标志着，我们在向更加全面与深入的世界模拟迈进。

作为初步尝试，我们选择Minecraft来展示Sora能力，这次我们使用迄今为止最精细的高清AP材质包。

Sora已经能够很好理解Minecraft运作机制，它不仅能渲染虚拟环境，还能控制玩家进行一些基本操作，这些还不够引人入胜，但已经是很好的开始。

我们激动期待着有一天，我们能开发出统一的模型，这个模型将融合所有不同虚拟世界的知识。我们常开玩笑说，未来某天，你甚至可以在文生视频模型上运行ChatGPT这样的语言模型。

让我们看看一些失败的案例，Sora的路还很长，这真的是一项商业活动，充满了挑战。

例如，Sora在处理一些我们认为简单的物理互动时，仍然遇到困难，如一个看似简单的椅子，Sora往往处理不当。甚至更简单的物理现象，比如玻璃杯掉落并破裂，Sora大多数情况下也会处理错误。它在理解一些我们认为理所当然的基本事物上，还有很长的路要走。

总体来说，我们对这个新兴技术的发展方向感到兴奋。我们将Sora看作是视频技术GPT-1阶段，我们相信这项技术很快就会有显著进步。我们已经看到一些令人兴奋的特性，我们对未来发展充满期待，相信它将带来革命性、令人惊叹的成果，我们非常期待看到大家如何利用这项技术。

【长期主义】第280期智能说：Sam Altman美国大学对话，Sora主要作者揭秘Sora原理

作者：六合商业研选