对话万兴科技副总裁朱伟：Sora大力出奇迹，2024将进入视频模型时代编辑/周欣欣校对/竹心、Rita策划/Eason2024年4月18日，2024中国生成式AI大会在北京举行。峰会以“重构...

编辑/周欣欣

校对/竹心、Rita

策划/Eason

2024年4月18日，2024中国生成式AI大会在北京举行。峰会以“重构世界奔赴未来”为主题，邀请50＋位重量级嘉宾同台分享，以前瞻性视野全景式解构生成式AI的时与势、危与机、破与立。作为音视频多媒体垂类大模型的开拓者、大模型2.0时代的先行者，万兴科技受邀参与分享。

大模型正在从图文时代1.0进入以音视频多媒体为载体的2.0时代。基于这样的趋势，万兴科技在年初已重磅发布中国首个音视频多媒体大模型“天幕”，万兴科技（300624.sz）副总裁朱伟也在本次大会上宣布万兴“天幕”即将于4月28日正式公测。

“天幕”大模型聚焦数字创意垂类创作场景，基于15亿创作者及100亿本土化高质量音视频数据沉淀，以音视频生成式AI技术为基础，具有“多媒体”、“垂直解决方案”以及“本土化”三大特点，已迭代近百项音视频原子能力。大会上，朱总重点展示了“天幕”的文生视频、视频生视频、文生音效、文生音乐等在内的多媒体能力，其中文生视频能力上，已实现不同风格、丰富场景及主题的连贯性，且一键生成时长支持60秒+。

“天幕”名字的缘起，充满年代记忆和情怀感，是对满目星空背景下幕布世界的想象。“我是70年代人，小时候家乡放电影，最深刻的记忆就是晒谷坪、电影机、满目星空，以及浩瀚的时空和宇宙背景下，幕布世界激发的自由的想象空间。那是科技和现实世界的交流和碰撞，万兴科技发布大模型，初心就在于以天为幕，用科技探索未来世界，所以我们叫天幕。”朱伟在接受第一新声采访时说道。

以下，是第一新声对万兴科技副总裁朱伟的专访：

第一新声：2023年是大模型发展元年，去年我们调研的时候，很多人还觉得大模型可能已经没那么热门了，结果今年2月Sora发布又掀起了一波浪潮。大模型进入到2.0时代，和1.0有哪些阶段性的差异化特征？在您看来，真正有实力的玩家主要有哪些？比拼的到底是什么？

朱伟：1月30号，我们在长沙马栏山举办了场大模型高峰论坛，并且正式发布万兴“天幕”。当时提到整个大模型的发展已经从1.0进入2.0时代，总结了三个特点：

第一，视频模型越来越重要。1.0时代，我们更多看到文字、语言和图片为核心的模型，我们认为到2024年将进入视频模型时代。

第二，垂类模型组合出完整视频将会是发展趋势。我们一直在做视频创意这件事。Sora是通用模型，生成的视频已经很惊艳了，但要真正输出让用户可以在社交平台发布的视频，还有一段距离，因为用户发布的视频带有一定的故事，有片头片尾、文字转场等元素。用垂类模型组合出完整的视频，将会是视频模型发展的第二个趋势。

第三，视频类的应用逐步升温。视频的通用需求是为客户带来价值，甚至为行业和社会带来价值，满足不同维度的价值，才能激发视频应用研发的内生动力，才有可能走得更远，不断壮大。

第一新声：您刚才介绍到的，我们其实也感觉到基于大模型尤其是Sora，打开了下个十年很大的一个赛道。那么在这样一个大赛道中，万兴准确来说是什么时候入局？定位如何？

朱伟：大模型是AI发展到目前这个重点阶段的体现形式。

2016年左右，我们已经在组建团队做AI这件事了。最早尝试了一些方向，简约不简单的定位，就是让普通用户也可以很方便地使用工具，做出来的最终视频又能满足用户对质量的需求。

2022年底，我们做了以应用为导向的第一个AIGC产品——万兴爱画，后来在大模型方向组建人力，到2023年万兴“天幕”就已初具雏形，当时我们已经将大模型的能力集成到部分产品里，让用户使用。

第一新声：你们怎么会在Sora之前推出这个产品？是有预测到文字生成视频这个方向吗？

朱伟：我们推出这个产品，主要源自于市场和用户需要。

2014年开始，我们做的主要是工具加内容，素材库的构建需要资源和时间。做万兴爱画的时候，我们发现用户更多需要视频类素材，预测这可能是产品比较好的发展方向，所以我们2023年将重点放在了视频的大模型方向。

第一新声：在您看来，未来这种生成视频的大模型，竞争壁垒会是在什么地方？

朱伟：我觉得生成视频的大模型要分类两个层级。

第一个层级是能力层面，做基础模型。我们公司不算完全做基础模型的，更多是从行业一些开源模型的基础上去做研发和修改等等。同时，“大力出奇迹”是很重要的一个竞争点。包括大的算力、大的数据、大的团队等等。行业基本认知是，头部企业至少用了500万小时的视频数据在做训练。如果要实现比如月或季的迭代，至少是万卡集群以上的集群才能做训练。我们今年初投入了近一个亿的算力，接下来重点投入则会布局在算法优化等层面。

第二个是应用层面，锁定应用赛道。我们公司一直坚持的观点，叫“大模型时代，应用为王”。比如ChatGPT很火，但是到目前为止并没有出现依附于ChatGPT或者以ChatGPT为底座的爆款应用，导致它的使用量并没有出现爆发式的增长。我们更多会偏向细分的垂类行业，甚至聚焦到每一个具体的用户场景，以及可以解决哪些具体的问题。比如文生主题视频，会偏向通用能力，但AI歌手、数字人播报这些，已经是细分场景了。

第一新声：您刚才提到一个很重要的点， Sora有500万小时视频的训练量，我们的视频的训练量大概是多少？

朱伟：目前我们的训练量大约100万小时。其实我们原始的毛数据远不止100万小时，数据来源于过去在行业的积累，以及商业数据的采购。但买回来的是原始视频，解决不了训练需求，所以我们内部有专门的算法团队和数据生产管理平台，同时又组建了一个将近100人的人工数据标注团队。处理数据比较耗时，这也是行业的竞争壁垒。数据是我们相对的一个优势，我们能看到数据的变化导致整个模型的变化。

比如去年早些时候，我们发布了一个视频《女孩的一生》，当时的训练量还不够，很多网友反映女孩前面像一个中国小孩，后面变成一个西方的老太太，这确实是模型训练的问题，我们最近重新做了这一期视频，人物的一致性就得到了很大保持。

第一新声：咱们在技术人才层面的布局是怎样的？

朱伟：从2015年开始到2020年，我们的规模都不算大，2020年开始，公司在长沙布局AI，逐步开始扩展算法团队，规模到目前已经有两三百人。同时我们在高精尖人员上也做了布局，一是邀请算法类的高端人员，比如《人工智能简史》作者、乌镇智库理事长张晓东坐阵，从技术层面、产业层面为公司AI发展助力；同时优化团队结构，目前我们团队70%-80%以上都是硕博研究生。

第一新声：天幕大模型具有“多媒体”“垂直解决方案”和“本土化”三大特点，能否详细介绍下？

朱伟：多媒体是在文字、图片、音频、视频综合方面的表达。我们做多媒体，是希望把多维内容做融合。多模态是技术处理的方式，多媒体是用户所需要的东西。

垂类解决方案，其实我们的万兴播爆就是一个很典型的例子，可以解决跨境电商出海口播视频制作的问题。我们有个马来西亚卖扫地机的用户，用万兴播爆生成视频以后，店铺流量和转化率提升了70%。

本土化是指，之前的模型数据，更多以英文的训练数据为主。以美国为主的大模型生产厂商，在中文语料数据上相对缺失。我们要在这个基础上扩充中文数据并训练，加入国内媒体使用习惯和东方审美，形成一个更符合各地用户需求的音视频多媒体大模型。

本土化既包括数据本土化，也包括算力本土化。现在考虑到国际局势的不确定性，我们从2023年上半年开始，就已经在跟国内厂商做适配了，现在的算力都本土化了。我们希望比别人多考虑一点，多往前走一步，让我们的应用更好、更安全。

第一新声：万兴科技是做视频创意为核心的数字创意软件公司，在您看来，这个行业主要场景有哪些？

朱伟：视频创意行业可以细分为通用、泛娱乐和泛营销三个主要场景。

发展流程可以概括为做通用型的工具，到泛娱乐，再拓展到泛营销逐步调整推进。万兴是用数字技术为创意表达提供赋能。万兴起初是帮助用户更好地用视频来表达创意，因为创意表达形式可以拓展为文字、图片、思维导图等等多类数字内容载体，所以我们把视频创意扩展成数字创意。

当前，视频创意是目前公司数字创意里面最大的一块，规模和体量占到了60%。

表达方式不同，但创意实现的本质，殊途同归。从多模态到多媒体以后，模型内文生视频能力可以支撑60秒以上时长的视频输出，这是对模型很大的一个挑战。这60秒里，画面人物的一致性、ID的一致性、视频的连续性，比生成2-3秒视频的控制难度大很多，这是模型层面的一个成果。

大模型首先为视频创作提供原子能力，最终的目的，我们是要用这个能力做引擎，为视频编辑工具赋能甚至为行业赋能，最终实现市场化。

第一新声：我们也看到国内外大模型的发展，一类以技术为导向，就是技术信仰派，重视技术的更新迭代，通过创新引领世界，一类非常重视市场应用，因为这决定了大家的生存。

中国的很多公司投资人普遍还是比较看重市场应用的，像万兴这样的公司，花这么多钱做底层人才布局，同时又非常产品导向，那么在您看来，万兴是如何达到这种战略平衡？

朱伟：技术信仰派也好，市场信仰派也好，都没有对错，跟公司定位有关。

技术发展不能给人类社会带来价值的话，技术是没有意义的。特别像我们这种商业组织，主要还是服务于商业目的。总体上来讲，我们还是以市场为导向、以产品为导向的商业公司。就是对市场的洞察、用户的洞察，包括技术的实现和引入，结合形成产品，万兴是真的能够给用户提供真实解决方案的公司。

第一新声：每年中国都会有一次工业革命，比如web3.0工业革命、区块链工业革命，几乎每年一次。这背后的本质是技术发展或行业兴衰都有一个生死点。您认为大模型行业，怎样才能突破生死临界点？

朱伟：我们认为用户使用量会是一个冲破生死的点，第二是付费。

大模型技术很牛，但没有持续爆火的应用出来，解决不了用户的问题，肯定走不长远。

如果大模型行业出现一个长期的爆款应用，行业和市场都愿意花钱来支持大模型的研发，大模型才有可能持续成长。目前，素材行业可能是被最早颠覆的一个行业。但颠覆整个传统影视制作行业，还需要市场沉淀。

第一新声：最后一个问题，在您看来，未来大模型的新机遇、新趋势、新未来是什么？

朱伟：AI来了，每个行业都值得再重新做一次。我们现在已经在做这件事，比如在传统的影视制作行业，如何用AI的能力在影视制作全流程降本增效，是未来我们重点关注的方向。往后AI能力越来越强的话，会不会把每一个行业的工作流程做一次重塑，我觉得是很有可能。

就像今天开场说的那个故事，以前我们看电影是放幕布，现在是用万兴“天幕”，输入文字就能够重新生成一个视频、创造一个电影、表达一个故事。我们的愿景，就是用科技造就未来的浩瀚星空，去探索无尽的可能。

对话万兴科技副总裁朱伟：Sora大力出奇迹，2024将进入视频模型时代

作者：第一新声