对话万兴科技副总裁朱伟:Sora大力出奇迹,2024将进入视频模型时代

发布于: 雪球转发:0回复:0喜欢:3

编辑/周欣欣

校对/竹心、Rita

策划/Eason

2024年4月18日,2024中国生成式AI大会在北京举行。峰会以“重构世界 奔赴未来”为主题,邀请50+位重量级嘉宾同台分享,以前瞻性视野全景式解构生成式AI的时与势、危与机、破与立。作为音视频多媒体垂类大模型的开拓者、大模型2.0时代的先行者,万兴科技受邀参与分享。

大模型正在从图文时代1.0进入以音视频多媒体为载体的2.0时代。基于这样的趋势,万兴科技在年初已重磅发布中国首个音视频多媒体大模型“天幕”,万兴科技(300624.sz)副总裁朱伟也在本次大会上宣布万兴“天幕”即将于4月28日正式公测。

“天幕”大模型聚焦数字创意垂类创作场景,基于15亿创作者及100亿本土化高质量音视频数据沉淀,以音视频生成式AI技术为基础,具有“多媒体”、“垂直解决方案”以及“本土化”三大特点,已迭代近百项音视频原子能力。大会上,朱总重点展示了“天幕”的文生视频、视频生视频、文生音效、文生音乐等在内的多媒体能力,其中文生视频能力上,已实现不同风格、丰富场景及主题的连贯性,且一键生成时长支持60秒+。

“天幕”名字的缘起,充满年代记忆和情怀感,是对满目星空背景下幕布世界的想象。“我是70年代人,小时候家乡放电影,最深刻的记忆就是晒谷坪、电影机、满目星空,以及浩瀚的时空和宇宙背景下,幕布世界激发的自由的想象空间。那是科技和现实世界的交流和碰撞,万兴科技发布大模型,初心就在于以天为幕,用科技探索未来世界,所以我们叫天幕。”朱伟在接受第一新声采访时说道。

以下,是第一新声对万兴科技副总裁朱伟的专访:

第一新声:2023年是大模型发展元年,去年我们调研的时候,很多人还觉得大模型可能已经没那么热门了,结果今年2月Sora发布又掀起了一波浪潮。大模型进入到2.0时代,和1.0有哪些阶段性的差异化特征?在您看来,真正有实力的玩家主要有哪些?比拼的到底是什么?

朱伟:1月30号,我们在长沙马栏山举办了场大模型高峰论坛,并且正式发布万兴“天幕”。当时提到整个大模型的发展已经从1.0进入2.0时代,总结了三个特点:

第一,视频模型越来越重要。1.0时代,我们更多看到文字、语言和图片为核心的模型,我们认为到2024年将进入视频模型时代。

第二,垂类模型组合出完整视频将会是发展趋势。我们一直在做视频创意这件事。Sora是通用模型,生成的视频已经很惊艳了,但要真正输出让用户可以在社交平台发布的视频,还有一段距离,因为用户发布的视频带有一定的故事,有片头片尾、文字转场等元素。用垂类模型组合出完整的视频,将会是视频模型发展的第二个趋势。

第三,视频类的应用逐步升温。视频的通用需求是为客户带来价值,甚至为行业和社会带来价值,满足不同维度的价值,才能激发视频应用研发的内生动力,才有可能走得更远,不断壮大。

第一新声:您刚才介绍到的,我们其实也感觉到基于大模型尤其是Sora,打开了下个十年很大的一个赛道。那么在这样一个大赛道中,万兴准确来说是什么时候入局?定位如何?

朱伟:大模型是AI发展到目前这个重点阶段的体现形式。

2016年左右,我们已经在组建团队做AI这件事了。最早尝试了一些方向,简约不简单的定位,就是让普通用户也可以很方便地使用工具,做出来的最终视频又能满足用户对质量的需求。

2022年底,我们做了以应用为导向的第一个AIGC产品——万兴爱画,后来在大模型方向组建人力,到2023年万兴“天幕”就已初具雏形,当时我们已经将大模型的能力集成到部分产品里,让用户使用。

第一新声:你们怎么会在Sora之前推出这个产品?是有预测到文字生成视频这个方向吗?

朱伟:我们推出这个产品,主要源自于市场和用户需要。

2014年开始,我们做的主要是工具加内容,素材库的构建需要资源和时间。做万兴爱画的时候,我们发现用户更多需要视频类素材,预测这可能是产品比较好的发展方向,所以我们2023年将重点放在了视频的大模型方向。

第一新声:在您看来,未来这种生成视频的大模型,竞争壁垒会是在什么地方?

朱伟:我觉得生成视频的大模型要分类两个层级。

第一个层级是能力层面,做基础模型。我们公司不算完全做基础模型的,更多是从行业一些开源模型的基础上去做研发和修改等等。同时,“大力出奇迹”是很重要的一个竞争点。包括大的算力、大的数据、大的团队等等。行业基本认知是,头部企业至少用了500万小时的视频数据在做训练。如果要实现比如月或季的迭代,至少是万卡集群以上的集群才能做训练。我们今年初投入了近一个亿的算力,接下来重点投入则会布局在算法优化等层面。

第二个是应用层面,锁定应用赛道。我们公司一直坚持的观点,叫“大模型时代,应用为王”。比如ChatGPT很火,但是到目前为止并没有出现依附于ChatGPT或者以ChatGPT为底座的爆款应用,导致它的使用量并没有出现爆发式的增长。我们更多会偏向细分的垂类行业,甚至聚焦到每一个具体的用户场景,以及可以解决哪些具体的问题。比如文生主题视频,会偏向通用能力,但AI歌手、数字人播报这些,已经是细分场景了。

第一新声:您刚才提到一个很重要的点, Sora有500万小时视频的训练量,我们的视频的训练量大概是多少?

朱伟:目前我们的训练量大约100万小时。其实我们原始的毛数据远不止100万小时,数据来源于过去在行业的积累,以及商业数据的采购。但买回来的是原始视频,解决不了训练需求,所以我们内部有专门的算法团队和数据生产管理平台,同时又组建了一个将近100人的人工数据标注团队。处理数据比较耗时,这也是行业的竞争壁垒。数据是我们相对的一个优势,我们能看到数据的变化导致整个模型的变化。

比如去年早些时候,我们发布了一个视频《女孩的一生》,当时的训练量还不够,很多网友反映女孩前面像一个中国小孩,后面变成一个西方的老太太,这确实是模型训练的问题,我们最近重新做了这一期视频,人物的一致性就得到了很大保持。

第一新声:咱们在技术人才层面的布局是怎样的?

朱伟:从2015年开始到2020年,我们的规模都不算大,2020年开始,公司在长沙布局AI,逐步开始扩展算法团队,规模到目前已经有两三百人。同时我们在高精尖人员上也做了布局,一是邀请算法类的高端人员,比如《人工智能简史》作者、乌镇智库理事长张晓东坐阵,从技术层面、产业层面为公司AI发展助力;同时优化团队结构,目前我们团队70%-80%以上都是硕博研究生。

第一新声:天幕大模型具有“多媒体”“垂直解决方案”和“本土化”三大特点,能否详细介绍下?

朱伟:多媒体是在文字、图片、音频、视频综合方面的表达。我们做多媒体,是希望把多维内容做融合。多模态是技术处理的方式,多媒体是用户所需要的东西。

垂类解决方案,其实我们的万兴播爆就是一个很典型的例子,可以解决跨境电商出海口播视频制作的问题。我们有个马来西亚卖扫地机的用户,用万兴播爆生成视频以后,店铺流量和转化率提升了70%。

本土化是指,之前的模型数据,更多以英文的训练数据为主。以美国为主的大模型生产厂商,在中文语料数据上相对缺失。我们要在这个基础上扩充中文数据并训练,加入国内媒体使用习惯和东方审美,形成一个更符合各地用户需求的音视频多媒体大模型。

本土化既包括数据本土化,也包括算力本土化。现在考虑到国际局势的不确定性,我们从2023年上半年开始,就已经在跟国内厂商做适配了,现在的算力都本土化了。我们希望比别人多考虑一点,多往前走一步,让我们的应用更好、更安全。

第一新声:万兴科技是做视频创意为核心的数字创意软件公司,在您看来,这个行业主要场景有哪些?

朱伟:视频创意行业可以细分为通用、泛娱乐和泛营销三个主要场景。

发展流程可以概括为做通用型的工具,到泛娱乐,再拓展到泛营销逐步调整推进。万兴是用数字技术为创意表达提供赋能。万兴起初是帮助用户更好地用视频来表达创意,因为创意表达形式可以拓展为文字、图片、思维导图等等多类数字内容载体,所以我们把视频创意扩展成数字创意。

当前,视频创意是目前公司数字创意里面最大的一块,规模和体量占到了60%。

表达方式不同,但创意实现的本质,殊途同归。从多模态到多媒体以后,模型内文生视频能力可以支撑60秒以上时长的视频输出,这是对模型很大的一个挑战。这60秒里,画面人物的一致性、ID的一致性、视频的连续性,比生成2-3秒视频的控制难度大很多,这是模型层面的一个成果。

大模型首先为视频创作提供原子能力,最终的目的,我们是要用这个能力做引擎,为视频编辑工具赋能甚至为行业赋能,最终实现市场化。

第一新声:我们也看到国内外大模型的发展,一类以技术为导向,就是技术信仰派,重视技术的更新迭代,通过创新引领世界,一类非常重视市场应用,因为这决定了大家的生存。

中国的很多公司投资人普遍还是比较看重市场应用的,像万兴这样的公司,花这么多钱做底层人才布局,同时又非常产品导向,那么在您看来,万兴是如何达到这种战略平衡?

朱伟:技术信仰派也好,市场信仰派也好,都没有对错,跟公司定位有关。

技术发展不能给人类社会带来价值的话,技术是没有意义的。特别像我们这种商业组织,主要还是服务于商业目的。总体上来讲,我们还是以市场为导向、以产品为导向的商业公司。就是对市场的洞察、用户的洞察,包括技术的实现和引入,结合形成产品,万兴是真的能够给用户提供真实解决方案的公司。

第一新声:每年中国都会有一次工业革命,比如web3.0工业革命、区块链工业革命,几乎每年一次。这背后的本质是技术发展或行业兴衰都有一个生死点。您认为大模型行业,怎样才能突破生死临界点?

朱伟:我们认为用户使用量会是一个冲破生死的点,第二是付费。

大模型技术很牛,但没有持续爆火的应用出来,解决不了用户的问题,肯定走不长远。

如果大模型行业出现一个长期的爆款应用,行业和市场都愿意花钱来支持大模型的研发,大模型才有可能持续成长。目前,素材行业可能是被最早颠覆的一个行业。但颠覆整个传统影视制作行业,还需要市场沉淀。

第一新声:最后一个问题,在您看来,未来大模型的新机遇、新趋势、新未来是什么?

朱伟:AI来了,每个行业都值得再重新做一次。我们现在已经在做这件事,比如在传统的影视制作行业,如何用AI的能力在影视制作全流程降本增效,是未来我们重点关注的方向。往后AI能力越来越强的话,会不会把每一个行业的工作流程做一次重塑,我觉得是很有可能。

就像今天开场说的那个故事,以前我们看电影是放幕布,现在是用万兴“天幕”,输入文字就能够重新生成一个视频、创造一个电影、表达一个故事。我们的愿景,就是用科技造就未来的浩瀚星空,去探索无尽的可能。