AI视频模型大混战,谁是你的 No.1?

发布于: 雪球转发:1回复:1喜欢:1

自从Sora发布以来,AI视频模型的“魔盒”被彻底打开。今年上半年,AI视频模型遍地开花,Viggle、Genmo、即梦、Dream Machine、可灵轮番炸场。

这么多的AI视频模型,在让人眼花缭乱的同时,也带来了一个疑问:谁才是AI视频模型的No.1?

乌鸦君也非常好奇各款产品表现优劣。刚好上周三Runaway宣布Gen-3 Alpha向所有用户开放测试,借着这个契机,乌鸦君就把市面上开放的AI视频模型都拉过来测一测。

参与此次测试的选手有7位,涵盖了AI视频领域的国内外名将、新星,其中国外的包括Gen-3 Alpha、Dream Machine、Genmo、Pika 1.0,国内AI视频的代表则是爱诗科技的PixVerse、快手的可灵和字节跳动的即梦。

结合测试结果和个人体感,乌鸦君得到以下三个结论:

1.可灵的综合体验最好,信息准确度高、视频时长和质量稳定性上都有着不错的表现,偶有瑕疵。

2.即梦、PixVerse、Gen-3 Alpha和Dream Machine四家普遍在人物一致性和物理逻辑上会有问题,继续迭代一下,未来可期。

3. Genmo和Pika1.0则受限于发布时间较早,在语义理解能力、画面平滑度、运动一致性等方面明显落后于其他竞品,足见AI视频迭代速度之快。

/ 01 / 三组Prompt,6个测评维度

测评会使用同一个Prompt,对不同AI视频模型生成的结果进行评判。考虑到AI视频模型的表现可能会有波动,乌鸦君给出以下三组文生视频提示词,综合评判表现效果。

考题1:我用《爱乐之城》的经典画面为基准,设定一个Prompt:Under the night sky, a girl in the yellow skirt are dancing with a man.(在夜空下,一位穿着黄色裙子的女人在和一个男人跳舞。)

考点:对Prompt中提到的“夜空”“黄色裙子”“跳舞”等元素进行生成,描绘出双人跳舞的画面,对人物动作的协调性有一定要求。

考题2:我用Sora公布的一条视频提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. (在熙熙攘攘的东京,白雪皑皑。镜头跟随几个人穿过城市街道,他们正享受美丽的下雪天,并在附近的摊位购物,绚丽的樱花伴随着雪花随风飘扬。)

考点:描绘镜头、人物和街道商贩的动态,并保持着雪花和樱花一同飘落的效果。

考题3:我改写了一条Sora公布的电影预告片风格提示词:A movie trailer featuring the adventures of the 20 year old space man wearing a transparent fish tank, blue sky, desert, cinematic style, shot on 35mm film, vivid colors. (影片讲述了20岁太空人的冒险经历,他戴着透明的鱼缸,背后是蓝天、沙漠,电影风格,35毫米胶片拍摄,色彩鲜艳。)

考点:消化电影预告片的风格,细腻描画人物,还原蓝天、沙漠等场景,也考验AI对于科幻故事的想象力。

测试方法

评判的维度包括六个层面,分别是语义理解、图像质量、物理逻辑、一致性、风格创意、易用性。每个层面根据视频表现来评分,总分6分。

1、【语义理解】视频结果和Prompt的描述是否一致,一致得1分。

2、【图像质量】图像质量的考量包括清晰度、分辨率、色彩准确性和动态范围,表现较佳得1分。

3、【物理逻辑】视频内容符合基本的物理常识,得1分。

4、【一致性】保持物体和场景的一致性和连续性,得1分。

5、【风格创意】画面有风格或创意,得1分。

6、【易用性】产品体验友好,得1分。

以下评测基于我个人主观判断,结果仅供参考,有不同看法欢迎讨论。

/ 02 / 测评结果和简单分析

1、Gen-3 Alpha,综合得分:4分

和上一代Gen-2相比,Gen-3 Alpha面对复杂指令的敏感度更高,能够处理更复杂的场景。

从视频画面来看,Gen-3 Alpha整体控制得很好,具备很高的保真度,能够生成逼真的人类角色和动态场景。

画面准确展示了双人舞动的动态、东京街头纷飞的雪景,质感很接近影视效果,在画面纹理、镜头视角控制等方面的表现也很突出。

在风格和创意上,Gen-3 Alpha明显超越其他AI视频,风格堪称大片级。

值得注意的是,Gen-3 Alpha在物理逻辑上存在瑕疵,比如,第1题中的人物在跳舞时手部动作相对失真;同时,女人在跳舞转身后,脑袋上出现了男人的脸,bug明显。

易用性方面, Gen-3 Alpha可以进行细节控制,支持多种视频生成和控制工具。现在Runaway已将Gen-3 Alpha开放给所有C端用户,月费会员15美元,每月只能生成约60秒的视频,相当于4s视频就要消耗1美元。

2、 Dream Machine,综合得分:4分

Dream Machine是Luma AI在6月中旬发布的产品,目前只能生成5秒的视频,且生成的过程很漫长,但这不妨碍网友排队用这个免费AI来二创梗图的热情。

从视频画面上看,除了第一个视频没有展示夜空外,Dream Machine的表现基本与Prompt的描述相符,勉强可以算合格,人物一致性也没有问题。

图像质量整体控制的不错,Dream Machine在后两个视频也展示了其专业的拍摄角度,镜头模拟几乎达到电影级水准。

美中不足的是,Dream Machine在物理逻辑上表现很差。无论是第一个视频里毫无美感的舞蹈,还是第三个视频里怪异的走路姿势,都说明Dream Machine当下很难理解物理逻辑,甚至连简单动作的动态输出都有问题。

在使用便利性上,用户只需前往官网点击“Try Now”按钮,按要求登录谷歌账号,然后在提示栏中输入文字或图片,静静等待即可。如果用户一时半会想不到提示词,还可以在系统预先准备的六条中进行选择,十分好操作。

3、 Genmo,综合得分:2分

作为去年11月发布的一款免费AI视频工具,Genmo的表现就相对逊色许多。

先说语义理解,就基本不合格。在第一个视频里,画面显示的是夕阳西下,日照金山,并不符合指令中“夜空下”的要求。而在第二个视频里,Genmo也完全没有呈现Prompt里的“白雪皑皑”和“下雪天”,反而把环境变成了粉色的樱花。

在物理逻辑和一致性上,Genmo同样表现不佳。这一点在其作答第1题时体现得很清晰,画面开始女生的长头发出现在男生的头上,跳舞过程中,双方的手在运动过程中也出现了多次瞬移。

要说优点,Genmo在图像质量上的表现勉强合格,在第1题中做了比较多的光影渲染。易用方面,Genmo也做到了保姆级别,提供了直观清晰的界面,不仅可以调整视频片段的持续长度、平滑度、变化程度等,还可以模拟相机运动,比如进行画面放大/缩小、顺/逆时针旋转、平移、倾斜等操作,简化了视频生成过程。

4、 Pika1.0,综合得分:1分

说真的,乌鸦君对这款明星产品此次的表现非常失望。

首先,Pika很难理解复杂的指令。比如,Pika在第3题直接给我个大鱼缸,甚至连“太空人”、“沙漠”等元素都不见了。同时,现在Pika只能生成3秒的视频,是参评工具生成的视频中最短的。

在画面质量上,无论是东京雪景还是双人舞蹈,纹理较差,Pika的画面都简陋得像动画建模的初学作品。

另外,Pika在物理逻辑和一致性上也同样存在问题,例如第1题中的人物动作模糊、肢体粘连,人物的脸部没有细节,甚至右侧的男生在跳舞时就干脆一动不动,像个木头人。

Pika唯一的优势在于,创作相对方便,单次文生成视频的过程大约消耗30s,算是比较快的。用户可以选择视频尺寸和帧率,并对镜头的运动方向和物体的运动速度进行控制。今年3月,Pika还上线了无缝生成音效的Sound Effects功能,提高了工具便捷性。

5、 PixVerse,综合得分:4分

由字节前视觉技术负责人王长虎创立的爱诗科技,在今年1月推出了PixVerse。到今年3月,PixVerse的月访问量超百万。PixVerse基本能够准确理解Prompt的意思,并给出相应的画面。

从视频质量上来看,PixVerse始终表现得很稳定,画面整体和谐,也不乏亮点。比如,作答第3题时,PixVerse生成的视频出现大多数AI视频里没有的运动镜头,而背景画面依旧保持着较高的质量。

另外,PixVerse也很擅长对人物面部细节的刻画,第3题的视频中,太空人拥有“紧皱的眉头”和“思索的神情”,看起来十分灵动。

不足的地方在于,PixVerse几乎没有任何人物动作的画面。在第1题中,除了手部轻微的动作外,根本看不到任何舞蹈的动作,而且女人似乎也只有一只腿。而且,在第2题中,PixVerse生成视频的行人走路动作也相对模糊,说明其在物理逻辑存在问题。

易用性方面,PixVerse的“Upscale”功能,让用户不用花钱,就能提高视频分辨率。用户也可以浏览热门作品,查看它们的详细参数信息,包括关键词、种子、画面的纵横比、运动幅度、风格以及原始图片,学习和模仿优秀作品。

6、可灵,综合得分:5分

快手推出的可灵大模型采用了与Sora相似的技术路线。从视频画面来看,可灵的表现非常稳定,能准确完成指令,整段30秒视频没有出现太大的偏差,只是遗漏了第2题中的“飘雪”指令。

可灵的画面质量超出了我的预期。它对树木、星空、雪景等自然景观模拟得很到位,还在第2题中努力做出人脸等细节,看得出可灵是想做出接近实拍的效果,它的一致性也没什么问题。在风格和创意方面,与其他AI中较夸张的动漫、电影艺术风格相比,可灵的实拍风格算是独树一帜。

但是,可灵在理解物理世界方面仍然存在一些小瑕疵。例如,第1题中的女孩在跳舞抬腿动作时,出现了模糊和瞬移,不过相比其他模型,可灵在物理理解上的表现得算是优秀了。

在易用性方面,可灵的优势比较明显,它现在有了更加清晰的高画质版,以及首尾帧控制、镜头控制等新功能,且创作者单次生成的文生视频时长增加至10秒,官方还上线了加快生成模式,提供给会员使用。

7、即梦,综合得分:4分

即梦是抖音前CEO张楠亲自挂帅的剪映所推出的产品,它在时长上比别的AI要高一截,单次可以生成12秒视频,是这次参评工具中最长的。

即梦基本能准确识别Prompt中的关键词;画面质量,比较细腻。

例如,第2题中的东京街景描画得非常优美。在风格创意方面,即梦也能做到让人眼前一亮的效果,比如在第3题中,即梦对透明鱼缸头盔、宇航服的描画很有科幻色彩。

与很多AI视频模型一样,对物理世界的理解是即梦的短板,完成运动幅度较大的视频时,即梦会出现较为明显的崩坏,例如作答第1题时的表现。从一致性上来看,即梦也存在问题,比如第2题的东京街头,不少人在转身之后都出现了另一张脸。

在易用性方面,即梦视频支持各种变焦、摇镜等运镜控制,还有更多的尺寸选择,操作上也很简单,非常适合爱玩视频的抖友们。

/ 03 / 最终的测试结果:

高分组:可灵

中分组:即梦、PixVerse、Gen-3 Alpha、Dream Machine

低分组:Genmo、Pika1.0

全部讨论

07-11 11:57

投可灵一票