快手程一笑,悄悄上线中国版Sora

发布于: 雪球转发:0回复:0喜欢:0

记者丨何己派 编辑丨鄢子为

谁能做成中国版Sora?

意想不到,选项里出现了快手这家公司。

快手推出的文生视频大模型“可灵”,引发科技圈关注,截至7月5日,已有累计超过55万人排队申请。

可灵主打图生视频功能,支持用任意静态图像生成5s视频,并可为已生成的视频提供续写,延长视频至约3分钟。

“至少不像Sora是‘期货’。”有AI开发者如此评价。

“这个产品在我们今天能使用的范畴内,就是全世界第一,这也是国产人工智能领域的又一项重大突破。”猎豹移动董事长兼CEO傅盛公开站台。

3个多月前,快手创始人兼CEO程一笑放出豪言,有信心半年内追上GPT-4的水平

此前,快手先后发布通用大语言模型“快意”、文生图大模型产品“可图”,反响平平。

眼下,程一笑打出了最得意的一张牌。

对标Sora

一句话描述“可灵”,它是首个面向用户开放的、Sora级文生视频大模型。

7月4日,在2024世界人工智能大会上,快手视觉生成与互动中心负责人万鹏飞提到,可灵与其他文生视频大模型相比,最大的差异化在于已经面向用户使用,目前大家普遍反馈比较正向。

万鹏飞

可灵开放测试后,火爆异常,排队申请的人数,几天内便破万。

基于新发布的图生视频功能,用户上传一张照片,可灵会变静为动,赋予其5秒的生命力。同时,上传的图片可搭配不同的文本指令,令细节处理更符合预期。

例如,使用一张小猫的照片生成视频,猫的眼睛会转,耳朵轻轻耸动,呈现live效果。

其文生视频提示词的编辑框,初发布时限制200个字符,此次更新后,升级为500个字符。同时,允许用户自由调节视频的纵横比。

目前可灵每次允许生成5秒视频,记者注意到,后台处理时间有所延长,从之前的3分钟拉长到4分钟。

作为对比,据猜测,Sora生成1分钟视频的时间,超过1个小时

记者输入“一只橘猫驾驶跑车,穿梭在都市街道”的提示词,可灵生成的视频精美,跑车行进途中,玻璃上倒映的路旁树影随之变换,细节处理得到位。

一个大bug,是橘猫的身体连同方向盘,伸出了挡风玻璃外。路两侧本该行进的车辆,都是静止状态。

可灵也能识别英文词汇,根据“Superman骑着扫帚,路过月球,穿梭在宇宙”提示词,生成偏动画风格的视频,出现了超人的背影。

在远距离镜头里,可灵生成的人物、动物全身像,面部模糊

一位AI创作者使用了两天可灵,他推测,快手使用了机器打标,提示词对镜头运动的服从性较差;对动物的服从性较好,以动物为主角的片子,效果可能较好。

总体而言,“可灵在某些镜头的表现,已经达到商用级别。”

许多AI创作者,以同样的提示词,对比了可灵与Sora的效果。“真人吃面条”的对比,尤为出圈,可灵更胜一筹。

“‘吃面条’这个case其实很难。手要以某种姿势抓着筷子,筷子要把面夹起来,面得抖动,人要张大嘴,把面吃进去咀嚼咬断,嘴上要沾着油光,实现起来,挑战很多。”万鹏飞表示。

此次升级还有一大亮点,集成文本控制机制于视频续写中,令用户能通过自定义提示词,为每段视频续写

比如,一个关于古堡的视频片段,用户可以选择让它先“太阳落下去,天空变暗”,继而“太阳升起来,天空变亮”,也可以“太阳落下去,天空变暗,灯光渐亮”,随后“灯光亮起,雾气氤氲”。

排兵布阵

码农出身的程一笑,关注AI多年。

他同快手联合创始人宿华初次见面时,二人就围绕机器学习和人工智能的应用,聊了许久。

眼看大模型火热,程一笑火速排兵布阵。

程一笑

去年初,快手启动新的AI战略,组建大模型研发团队,点将技术副总裁张迪,担任负责人,聚焦大语言模型、视觉生成模型、多模态模型等方向。

视觉生成与互动中心(VGI),其负责人是带队从0到1研发可灵的万鹏飞,向张迪汇报。

万鹏飞曾是快手Y-tech AI技术中心负责人,牵头主导了数字人系列解决方案,如关小芳IP、快手智播平台等。

他在计算机视觉领域经验丰富,博士毕业于中国香港科技大学ECE系,本科毕业于中国科学技术大学EEIS系,曾是美图影像研究院负责人。

有人上,有人下。

年初,38岁的快手VP王仲远离职。

王仲远

他供职快手3年多,负责多媒体内容理解部,是快手AI团队核心人物,离开快手后,转身出任北京智源研究院院长。

6月14日的智源大会上,王仲远点评曾经的老部下称,“整个团队在万鹏飞的带领下,推动了快手特效及人像美化技术的智能化升级。”

快手还在持续吸纳新鲜血液。

例如,VGI的专家研究员王鑫涛,于今年入职快手,参与可灵的研发。

他的上一份工作在腾讯,做视觉生成(图像、视频、3D)相关的研究工作。

抢人工具

文生视频大模型,其参数规模和所需的算力,是备受关注的一环。

有业内人士研究,Sora的训练算力需求不高,仅是GPT-4的四分之一,但推理算力需求能达到GPT-4的1000倍以上

Sora生成一个一分钟左右视频,大约需要8张A100跑至少3个小时。

快手称,可灵能生成的视频时长,最高可达2分钟(帧率30fps)。

计算效率这块,可灵并没有采用当前行业主流的DDPM方案,而是使用了传输路径更短的flow模型,作为扩散模型基座。

万鹏飞对可灵的参数规模、训练用卡规模,三缄其口,表示“不便透露”。

他亦强调,可灵是“非常复杂、重资源投入、多边协作的项目”。

重注文生视频的程一笑团队,意在争夺更多内容创作者

抖音、快手、视频号,围绕中国优质创作者的“抢人大战”,从未停歇。AI工具的迭代,有望加速内容创作从图文朝视频迁移。

“(文生视频)对短视频生态来说,是巨大的机会。未来,快手会把生成模型和生产者工具结合起来,帮助创作者降低创作门槛,提升短视频制作质量和效率。”程一笑表示。

在万鹏飞看来,当视频生成的效果接近拍摄时,将对行业带来新挑战和新机遇,同时,未来视频创作者和消费者的界限,会逐渐模糊。

《21CBR》记者注意到,7月初,快手在快影的AI生视频功能模块,发布了内测须知。

该文件显示,AI生视频服务在当前内测阶段限时免费,限时免费阶段暂推定为30个自然日。此外,“最终产品服务的上线时间,有待进一步确定。”

可以预见的是,可灵的更大动作,尚在酝酿。