发布于: Android转发:0回复:0喜欢:0
回复@善上若水dsry: 但愿颜教授推荐的大一统大模型这条新路径能披荆斩棘,开创成功,弯道超车,直达通用人共智能!//@善上若水dsry:回复@善上若水dsry:$昆仑万维(SZ300418)$
钛媒体AGI:快手最近内测了文生视频产品“可灵”,受到广泛关注和好评,被认为是“中国版 Sora”,您认为评价此次快手可灵的产品效果?智源则要往哪个方向发展?
王仲远:这(可灵)是我原来的团队研发的,当时还是我在快手的时候就在布局文生视频项目,团队同学非常优秀,我觉得这代表了当前产业界的最高水平、真实水平。可灵是基于DiT(Diffusion Transformers)架构,这个架构被OpenAI的 Sora验证过了,这次智源大会也会请Sora负责人和DiT提出者。实际上,国内绝大部分的企业(大公司、创业公司)都选择DiT架构研发 AI 视频生成,因为它的效果确实很惊艳。但是我们认为它(DiT)不会是将来的终极路线。智源研究院会选择另一条终极路线。
我们认为,未来技术形态一定是原生、统一的语言文字图片视频模型,真正的多模态进、多模态出的技术体系,而且要不断容纳更多模态数据做成统一框架。目前,我们正在做这方面的训练和探索。
智源作为一家科研机构,要更往前一步探索,不去复现行业路线,而是去做真正的下一代技术路线。在这个过程中,确实需要依赖大数据、大算力,模型训练周期也很长,最终还要进行效果评估,资源消耗很大,带有大量不确定性,这对于现在的科研而言还是非常有挑战。
通往 AGI 这条路径依然是资源消耗型,并且看起来还没到尽头,这既是好事也是坏事,好事是AGI确实有可能实现,坏事是资源消耗也带来了很多资源浪费。
个人点评:从王仲远对当前文生视频(包括他曾经研发的、如今成为快手津津乐道的重磅文生视频产品“可灵”)的观点,与Sora刚推出时方汉对Sora的观点非常类似,就是认可其价值,但没有无限拔高其价值(方汉当时说不要低估Sora的短期价值,也别高估其长期价值)。
进一步将王仲远对下一代文生视频架构与颜水成的观点相比,就更清晰。“未来技术形态一定是原生、统一的语言文字图片视频模型,真正的多模态进、多模态出的技术体系,而且要不断容纳更多模态数据做成统一框架。”这和颜水成对Vitron的大一统定位如出一辙。感兴趣的可以去自行对比。难怪他俩能共同成为北京智源大会的程序主席。 查看图片
引用:
2024-06-15 18:17
$昆仑万维(SZ300418)$ 昆仑万维颜水成受邀出任2024北京智源大会视觉大模型论坛主席
原创 昆仑万维 昆仑万维集团 2024-06-15 16:27 北京 网页链接