回复@善上若水dsry: 但愿颜教授推荐的大一统大模型这条新路径能披荆斩棘，开创成功，弯道超车，直达通用人共智能！//@...

回复@善上若水dsry: 但愿颜教授推荐的大一统大模型这条新路径能披荆斩棘，开创成功，弯道超车，直达通用人共智能！//@善上若水dsry:回复@善上若水dsry:$昆仑万维(SZ300418)$
钛媒体AGI：快手最近内测了文生视频产品“可灵”，受到广泛关注和好评，被认为是“中国版 Sora”，您认为评价此次快手可灵的产品效果？智源则要往哪个方向发展？
王仲远：这（可灵）是我原来的团队研发的，当时还是我在快手的时候就在布局文生视频项目，团队同学非常优秀，我觉得这代表了当前产业界的最高水平、真实水平。可灵是基于DiT（Diffusion Transformers）架构，这个架构被OpenAI的 Sora验证过了，这次智源大会也会请Sora负责人和DiT提出者。实际上，国内绝大部分的企业（大公司、创业公司）都选择DiT架构研发 AI 视频生成，因为它的效果确实很惊艳。但是我们认为它（DiT）不会是将来的终极路线。智源研究院会选择另一条终极路线。
我们认为，未来技术形态一定是原生、统一的语言文字图片视频模型，真正的多模态进、多模态出的技术体系，而且要不断容纳更多模态数据做成统一框架。目前，我们正在做这方面的训练和探索。
智源作为一家科研机构，要更往前一步探索，不去复现行业路线，而是去做真正的下一代技术路线。在这个过程中，确实需要依赖大数据、大算力，模型训练周期也很长，最终还要进行效果评估，资源消耗很大，带有大量不确定性，这对于现在的科研而言还是非常有挑战。
通往 AGI 这条路径依然是资源消耗型，并且看起来还没到尽头，这既是好事也是坏事，好事是AGI确实有可能实现，坏事是资源消耗也带来了很多资源浪费。
个人点评：从王仲远对当前文生视频（包括他曾经研发的、如今成为快手津津乐道的重磅文生视频产品“可灵”）的观点，与Sora刚推出时方汉对Sora的观点非常类似，就是认可其价值，但没有无限拔高其价值（方汉当时说不要低估Sora的短期价值，也别高估其长期价值）。
进一步将王仲远对下一代文生视频架构与颜水成的观点相比，就更清晰。“未来技术形态一定是原生、统一的语言文字图片视频模型，真正的多模态进、多模态出的技术体系，而且要不断容纳更多模态数据做成统一框架。”这和颜水成对Vitron的大一统定位如出一辙。感兴趣的可以去自行对比。难怪他俩能共同成为北京智源大会的程序主席。查看图片

作者：当市场的少数派

引用：