发布于: Android转发:1回复:29喜欢:0

$昆仑万维(SZ300418)$ 昆仑万维颜水成受邀出任2024北京智源大会视觉大模型论坛主席

原创 昆仑万维 昆仑万维集团 2024-06-15 16:27 北京网页链接

全部讨论

昨晚蓝台的奔跑吧你看了吗,里面用的al图片和音乐是国内哪家的,感觉不是坤坤的,如果是坤坤的,这宣传就到位了

06-17 07:46

说实话,在这些前沿基础理论方面,我们国内所有团队落后的比应用还多。还是安心专注于应用吧,争取早日出现爆款。
另一个艾捷目前是一点水花也没有了,端侧推理不知道进展什么情况。

06-16 07:26

$昆仑万维(SZ300418)$
钛媒体AGI:快手最近内测了文生视频产品“可灵”,受到广泛关注和好评,被认为是“中国版 Sora”,您认为评价此次快手可灵的产品效果?智源则要往哪个方向发展?
王仲远:这(可灵)是我原来的团队研发的,当时还是我在快手的时候就在布局文生视频项目,团队同学非常优秀,我觉得这代表了当前产业界的最高水平、真实水平。可灵是基于DiT(Diffusion Transformers)架构,这个架构被OpenAI的 Sora验证过了,这次智源大会也会请Sora负责人和DiT提出者。实际上,国内绝大部分的企业(大公司、创业公司)都选择DiT架构研发 AI 视频生成,因为它的效果确实很惊艳。但是我们认为它(DiT)不会是将来的终极路线。智源研究院会选择另一条终极路线。
我们认为,未来技术形态一定是原生、统一的语言文字图片视频模型,真正的多模态进、多模态出的技术体系,而且要不断容纳更多模态数据做成统一框架。目前,我们正在做这方面的训练和探索。
智源作为一家科研机构,要更往前一步探索,不去复现行业路线,而是去做真正的下一代技术路线。在这个过程中,确实需要依赖大数据、大算力,模型训练周期也很长,最终还要进行效果评估,资源消耗很大,带有大量不确定性,这对于现在的科研而言还是非常有挑战。
通往 AGI 这条路径依然是资源消耗型,并且看起来还没到尽头,这既是好事也是坏事,好事是AGI确实有可能实现,坏事是资源消耗也带来了很多资源浪费。
个人点评:从王仲远对当前文生视频(包括他曾经研发的、如今成为快手津津乐道的重磅文生视频产品“可灵”)的观点,与Sora刚推出时方汉对Sora的观点非常类似,就是认可其价值,但没有无限拔高其价值(方汉当时说不要低估Sora的短期价值,也别高估其长期价值)。
进一步将王仲远对下一代文生视频架构与颜水成的观点相比,就更清晰。“未来技术形态一定是原生、统一的语言文字图片视频模型,真正的多模态进、多模态出的技术体系,而且要不断容纳更多模态数据做成统一框架。”这和颜水成对Vitron的大一统定位如出一辙。感兴趣的可以去自行对比。难怪他俩能共同成为北京智源大会的程序主席。

06-15 18:49

值得仔细咀嚼的是下面的内容:
颜水成指出,当前越来越多的学术与产业界的研究重心开始往通用大模型倾斜,在视觉与多模态大模型领域,也涌现出了单模态视觉大模型、跨模态/多模态融合大模型等不同研究思路。研究人员是否能够离开文本独立训练通用视觉大模型,也是一个值得工业与学术界进一步探索的前沿方向。
颜水成提出单模态视觉大模型,脱离文本独立训练通用视觉大模型!
Vitron通用像素级视觉多模态大语言模型,这是一款统一的像素级视觉多模态大语言模型,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,能够全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务,展示了研发大一统的视觉多模态通用大模型的巨大潜力,也为下一代通用视觉大模型的终极形态奠定了基础。
这个已经非常有别于当下市面上看到的视频模型了。。。

06-16 09:14

简言之,颜水成刚加盟昆仑万维时提出三大愿景,其中被他称为目前Ai浪尖的下一代foundation models基础研究和研发是头一个。而他进入昆仑万维2050研究院的首个重大成果Vitron正是下一代Foundation models的重要分支。这个技术是有别于Open AI的文生视频Sora的全新架构,被颜水成和王仲远认为的真正终极文生视频技术。

06-16 09:08

Foundation Models被颜水成称为Ai浪尖

06-16 09:06

现在他推出的Vitron就属于“下一代Foundation Model”的一部分。

06-16 09:04

当初颜水成刚加盟昆仑万维时提出三大愿景(构想)

06-16 08:44

回答问题
问题解答
根据搜索结果显示,颜水成和王仲远均为智源研究院的论坛主席。智源研究院是一个专注于人工智能领域的研究机构,举办了多届北京智源大会,这是一个聚集了国内外顶尖技术团队、企业和科研人员的国际性、权威性和专业性的综合性行业盛会。颜水成是昆仑万维2050全球研究院院长,同时也是智源学者的身份,而王仲远则担任智源研究院院长。两位都是在人工智能领域有着广泛影响的学者和领导者。
相关信息
颜水成是一位在人工智能领域有着深厚背景的学者,特别是在机器学习和计算机视觉方面有着显著的贡献。他曾在新加坡国立大学(NUS)任教,带领学生在计算机视觉界的“世界杯”Pascal VOC和ImageNet(ILSVRC)两项竞赛中获得多次冠军或荣誉奖项。此外,颜水成还在学术界与工业界之间有着丰富的经历,包括在360和依图等公司的任职经历,以及在智源研究院的研究工作。
王仲远则在自然语言处理(NLP)、知识图谱和神经网络技术研究方面有着超过15年的经验。他曾在微软、Facebook(现Meta)和美团等知名企业与研究机构担任重要职位,并且在AI学术领域发表了大量论文,包括在《自然》杂志的子刊《Nature Machine Intelligence》上发表文章。王仲远还是一位连续的创新者,在多个领域推动了技术创新,例如在微软亚洲研究院期间主导了多个项目,包括微软概念图、企业词典和数字ME等。
结论
综上所述,颜水成和王仲远均是智源研究院的论坛主席,他们在人工智能领域都有着杰出的贡献和影响力。颜水成在机器学习和计算机视觉方面有着显著成就,而王仲远则在自然语言处理和知识图谱等领域有着深厚的功底。两人共同参与的北京智源大会,是探讨人工智能前沿技术、分享最新研究成果和应用案例的重要平台。
参考:
从颜、王两人的学术结构可以看出,大一统的通用视觉大模型与颜契合度更高。联想到他刚到昆仑万维时提到的三个愿景,通用机器视觉是他最感兴趣的领域之一。另一个就是智能体。