$昆仑万维(SZ300418)$ 昆仑万维颜水成受邀出任2024北京智源大会视觉大模型论坛主席原创昆仑万维昆仑万维...

作者：善上若水dsry

发布于:2024-06-15 18:17

Android

转发：1

回复：29

喜欢：0

$昆仑万维(SZ300418)$ 昆仑万维颜水成受邀出任2024北京智源大会视觉大模型论坛主席

原创昆仑万维昆仑万维集团 2024-06-15 16:27 北京网页链接

全部讨论

111111qa

06-15 18:41

查看8条回复

昨晚蓝台的奔跑吧你看了吗，里面用的al图片和音乐是国内哪家的，感觉不是坤坤的，如果是坤坤的，这宣传就到位了

石门挑夫

06-17 07:46

说实话，在这些前沿基础理论方面，我们国内所有团队落后的比应用还多。还是安心专注于应用吧，争取早日出现爆款。
另一个艾捷目前是一点水花也没有了，端侧推理不知道进展什么情况。

善上若水dsry

06-16 07:26

$昆仑万维(SZ300418)$
钛媒体AGI：快手最近内测了文生视频产品“可灵”，受到广泛关注和好评，被认为是“中国版 Sora”，您认为评价此次快手可灵的产品效果？智源则要往哪个方向发展？
王仲远：这（可灵）是我原来的团队研发的，当时还是我在快手的时候就在布局文生视频项目，团队同学非常优秀，我觉得这代表了当前产业界的最高水平、真实水平。可灵是基于DiT（Diffusion Transformers）架构，这个架构被OpenAI的 Sora验证过了，这次智源大会也会请Sora负责人和DiT提出者。实际上，国内绝大部分的企业（大公司、创业公司）都选择DiT架构研发 AI 视频生成，因为它的效果确实很惊艳。但是我们认为它（DiT）不会是将来的终极路线。智源研究院会选择另一条终极路线。
我们认为，未来技术形态一定是原生、统一的语言文字图片视频模型，真正的多模态进、多模态出的技术体系，而且要不断容纳更多模态数据做成统一框架。目前，我们正在做这方面的训练和探索。
智源作为一家科研机构，要更往前一步探索，不去复现行业路线，而是去做真正的下一代技术路线。在这个过程中，确实需要依赖大数据、大算力，模型训练周期也很长，最终还要进行效果评估，资源消耗很大，带有大量不确定性，这对于现在的科研而言还是非常有挑战。
通往 AGI 这条路径依然是资源消耗型，并且看起来还没到尽头，这既是好事也是坏事，好事是AGI确实有可能实现，坏事是资源消耗也带来了很多资源浪费。
个人点评：从王仲远对当前文生视频（包括他曾经研发的、如今成为快手津津乐道的重磅文生视频产品“可灵”）的观点，与Sora刚推出时方汉对Sora的观点非常类似，就是认可其价值，但没有无限拔高其价值（方汉当时说不要低估Sora的短期价值，也别高估其长期价值）。
进一步将王仲远对下一代文生视频架构与颜水成的观点相比，就更清晰。“未来技术形态一定是原生、统一的语言文字图片视频模型，真正的多模态进、多模态出的技术体系，而且要不断容纳更多模态数据做成统一框架。”这和颜水成对Vitron的大一统定位如出一辙。感兴趣的可以去自行对比。难怪他俩能共同成为北京智源大会的程序主席。

善上若水dsry

06-15 18:49

值得仔细咀嚼的是下面的内容：
颜水成指出，当前越来越多的学术与产业界的研究重心开始往通用大模型倾斜，在视觉与多模态大模型领域，也涌现出了单模态视觉大模型、跨模态/多模态融合大模型等不同研究思路。研究人员是否能够离开文本独立训练通用视觉大模型，也是一个值得工业与学术界进一步探索的前沿方向。
颜水成提出单模态视觉大模型，脱离文本独立训练通用视觉大模型！
Vitron通用像素级视觉多模态大语言模型，这是一款统一的像素级视觉多模态大语言模型，解决了困扰大语言模型产业已久的图像/视频模型割裂问题，能够全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务，展示了研发大一统的视觉多模态通用大模型的巨大潜力，也为下一代通用视觉大模型的终极形态奠定了基础。
这个已经非常有别于当下市面上看到的视频模型了。。。

善上若水dsry

06-16 09:14

简言之，颜水成刚加盟昆仑万维时提出三大愿景，其中被他称为目前Ai浪尖的下一代foundation models基础研究和研发是头一个。而他进入昆仑万维2050研究院的首个重大成果Vitron正是下一代Foundation models的重要分支。这个技术是有别于Open AI的文生视频Sora的全新架构，被颜水成和王仲远认为的真正终极文生视频技术。

善上若水dsry

06-16 09:08

Foundation Models被颜水成称为Ai浪尖

善上若水dsry

06-16 09:06

现在他推出的Vitron就属于“下一代Foundation Model”的一部分。

善上若水dsry

06-16 09:04

当初颜水成刚加盟昆仑万维时提出三大愿景（构想）

善上若水dsry

06-16 08:44

回答问题
问题解答
根据搜索结果显示，颜水成和王仲远均为智源研究院的论坛主席。智源研究院是一个专注于人工智能领域的研究机构，举办了多届北京智源大会，这是一个聚集了国内外顶尖技术团队、企业和科研人员的国际性、权威性和专业性的综合性行业盛会。颜水成是昆仑万维2050全球研究院院长，同时也是智源学者的身份，而王仲远则担任智源研究院院长。两位都是在人工智能领域有着广泛影响的学者和领导者。
相关信息
颜水成是一位在人工智能领域有着深厚背景的学者，特别是在机器学习和计算机视觉方面有着显著的贡献。他曾在新加坡国立大学（NUS）任教，带领学生在计算机视觉界的“世界杯”Pascal VOC和ImageNet（ILSVRC）两项竞赛中获得多次冠军或荣誉奖项。此外，颜水成还在学术界与工业界之间有着丰富的经历，包括在360和依图等公司的任职经历，以及在智源研究院的研究工作。
王仲远则在自然语言处理（NLP）、知识图谱和神经网络技术研究方面有着超过15年的经验。他曾在微软、Facebook（现Meta）和美团等知名企业与研究机构担任重要职位，并且在AI学术领域发表了大量论文，包括在《自然》杂志的子刊《Nature Machine Intelligence》上发表文章。王仲远还是一位连续的创新者，在多个领域推动了技术创新，例如在微软亚洲研究院期间主导了多个项目，包括微软概念图、企业词典和数字ME等。
结论
综上所述，颜水成和王仲远均是智源研究院的论坛主席，他们在人工智能领域都有着杰出的贡献和影响力。颜水成在机器学习和计算机视觉方面有着显著成就，而王仲远则在自然语言处理和知识图谱等领域有着深厚的功底。两人共同参与的北京智源大会，是探讨人工智能前沿技术、分享最新研究成果和应用案例的重要平台。
参考：
从颜、王两人的学术结构可以看出，大一统的通用视觉大模型与颜契合度更高。联想到他刚到昆仑万维时提到的三个愿景，通用机器视觉是他最感兴趣的领域之一。另一个就是智能体。