发布于: 雪球转发:0回复:0喜欢:1

$商汤-W(00020)$ 商汤科技公布AI大模型多行业进展

中证网讯(记者 王可)据商汤科技消息,6月2日,以“AI引领时代,算力驱动未来”为主题的“临港新片区智算大会”在上海临港举行。会上,临港新片区智算产业联盟正式成立,商汤科技作为联盟的算力提供企业,将与智算产业上下游及高校与科研院所共同开展资源共享、技术交流和项目合作,推动新片区智算产业应用赋能经济发展。商汤科技还被授予“新片区智算产业链链主”企业身份,将基于商汤人工智能计算中心(AIDC)积极参与临港智算产业链的协同融合和集聚发展。

商汤科技董事长兼CEO徐立在大会上发表主题演讲,围绕“算力的价值”,分享了过去短短半年里商汤大装置在气象预测、自动驾驶、遥感、游戏以及大语言模型等众多领域取得的一系列突破性成就。

作为领先的人工智能企业,商汤科技前瞻打造了软硬结合的AGI(通用人工智能)基础设施大装置SenseCore,并在此基础上构建了“商汤日日新SenseNova”大模型体系,推进自身AGI发展战略的同时,也为行业提供大模型算法服务、训练和推理优化以及数据服务。在演讲中,徐立展示了基于商汤大装置对临港实景进行大规模三维场景重建的高精度效果,在大算力和神经渲染技术的结合下,数小时就可以完成以往人工数周乃至数月才能完成的高精渲染工作。他介绍到,“在AI大模型时代,模型参数量将以指数级速率提升,而数据量随着多模态的引入也将大规模增长,由此带来了对算力需求的剧增。”

在大装置的赋能下,商汤在大模型领域实现了日新月异的飞速发展。今年3月开源的“书生2.5”多模态大模型在检测、分割、分类三大主流视觉任务下二十多个权威数据集上全面领先,这为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。对于人工智能基础科学(AI For Science)而言,在气象气候预报任务中,全球中期天气预报是最重要的预测任务之一。今年4月亮相的全球中期气象预报AI大模型“风乌”首次实现在高分辨率上对核心大气变量进行超过10天的有效预报,且在80%的评估指标上超越GraphCast模型。得益于对高分辨率全球大气数据建模,“风乌”还可以模拟台风等极端气象,准确预测台风轨迹。商汤构建的业界首个感知决策一体化的端到端自动驾驶解决方案UniAD,在多项关键数据集与指标上超越了SOTA方法,使车道线的预测准确率提升了30%,预测运动位移的误差降低了近40%,规划误差降低了近30%。商汤在上月推出的SenseEarth 3.0遥感大模型不仅拥有业内最全的解译类别,且在解译效率、泛化能力、解译精度等众多指标上均实现了技术突破。

不仅如此,商汤近日还联合提出了通才AI智能体GITM,能够在紧密模拟真实世界的畅销游戏《我的世界》中做到像人类一样生存、探索和创造,并在主世界所有技术挑战上实现了100%的任务覆盖率,在标准任务“获取钻石”上,较目前最佳成绩提升47.5%。而在大语言模型领域,商汤中文语言大模型应用平台“商汤商量SenseChat”在4月初发布后短短一个多月时间里,在多语言能力叠加表格生成处理能力、历史知识和归纳能力、多轮对话和长文本理解能力等多方面又获得显著提升,并在多个权威测试数据集和评价榜单中位居行业引领地位。商汤AI代码助手也通过快速迭代实现了619%的推理效率提升,这意味着可以在相同算力资源下支持6倍的用户数量,大大降低使用成本。

徐立表示,“在AGI时代,模型的能力可以用算力来衡量。我们以商汤大装置SenseCore打造AGI时代的基础设施,在模型的迭代速度及处理问题的能力上日日更新,不断解锁AGI的更多可能。商汤期待与更多同行者建立纵深合作,共商行业新模式,共探未来新方向。”截至今年5月,商汤大装置已累计服务超40个核心客户,其中大模型客户10家以上,涵盖智能驾驶、生物制药、芯片设计、智慧商业、高校科研等前沿领域,并已在超过20个落地场景中实现大模型交付。

作为AGI时代基础设施领导者,商汤大装置致力于打造高效率、低成本、规模化的下一代AI基础设施与服务,赋能人工智能生产新范式。大装置不仅拥有5000 Petaflops算力,支持20个千亿参数超大模型同时训练,还为客户及生态伙伴提供全链条MaaS大模型即服务,加速大模型的创新和应用效率。其中,自动化数据标注服务可将智能标注效率提升百倍;大模型推理部署服务可将大模型推理效率提高600%;大模型并行训练服务支持单集群3200卡5000亿稠密参数模型训练;大模型增量训练服务能够将增量微调成本降低90%。商汤还开放模型及AI开发工具链,赋能开发者效率提升。

商汤科技联合创始人、大装置事业群总裁杨帆指出,“大模型并非单纯的暴力美学,背后是大量的软件工程系统问题,商汤大装置长期沉淀了大量的专家认知和工具,具备端到端产品应用解决方案能力。AI产业即将迎来一个更加繁荣的大航海时代,商汤大装置将通过更加大规模、高效率、低成本的AI基础设施,实现更好的服务,支撑未来百花齐放的产业生态。”

$科大讯飞(SZ002230)$ $百度集团-SW(09888)$ 

上海证券报独家专访商汤蒋钦:大模型引发算力产业持续升温 对新型AI基础设施提出更高要求

2023年06月02日 

AI引领时代,算力驱动未来。临港新片区智算大会6月2日在上海自贸试验区临港新片区启幕。大会前夕,上海证券报独家专访商汤AI大装置产业赋能中心主任蒋钦,对算力市场供需进行了最新研判。

蒋钦说,以GPU为主的人工智能算力近年来呈现快速增长态势,大模型的热潮下,算力服务器目前呈现紧缺状态,这种状态预计将持续到明年。他还认为,大模型的发展还和智能算力底座有着深刻联系,需要在大规模资源汇聚的基础上做好算力、算法、数据三要素的协同实践和联合优化,才能训练出更好的大模型,助力实体经济高质量发展。

上海证券报:ChatGPT出来以后,不少人觉得算力不够了。您对现在市场上的算力需求,有怎样的预判?

蒋钦:非常直观的感受是,由大模型为代表引发的AI新技术热潮,带动整个算力需求呈现出非常旺盛的态势。可以预见,未来一段时间内,对于AI算力的整体需求将会持续增长。当前市场上,算力服务器是持续紧缺的状态,或者说整个配货的周期会非常长。

根据目前我们在行业了解的情况来看,服务器厂商估计要等待3至6个月以上才能大批量拿到最新型号的AI芯片,所以行业整体判断下来,AI芯片短缺的情况至少会持续到明年。

大模型的特点是,除了需要高性能的服务器,还需要通过打造高速训练集群来做支撑。这和以往或上一代人工智能研究的技术有很大区别。之前我们做小模型时,可能只需要单机,或少量几台服务器,就能满足研究要求,就可以做相应开发。

但是,当下,如果我们要做大模型,要打造基模型,整个模型的参数量、训练的数据量会非常庞大,需要堆叠的算力资源也会相应地大得多,研究团队往往需要500甚至1000张以上AI芯片连成的大规模算力集群才能有效开展训练任务。它除了对AI算力服务器的数量需求增加之外,对于AI服务器之间的高速互联也有很高的要求。要想在大集群上稳定的跑大模型训练任务,需要有稳定、高速的网络带宽,它对于集群内部包括服务器与服务器之间、卡与卡之间的通信都有非常高的要求。所以它除了对AI算力服务器的需求很旺盛之外,对于高速的网卡、网络交换机,以及网线等集群配套资源都会产生强需求,这些也是当前市场上比较稀缺的资源。

上海证券报:北上广深等城市近年来纷纷发布支持人工智能发展的新政策。比如近日上海推出的加大民间投资“20条”新政策中就提到,要充分发挥人工智能创新发展专项等引导作用,支持民营企业广泛参与数据、算力等人工智能基础设施建设。您怎么看这个趋势?

蒋钦:一方面,整个算力结构正在发生明显变化。

我们所谓的算力,其实并不是单一概念,它包括通用算力,就是以CPU芯片为主的算力;还包括超算,就是各种超算中心提供的高性能算力,主要服务于科学计算;还有目前非常热门的智能算力,即以GPU为典型代表的,以AI芯片为主的服务于人工智能训练和推理相关需求的计算能力。

其中,以AI芯片为主的人工智能算力近年来呈现快速增长态势。中国信通院统计显示,2016年,整个算力结构中,国内人工智能算力比例只占3%左右。到2022年,整个人工智能算力比重已超过50%。

我认为,人工智能算力作为当前最具活力和创新力的一种新型生产力,它已经成为整个算力产业发展的重要方向。人工智能发展和多元化应用需求催生了算力的迭代升级,从算力结构来看,人工智能算力正处于风口。

虽然纯CPU算力也能用来进行部分人工智能计算,但效率非常低、能耗非常高,我们不可能用这样的算力形式去支撑人工智能产业的发展。所以,搭载以AI芯片为主的新型算力基础设施是未来发展的重要趋势和热潮,政策上也会对这块有重点倾斜和支持。

所以,我们看到,北上广深在发布新的关于人工智能产业支持政策时,一大重点内容就是支持新型算力基础设施建设,支持智能化算力的发展。因为,在人工智能的产业浪潮下,在大模型的时代趋势下,人工智能算力会成为一种核心资源。只有大规模发展智能算力,才能支撑好、服务好我们未来整个的智能时代。

另一方面,头部企业在其中发挥了重要作用。

我们看到大模型出来之后对智能算力的需求达到了一个井喷状态,但实际上,早在2020年开始,包括阿里腾讯等互联网大厂,华为、曙光等硬件服务器厂商,以及以商汤为代表的人工智能企业,随着人工智能应用需求的持续增长,都已经开始在重点布局人工智能基础设施。

目前,全国各地一线城市、省会城市等,都依托头部企业在自主创新、技术迭代、产业生态等方面的优势,重点布局建设人工智能算力中心。

其中,位于临港新片区的商汤人工智能计算中心,就是目前全亚洲规模最大的人工智能计算中心之一,可以说是一个典型的代表。

上海证券报:您认为商汤在临港新片区的人工智能基础设施现在处于什么样的水平?接下来商汤会如何依托临港的政策和产业优势,实现更高质量发展?

蒋钦:第一,临港这个项目是商汤从2020年开始投资建设的,然后在去年年初正式点亮试运营。截至今天,整个算力规模已经达到了5000P flops的算力体量,超过了当时设计的算力规模水平。作为亚洲已投入使用的、最大规模的单节点智能计算中心,这里边除了算力规模体量很大之外,与之相配套的人工智能模型开发工具,针对大模型的训练、推理、数据优化服务等等,都具备一整套全链路的产品与服务能力支撑,可以高效率、低成本、规模化的支撑和服务好目前以大模型为代表的整个人工智能产业的高速发展,这是我们项目的特点和优势。

第二,围绕临港来说的话,一方面我们要进一步去夯实算力底座本身,在进一步扩大算力规模的基础上,在算力软件平台相关技术领域,持续进行技术攻关,包括对于集群架构、集群网络、存储性能、能源管理等多方面的优化,对于大模型训练与推理的定向支持等等,在各个方面去做相应的技术迭代更新,去支撑更大规模的算力集群的落地,助力临港打造智能算力的新高地。

另一方面,临港本身具有非常强大的区域产业优势,集聚了集成电路、人工智能、生物医药、高端装备制造、新能源汽车等核心优势产业,产业密集度非常高。这些优势产业与智能算力都有着高度关联性。围绕临港区域的优势产业去打造人工智能基础设施行业解决方案与丰富的产业上下游生态,做好产业智能化升级的算力底座,持续参与上海及临港的人工智能产业生态的建设与发展,这也是我们整个项目的一个总体发展规划。

上海证券报:除了商汤“日日新”大模型外,商汤智算中心在大模型领域的用户主要以哪些类型的企业为主,为哪些类型的企业赋能比较多?您对智算产业的发展有何预判?

蒋钦:商汤智算中心除了赋能我们自身的大模型,为“日日新Sense Nova大模型”提供底层算力基座,提供AI工具的支撑之外,也为其他客户提供AI相关的基础能力。目前,临港商汤智算中心通过云服务的方式,已在泛互联网、泛娱乐、自动驾驶、科研院所等多个领域里支持了十余家大模型客户的开发工作,我们为客户提供海量算力资源以及相关AI服务。

面向大模型训练,大规模算力是必要支撑,同时大模型在训练完成后,在推理过程中也需要消耗大量算力来保证大模型所加持应用的高质量服务体验。随着大模型训练和推理需求的叠加,可以预见对于智能算力的需求在未来几年将持续增长。

上海证券报:如何看待当前的大模型浪潮?

蒋钦:我认为,本轮大模型浪潮带来的技术发展、技术演进,是整个人工智能三要素算力、算法、数据进行大规模资源堆叠的结果,可以说是暴力美学的胜利。其实这背后更深刻的原因是基于算力、算法及数据三要素进行协同优化,获得最佳工程实践的结果。大模型的发展是AI基础研发能力与系统工程能力的综合体现。

所以,我们需要处理好人工智能三要素之间的关系,做好联合调优。我们已经发现,并不是简单的算力越大,算法模型结构越复杂,训练数据量越多,大模型训练效果就一定越好。这里面有着非常复杂的系统性难题,需要有相应的行业积累、专家知识沉淀、工程实践经验才能把这个事情做好。

因此,在大模型时代,也需要有能与之相匹配的面向未来的人工智能新型基础设施。这其中,以商汤人工智能计算中心为代表,我们以多年经验积累的AI原生计算平台对外提供平台能力。除了提供大规模算力资源之外,更重要的是,将商汤过往在大模型领域的专家知识沉淀与系统化工程能力进行了很好的整合,其中标准化的部分我们通过软件工具的方式对外提供产品,非标准化的部分我们通过训练、推理优化服务、数据管理服务的方式对外提供服务,从而全栈加速大模型的生产部署,更好地帮助各行各业开发人员快速掌握AI生产能力。这也是我认为,在大模型浪潮下,未来新型算力基础设施一个大的发展方向与趋势。