发布于: iPhone转发:1回复:9喜欢:2

$海光信息(SH688041)$ 赋能海光,vt-transformer强势助力国产算力走向商用

原创 云锦微智能科技 云锦微智能科技2023-12-27 21:58 发表于上海

全部讨论

2023-12-31 12:30

在我国自主研发的人工智能芯片领域,近期涌现出一颗耀眼的“国产之光”——海光DCU。这款芯片的推出不仅引起了业内和舆论的强烈反响,更被认为是中国在人工智能芯片领域迈出的重要一步,成功打破了西方国家在该领域的技术垄断,标志着中国AI芯片产业正式进入春天。
海光DCU以其高性能、安全可信等优势,成为国产算力的代表,并在计算机视觉、自然语言处理、搜索推荐、深度学习等多个领域展现出广泛的应用前景。该解决方案的独特之处在于其支持异构计算,可以灵活搭配主流GPGPU、国产AI加速卡和HYGON深度计算处理器,为用户提供多样化的选择。而自主研发的GPU设计,更在保密计算和安全验证方面实现国产化替代,为我国构建自主可控、安全高效的AI计算平台奠定了基础。
作为目前国内少数可以大量供货并支持全计算精度的AI芯片,海光DCU在性能、通用性、安全性等多个方面均超越了国际先进水平,填补了我国AI芯片的空白,使中国AI芯片产业迈上了新台阶。它不仅赢得了国内市场的选择和认可,还成功打入了智能计算中心、互联网、金融、电信、教育等多个应用场景,为各行业提供了强大的算力支持。
然而,要将海光DCU推向更广泛的商用领域,单靠硬件本身是远远不够的。正是在这个背景下,云锦微与海光展开了战略合作,为海光DCU注入了新的生命力。云锦微自研的一体化C++计算框架vt-transformer成为合作的关键,为海光DCU赋能,助力国产算力更好地走向商用。
vt-transformer计算框架是云锦微开源的一项重要技术,以其完整的自主知识产权、高度整体性和精简度高的特点,成为开源生态的一种优秀选择,可作为Nvidia和华为等平台的有力补充。该框架的独特之处在于完全采用C++开发,抛弃Python,易于移植和部署,注重整体优化,支持两种典型应用模式,即单机单卡低延迟推理和单机8卡训推一体,以及支持Q4/Q8量化计算、KV Cache管理等优化和实用功能。
通过vt-transformer计算框架的引入,海光DCU不仅能够简化大模型移植到算力加速卡的开发工作,提高运行效率,更能够建立起国产算力的差异化竞争力。该框架的开源性质也为开发者提供了参与体验和共同创新的平台,进一步推动了国产算力的发展。
云锦微推出的数字底座,尤其是边缘智能中枢解决方案,搭载了vt-transformer计算框架,为各种主流AI算力加速卡和开源大模型提供了全方位的支持。该解决方案已经适配了多种大模型,并在性能上取得了令人瞩目的成绩。在vt-transformer的驱动下,边缘智能中枢实现了A10级别的性能,为各行各业在进行AI基建时带来了巨大的经济效益,充分发挥了算力基础设施的效能。
综合来看,云锦微与海光的合作,通过vt-transformer计算框架为海光DCU赋能,不仅加速了国产算力的商用进程,更为中国在人工智能芯片领域的崛起做出了积极贡献。这不仅是对“国产之光”海光DCU的强势助力,更是对国产算力振兴的有力支持,为我国在人工智能领域的全面崛起奠定了坚实的基础。

2023-12-31 13:44

国产芯片在接替Nvidia环境中的应用迁移方面的表现及优势
背景
随着国内AI产业的快速发展,对高端国产GPU的需求不断增加。作为一个全球AI芯片领域的巨头,Nvidia的GPU价格昂贵,限制了一部分企业和研究机构的使用。许多人开始关注国产芯片是否可以承接Nvidia环境的项目迁移,以降低成本并提高自主研发能力。
问题
这篇文章主要讨论了国内AI产业对高端国产GPU的需求增加的背景下,能否用国产芯片来承接Nvidia环境的项目迁移的问题。为了解决这个问题,作者进行了一组测试数据,展示了客流统计算法从Nvidia环境往国产海光CPU+DCU的迁移训练过程。
测试数据展示
作者验证了pytorch和paddlepaddle两种深度学习框架,以及目标检测、行人重识别和多标签分类三种深度学习任务。通过比较Nvidia GPU和Hygon DCU两种硬件环境的训练结果,作者得出了以下结论。
训练结果对比
在目标检测模型训练结果方面,海光DCU与Nvidia GPU在训练速度和训练精度上基本一致,表现相差不大。这意味着国产芯片可以完全胜任这一任务,无需担心性能问题。
在行人重识别模型训练结果方面,虽然DCU的训练速度略有差异,但是训练精度依然相差不大。这证明国产芯片在这个任务上也能够取得令人满意的结果。
而在多标签图像分类模型训练结果方面,DCU的表现更加优异。不仅训练速度比GPU更快,而且吞吐量也更大。这表明国产芯片在多标签图像分类方面具有巨大的潜力,可以为用户带来更好的使用体验。
使用体验总结
基于海光CPU+DCU的测试结果显示,在不修改历史训练代码的前提下,能够完成整个训练。海光DCU在相同配置环境中,与Nvidia CPU的PK结果超出了预期,实现了低成本无痛迁移。这意味着国产芯片可以成功替代Nvidia GPU,为用户提供更加经济、便捷、高效的解决方案。
结论
通过一组测试数据,本文展示了国产芯片在接替Nvidia环境中的应用迁移方面的表现及优势。测试结果显示,在训练速度和精度上,DCU与GPU基本一致,且在部分推理结果图和识别结果图上表现几乎一样。特别是在多标签图像分类模型训练中,DCU的表现更加优异,训练速度和吞吐量均大大超过GPU。海光DCU在相同配置环境中,与Nvidia CPU的PK结果超出了预期,实现了低成本无痛迁移。这些结果表明,国产芯片在AI应用迁移方面具有巨大的潜力,将为我国的自主研发能力和产业发展提供强大支持。
通过上述的测试数据,可以看出国产芯片在接替Nvidia环境中的应用迁移方面具有明显的优势。在目标检测模型训练中,国产芯片表现与Nvidia GPU相差不大,证明其具备处理高性能运算的能力。在行人重识别模型训练中,虽然训练速度略有差异,但训练精度相差不大,表明国产芯片在这个任务上能够取得令人满意的结果。在多标签图像分类模型训练中,国产芯片的表现更加优异,训练速度和吞吐量均超过了Nvidia GPU,这意味着国产芯片在这一领域具有巨大的潜力。
这些测试结果表明,国产芯片在接替Nvidia环境中的应用迁移方面已经取得了显著的进展。国产芯片的性能和稳定性已经达到了市场需求,可以完全胜任高性能运算的任务。与此国产芯片的价格相对较低,可以降低企业和研究机构的成本,提高自主研发能力。
国产芯片在应用迁移方面的优势不仅体现在性能和成本上,还体现在使用体验上。根据测试结果显示,国产芯片能够在不修改历史训练代码的前提下完成整个训练,实现了低成本无痛迁移。这为用户提供了更加经济、便捷、高效的解决方案,提高了用户的使用体验。
国产芯片在接替Nvidia环境中的应用迁移方面展现出了明显的优势。通过持续的研发和创新,国产芯片有望在AI产业中发挥更重要的作用,为我国的自主研发能力和产业发展提供强大支持。在未来,我们可以期待国产芯片在AI领域的进一步发展,为我国的科技创新进程做出更大贡献。

2023-12-31 13:35

出货中,

2023-12-31 13:01

下周来个20cm

01-01 22:58

证明深算3已经问世了