$海光信息(SH688041)$ 赋能海光，vt-transformer强势助力国产算力走向商用原创云锦微智能科技云...

作者：君君爸

发布于:2023-12-31 12:29

iPhone

转发：1

回复：9

喜欢：2

$海光信息(SH688041)$ 赋能海光，vt-transformer强势助力国产算力走向商用

原创云锦微智能科技云锦微智能科技2023-12-27 21:58 发表于上海

全部讨论

君君爸

2023-12-31 12:30

在我国自主研发的人工智能芯片领域，近期涌现出一颗耀眼的“国产之光”——海光DCU。这款芯片的推出不仅引起了业内和舆论的强烈反响，更被认为是中国在人工智能芯片领域迈出的重要一步，成功打破了西方国家在该领域的技术垄断，标志着中国AI芯片产业正式进入春天。
海光DCU以其高性能、安全可信等优势，成为国产算力的代表，并在计算机视觉、自然语言处理、搜索推荐、深度学习等多个领域展现出广泛的应用前景。该解决方案的独特之处在于其支持异构计算，可以灵活搭配主流GPGPU、国产AI加速卡和HYGON深度计算处理器，为用户提供多样化的选择。而自主研发的GPU设计，更在保密计算和安全验证方面实现国产化替代，为我国构建自主可控、安全高效的AI计算平台奠定了基础。
作为目前国内少数可以大量供货并支持全计算精度的AI芯片，海光DCU在性能、通用性、安全性等多个方面均超越了国际先进水平，填补了我国AI芯片的空白，使中国AI芯片产业迈上了新台阶。它不仅赢得了国内市场的选择和认可，还成功打入了智能计算中心、互联网、金融、电信、教育等多个应用场景，为各行业提供了强大的算力支持。
然而，要将海光DCU推向更广泛的商用领域，单靠硬件本身是远远不够的。正是在这个背景下，云锦微与海光展开了战略合作，为海光DCU注入了新的生命力。云锦微自研的一体化C++计算框架vt-transformer成为合作的关键，为海光DCU赋能，助力国产算力更好地走向商用。
vt-transformer计算框架是云锦微开源的一项重要技术，以其完整的自主知识产权、高度整体性和精简度高的特点，成为开源生态的一种优秀选择，可作为Nvidia和华为等平台的有力补充。该框架的独特之处在于完全采用C++开发，抛弃Python，易于移植和部署，注重整体优化，支持两种典型应用模式，即单机单卡低延迟推理和单机8卡训推一体，以及支持Q4/Q8量化计算、KV Cache管理等优化和实用功能。
通过vt-transformer计算框架的引入，海光DCU不仅能够简化大模型移植到算力加速卡的开发工作，提高运行效率，更能够建立起国产算力的差异化竞争力。该框架的开源性质也为开发者提供了参与体验和共同创新的平台，进一步推动了国产算力的发展。
云锦微推出的数字底座，尤其是边缘智能中枢解决方案，搭载了vt-transformer计算框架，为各种主流AI算力加速卡和开源大模型提供了全方位的支持。该解决方案已经适配了多种大模型，并在性能上取得了令人瞩目的成绩。在vt-transformer的驱动下，边缘智能中枢实现了A10级别的性能，为各行各业在进行AI基建时带来了巨大的经济效益，充分发挥了算力基础设施的效能。
综合来看，云锦微与海光的合作，通过vt-transformer计算框架为海光DCU赋能，不仅加速了国产算力的商用进程，更为中国在人工智能芯片领域的崛起做出了积极贡献。这不仅是对“国产之光”海光DCU的强势助力，更是对国产算力振兴的有力支持，为我国在人工智能领域的全面崛起奠定了坚实的基础。

君君爸

2023-12-31 13:44

国产芯片在接替Nvidia环境中的应用迁移方面的表现及优势
背景
随着国内AI产业的快速发展，对高端国产GPU的需求不断增加。作为一个全球AI芯片领域的巨头，Nvidia的GPU价格昂贵，限制了一部分企业和研究机构的使用。许多人开始关注国产芯片是否可以承接Nvidia环境的项目迁移，以降低成本并提高自主研发能力。
问题
这篇文章主要讨论了国内AI产业对高端国产GPU的需求增加的背景下，能否用国产芯片来承接Nvidia环境的项目迁移的问题。为了解决这个问题，作者进行了一组测试数据，展示了客流统计算法从Nvidia环境往国产海光CPU+DCU的迁移训练过程。
测试数据展示
作者验证了pytorch和paddlepaddle两种深度学习框架，以及目标检测、行人重识别和多标签分类三种深度学习任务。通过比较Nvidia GPU和Hygon DCU两种硬件环境的训练结果，作者得出了以下结论。
训练结果对比
在目标检测模型训练结果方面，海光DCU与Nvidia GPU在训练速度和训练精度上基本一致，表现相差不大。这意味着国产芯片可以完全胜任这一任务，无需担心性能问题。
在行人重识别模型训练结果方面，虽然DCU的训练速度略有差异，但是训练精度依然相差不大。这证明国产芯片在这个任务上也能够取得令人满意的结果。
而在多标签图像分类模型训练结果方面，DCU的表现更加优异。不仅训练速度比GPU更快，而且吞吐量也更大。这表明国产芯片在多标签图像分类方面具有巨大的潜力，可以为用户带来更好的使用体验。
使用体验总结
基于海光CPU+DCU的测试结果显示，在不修改历史训练代码的前提下，能够完成整个训练。海光DCU在相同配置环境中，与Nvidia CPU的PK结果超出了预期，实现了低成本无痛迁移。这意味着国产芯片可以成功替代Nvidia GPU，为用户提供更加经济、便捷、高效的解决方案。
结论
通过一组测试数据，本文展示了国产芯片在接替Nvidia环境中的应用迁移方面的表现及优势。测试结果显示，在训练速度和精度上，DCU与GPU基本一致，且在部分推理结果图和识别结果图上表现几乎一样。特别是在多标签图像分类模型训练中，DCU的表现更加优异，训练速度和吞吐量均大大超过GPU。海光DCU在相同配置环境中，与Nvidia CPU的PK结果超出了预期，实现了低成本无痛迁移。这些结果表明，国产芯片在AI应用迁移方面具有巨大的潜力，将为我国的自主研发能力和产业发展提供强大支持。
通过上述的测试数据，可以看出国产芯片在接替Nvidia环境中的应用迁移方面具有明显的优势。在目标检测模型训练中，国产芯片表现与Nvidia GPU相差不大，证明其具备处理高性能运算的能力。在行人重识别模型训练中，虽然训练速度略有差异，但训练精度相差不大，表明国产芯片在这个任务上能够取得令人满意的结果。在多标签图像分类模型训练中，国产芯片的表现更加优异，训练速度和吞吐量均超过了Nvidia GPU，这意味着国产芯片在这一领域具有巨大的潜力。
这些测试结果表明，国产芯片在接替Nvidia环境中的应用迁移方面已经取得了显著的进展。国产芯片的性能和稳定性已经达到了市场需求，可以完全胜任高性能运算的任务。与此国产芯片的价格相对较低，可以降低企业和研究机构的成本，提高自主研发能力。
国产芯片在应用迁移方面的优势不仅体现在性能和成本上，还体现在使用体验上。根据测试结果显示，国产芯片能够在不修改历史训练代码的前提下完成整个训练，实现了低成本无痛迁移。这为用户提供了更加经济、便捷、高效的解决方案，提高了用户的使用体验。
国产芯片在接替Nvidia环境中的应用迁移方面展现出了明显的优势。通过持续的研发和创新，国产芯片有望在AI产业中发挥更重要的作用，为我国的自主研发能力和产业发展提供强大支持。在未来，我们可以期待国产芯片在AI领域的进一步发展，为我国的科技创新进程做出更大贡献。

空头猪实盘

2023-12-31 13:35

出货中，

14758ldp

2023-12-31 13:01

下周来个20cm

拾牛

01-01 22:58

证明深算3已经问世了