@看盘啦:为了满足多模态大模型建设中数据存储的关键要求,云天励飞选择华为AI数据湖解决方案构筑自主可靠的“云天天书”大模型,其中算力基础设施使用180台NVIDIA GPU服务器;数据基础设施则基于华为OceanStor AI存储,采用统一的AI数据湖解决方案,性能层使用70多个全闪节点,容量层基于10多个HDD节点。该方案能够为用户提供TB级带宽,多协议互通,EB级容量扩展等特性,大幅提升AI集群算力可用度和建设效率。
“云天天书”大模型网络架构
华为OceanStor AI存储,带来了什么?
| 高性能AI存储,AI集群算力可用度提升超10%
华为OceanStor AI存储高速并行文件系统DPC在多节点并发场景下,大小IO自适应,提供TB级带宽,数据处理性能提升50%以上,大模型训练中能够有效避免CheckPoint读写时GPU的无效等待,AI集群算力可用度提升10%,加速大模型训推。
| EB级海量数据扩展,匹配超大算力集群
华为OceanStor AI存储支持最大4096节点横向扩展,实现从PB级到EB级容量扩展,满足大模型平滑演进需求。另外,支持数据智能分级,采用性能层&容量层存储相配合,兼顾AI场景存储高性能、大容量诉求,最大化存储价值。
| 大规模集群一致性访问,迭代速度提升30%
“云天天书”大模型采用统一数据湖管理,支持22+2大比例EC,无损多协议互通,免除数据孤岛,训练集群内实现数据0拷贝。同时支持统一的命名空间和敏捷易用的CSI容器组件,无缝对接OpenPAI训练平台,大幅降低AI调度平台复杂度,大模型开发迭代速度提升30%。
云天励飞联手华为打造“云天天书”大模型训练平台,融合先进的算法、算力和大数据全栈式能力,并搭载了领先、可靠的AI数据湖解决方案。该平台专注于探索多模态大模型在各行业中的应用,全力推动中国AI大模型的发展,以期通过AI的力量,让人类生活更加安全、健康、便利$万集科技(SZ300552)$ $英伟达(NVDA)$