$浪潮信息(SZ000977)$ 浪潮源VS Open Ai 2128个G P U集群效果超万个GPU9 月 28 日，...

$浪潮信息(SZ000977)$ 浪潮源VS Open Ai
2128个G P U集群效果超万个GPU

9 月 28 日，浪潮人工智能研究院推出了中文巨量语言模型——源 1.0，让我们看到了语言模型超强的创作能力。
除了轻松应对大多数语言大模型都能完成的对话、故事续写、新闻生成和接对联等任务，源 1.0 还具备风格约束的诗歌创作能力，比如给出李白、杜甫或诗经风格的诗句，模型便能输出相应风格的诗句。堪称诗界的百变大师！
不仅如此，源 1.0 还具备强大的模仿能力，输入一个不存在的词语以及给出它的定义和示例。模型便能依葫芦画瓢，造出符合这个词语定义、逻辑和语境的语句。
这些只是源 1.0 一小部分创作能力的展示，一切都要归功于这个巨量中文模型具有的参数量——2,457 亿，以及它的全球最大中文数据集——5.02TB。并且，源 1.0 并不是由多个小模型堆砌形成，而是单体模型。因参数量巨大，所以称其为「巨量模型」。
相较于 GPT-3 的 1,750 亿参数，源 1.0 是其参数量的 1.404 倍。面对如此巨大的参数量，浪潮 1.0 在 2,128 个 GPU 集群上跑上 16 天完成了训练，每个 GPU 的实际训练性能达到 140 TFlops，消耗的总算力大约为 4,095 PetaFlop/s-day
相比之下，GPT-3 使用 10,000 块 GPU、花了 30 天才训练完了 1,750 亿参数，单 GPU 计算性能为 12TFlops，消耗的总算力为 3,640 PetaFlop/s-day。
从更直观的计算效率来看，GPT-3 完成训练需要 10,000 块 GPU，大约为 355 GPU 年。而源 1.0 使用 2,128 张 GPU，16 天就完成了训练，大约为 93 GPU 年。（GPU 年代表一张 GPU 跑 1 年能完成的工作量）

源 1.0 与 GPT-3 的参数量、算力对比。
与此同时，在训练数据方面，源 1.0 不仅爬取了 2017 至 2021 年的网页数据，还使用了开源语料、中文百科和中文书籍等多个数据源，又通过粗筛和精筛，最终得到了一个 5.02TB 的全球最大高质量中文数据集。
训练出来的源 1.0 成功「兑现」了自己的能力，不仅在中文语言理解测评基准 CLUE 中刷榜文献分类、长文本分析等多项任务，更在零样本学习榜的成语阅读理解任务上超越人类水平。
更难能可贵的是，不同于 GPT-3 少量开放 API 的商用思路，浪潮的「源 1.0 开源开放计划」将包括模型 API、高质量中文数据集以及模型训练、推理和应用代码在内的资源向社区开放，还将开展面向国产 AI 芯片的模型移植开发。第一批计划合作对象包括大学或科研机构的 AI 研究团队、元脑生态合作伙伴和智能计算中心等。

作者：黑土地1号