“我们的预训练数据混合包括三种不同类型的数据：英语自然语言数据（70%）、多语言自然语言数据（15%）和源代码数据（15...

发布于:2024-06-15 21:40

iPhone

转发：0

回复：0

喜欢：1

“我们的预训练数据混合包括三种不同类型的数据：英语自然语言数据（70%）、多语言自然语言数据（15%）和源代码数据（15%）。英语语料库由各种来源和领域的精选文档组成，包括网络文档、新闻文章、科学论文、书籍等。我们的多语言数据包含 53 种自然语言，由单语言和平行语料库中的文档组成，而我们的代码数据集由 43 种编程语言构成。我们在这些数据上总共训练了 9 万亿个标记，其中前 8 万亿个标记在正式预训练阶段进行，最后 1 万亿个标记在持续预训练阶段进行。关于训练语料库和策划程序的详细信息，请参见 Parmar 等（2024），因为 Nemotron-4-340B-Base 遵循与 Nemotron-4-15B-Base 相同的数据混合。”—Nemotron-4 340B 技术报告

作者：谭婧在充电