发布于: iPhone转发:0回复:0喜欢:1
“我们的预训练数据混合包括三种不同类型的数据:英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。英语语料库由各种来源和领域的精选文档组成,包括网络文档、新闻文章、科学论文、书籍等。我们的多语言数据包含 53 种自然语言,由单语言和平行语料库中的文档组成,而我们的代码数据集由 43 种编程语言构成。我们在这些数据上总共训练了 9 万亿个标记,其中前 8 万亿个标记在正式预训练阶段进行,最后 1 万亿个标记在持续预训练阶段进行。关于训练语料库和策划程序的详细信息,请参见 Parmar 等(2024),因为 Nemotron-4-340B-Base 遵循与 Nemotron-4-15B-Base 相同的数据混合。”—Nemotron-4 340B 技术报告