发布于: Android转发:0回复:2喜欢:0
完了 kimi 除了掌阅科技
引用:
2024-03-25 00:11

全部讨论

03-25 05:14

【人工智能时代,语料数据版权价值越来越大:谷歌大模型将向法国的出版商支付使用版权数据进行训练的20亿版权费用】,“因为语料数据一直在持续更新、扩张,因此大模型想要持续进步就必须获得持续更新扩张的语料数据输入,所以语料数据就享有持续获得版权收入的巨大优势,这是垄断的实打实的长期收入。”

03-25 06:43

【人工智能的持续输入:持续更新扩张的语料】“如前文所言,我们认为 AI 大模型需要高质量、大规模、持续更新扩张的语料数据。对标海外主要数据集,通用类型数据来自维基百科、书籍、持续更新的期刊、高质量论坛,因此国内的数据或来自文本数据领域的百度百科、中国科传、知乎、中文在线等。
1、中国科传:是中国学科分布最全、出版规模最大的综合性科技出版机构。
截至 2022 年底,中国科传出版期刊 554 种,其中中文期刊 254 种,英文期刊 276 种,中英文期刊 5 种,法文期刊 19 种。共有 101 种期刊被 SCI 收录,其中 36 种期刊处于 Q1 区,4 种期刊在国 际同学科期刊中排名第一,16 种期刊居国际同学科期刊排名前 10%。
2、中文在线,累积数字内容资源超 510 万种,网络原创驻站作者 440 余万名。