黑体字那个消息出处是哪?
AI语料相关企业:
文本语料:中文在线、读客文化、同方股份、掌阅科技、中国科传、中国出版、中信出版。
图片语料:视觉中国
新闻语料:人民网、新华网
消费语料:值得买、汇纳科技
训练数据语料:海天瑞声
目前国内一些AI语料企业,已经开始把内容卖给大模型公司,或与大模型公司合作训练。
中文在线:根据中文在线的年报内容,中文在线拥有超过60TB的正版数据,含文字/音频/视频多种类型,覆盖小说、科普、社会等多个品类,通过文学网站和驻站作者持续更新数据,通过完备的数据保护和版权保护体系放大数据资产价值。目前,公司已跟多家模型公司签署数据内容合作合同。
值得买:公司将脱敏后的消费内容和消费数据的API开放给Kimi,帮助Kimi提升在消费类问答中的表现。
中广天择:公司出售视频版权给从事大模型业务的客户。公司与万兴科技合作,利用优质版权数据赋能国内音视频生成式AI技术。
海天瑞声:在调研中,对于目前公司都在为大模型厂商提供哪些数据服务?
公司回复:目前,公司已与国内众多知名大模型厂商开展业务合作,业务范围覆盖RLHF数据评分、Prompt改写、人机多轮交互等强化学习阶段数据需求。此外,公司通过研究数据清洗技术、模型评测数据集设计技术、大模型微调与应用等,进一步将数据服务拓宽范围至预训练以及模型评测阶段。
AI语料属于数据要素,是数据要素在AI赛道中的运用。
另外,随着数据确权制度的不断完善,数据可以作为资产,计入财务报表,从而实现了对数据资源的经济价值体现。
近期,随着OpenAI停止API使用,国内AI大模型持续迭代升级,AI语料的价值越来越大。
声明:本文只做信息分享,不构成任何投资建议,市场有风险,投资需谨慎。
关注我,了解各行业内容!