AI语料:AI赛道中的卖水人!

发布于: 雪球转发:0回复:7喜欢:7

俗话说,淘金不如卖水。

AI语料就属于AI赛道中的卖水人。

AI语料,是用于训练和优化AI大模型的数据集合。

6月28日消息,OpenAI与《时代》达成合作协议,可用其杂志内容训练ChatGPT。

通过此次合作,OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容,以增强其产品并响应用户查询。

其实,在去年OpenAI刚火的时候,A股第一支领涨的AI概念股,是做AI数据训练(AI语料)的海天瑞声,2月和3月合计涨幅最高达300%,之后才是中际旭创剑桥科技这些算力大牛股。

什么是AI语料?

AI语料,通常指的是用于训练人工智能系统,特别是自然语言处理系统的数据集。这些数据集包含了大量的文本、视频、语音、对话记录等。

AI语料的目的是让机器学习算法通过这些文本数据来学习语言的模式、语法规则、词汇使用等,从而提高AI系统理解和生成自然语言的能力。

AI语料的应用非常广泛,像机器翻译、语音识别、情感分析、聊天机器人、文本摘要、自动问答系统等。通过不断优化和扩充语料库,提高AI的准确性和效率。

随着国内大模型的持续升级,对AI语料需求增加。


AI语料相关企业:

视频语料:中广天择华策影视、上海电影

文本语料:中文在线读客文化同方股份掌阅科技中国科传中国出版中信出版

图片语料:视觉中国

新闻语料:人民网、新华网

大宗商品语料:上海钢联卓创资讯生意宝

消费语料:值得买、汇纳科技

医学语料:贝瑞基因朗玛信息

训练数据语料:海天瑞声

教育语料:科大讯飞世纪天鸿

金融语料:同花顺东方财富、财富趋势


目前国内一些AI语料企业,已经开始把内容卖给大模型公司,或与大模型公司合作训练。

中文在线根据中文在线的年报内容,中文在线拥有超过60TB的正版数据,含文字/音频/视频多种类型,覆盖小说、科普、社会等多个品类,通过文学网站和驻站作者持续更新数据,通过完备的数据保护和版权保护体系放大数据资产价值。目前,公司已跟多家模型公司签署数据内容合作合同。


值得买:公司将脱敏后的消费内容和消费数据的API开放给Kimi,帮助Kimi提升在消费类问答中的表现。

中广天择:公司出售视频版权给从事大模型业务的客户。公司与万兴科技合作,利用优质版权数据赋能国内音视频生成式AI技术。

海天瑞声:在调研中,对于目前公司都在为大模型厂商提供哪些数据服务?

公司回复:目前,公司已与国内众多知名大模型厂商开展业务合作,业务范围覆盖RLHF数据评分、Prompt改写、人机多轮交互等强化学习阶段数据需求。此外,公司通过研究数据清洗技术、模型评测数据集设计技术、大模型微调与应用等,进一步将数据服务拓宽范围至预训练以及模型评测阶段。

AI语料属于数据要素,是数据要素在AI赛道中的运用。

另外,随着数据确权制度的不断完善,数据可以作为资产,计入财务报表,从而实现了对数据资源的经济价值体现。

近期,随着OpenAI停止API使用,国内AI大模型持续迭代升级,AI语料的价值越来越大。


声明:本文只做信息分享,不构成任何投资建议,市场有风险,投资需谨慎。

关注我,了解各行业内容!

$中文在线(SZ300364)$ $中文在线(SZ300364)$ $海天瑞声(SH688787)$

全部讨论

黑体字那个消息出处是哪?