AI语料概念梳理,新兴技术背后的投资机会

发布于: 雪球转发:0回复:0喜欢:1

1

事件驱动

训练AI大模型需要大量的AI语料,目前国内存量数据资源丰富,但由于数据挖掘不足、无法自由在市场上流通等现状,中文优质数据仍然稀缺,AI语料相关企业受到广泛关注。

美光业绩超预期,且在业绩交流会中管理层披露公司HBM供不应求,并对存储行业未来趋势给出乐观指引

2

相关概念股梳理

文本语料:

掌阅科技公司在文学和阅读领域的版权储备业内领先,这些中文语料可以用于网文行业垂类模型训练。

读客文化公司已与包括全球四大版在内的数十家版权代理公司保持着长期稳定的合作关系。

新华传媒公司旗下所属有《财联社》《澎湃》等30多个知名媒10体平台,拥有全领域全方位的高质量已标注语料库。

中原传媒公司将成为国内首家与OpenAl达成间接合作的出版社。

中文在线公司深耕文化数字产业,拥有海量的正版中文数据资源,数据总量超过60TB。

荣信文化公司覆盖了少儿科普百科、卡通/漫画绘本、少儿文学等多个少儿图书领域。

中国出版公司拥有大量优质图书的版权,以及一批著名作者的多介质版权。

中信出版公司出版领域涵盖主题出版、经济与管理、少儿、文学、传记、艺术等主要图书品类。

中国科传:公司主要布局了专业学科知识库、数字教育云服务、医疗健康大数据、期刊融合平台四大方向。

果麦文化公司已积累了包含四千多种经典图书的数据库,其中已开发或正在开发的近千种。

华策影视:公司是国内影视制作龙头企业影视剧版权数量扩充至超5万小时,构建中国最大的影视素材运营平台。

视频语料

中广天择近期公司已经与万兴天幕大模型签订战略合作协议,并达成视频语料方向的战略合作。

上海电影:上美影拥有600多部动画作品,上影制片厂拥有800多亿部故事片、800多部电视剧资源。

捷成股份公司是国内影视剧版权运营龙头,目前拥有新媒体电图形语料影版权4803部。

视觉中国:集团拥有近万名签约摄影师和艺术家,并同海内外数金融语料百家图片社、影视机构、版权机构广泛合作。

同花顺公司自研的问财HithinkGPT大模型,预训练金融语料达到万亿级tokens。

消费语料

汇纳科技公司自成立之初即致力于线下消费行为数据分析,旨在“成为中国最大的线下消费数据提供商”。

值得买:公司基于通用模型,利用自身有特色的数据资源和语料库,自研了值得买消费大模型.

医学语料

贝瑞基因公司年产出的基因数据量已超过PB级,已建立几一种科研服务细分产品类型。

卓创资讯公司是专注于大宗商品市场数据监测,交易价格评估、行业数据分析及行业研究的专业服务提供商。

语料大宗商品

上海钢联公司使用内部的数据库结构和业务逻辑来训练大模型,使其能够识别和查询所需的数据。

生意宝2023半年报披露生意社平台可以提供大宗商品价格大数据#AI智能谁称王# #语料#