2
相关概念股梳理
文本语料:
掌阅科技:公司在文学和阅读领域的版权储备业内领先,这些中文语料可以用于网文行业垂类模型训练。
读客文化:公司已与包括全球四大版在内的数十家版权代理公司保持着长期稳定的合作关系。
新华传媒:公司旗下所属有《财联社》《澎湃》等30多个知名媒10体平台,拥有全领域全方位的高质量已标注语料库。
中原传媒:公司将成为国内首家与OpenAl达成间接合作的出版社。
中文在线:公司深耕文化数字产业,拥有海量的正版中文数据资源,数据总量超过60TB。
荣信文化:公司覆盖了少儿科普百科、卡通/漫画绘本、少儿文学等多个少儿图书领域。
中国出版:公司拥有大量优质图书的版权,以及一批著名作者的多介质版权。
中信出版:公司出版领域涵盖主题出版、经济与管理、少儿、文学、传记、艺术等主要图书品类。
中国科传:公司主要布局了专业学科知识库、数字教育云服务、医疗健康大数据、期刊融合平台四大方向。
果麦文化:公司已积累了包含四千多种经典图书的数据库,其中已开发或正在开发的近千种。
华策影视:公司是国内影视制作龙头企业影视剧版权数量扩充至超5万小时,构建中国最大的影视素材运营平台。
视频语料
中广天择:近期公司已经与万兴天幕大模型签订战略合作协议,并达成视频语料方向的战略合作。
上海电影:上美影拥有600多部动画作品,上影制片厂拥有800多亿部故事片、800多部电视剧资源。
捷成股份:公司是国内影视剧版权运营龙头,目前拥有新媒体电图形语料影版权4803部。
视觉中国:集团拥有近万名签约摄影师和艺术家,并同海内外数金融语料百家图片社、影视机构、版权机构广泛合作。
同花顺:公司自研的问财HithinkGPT大模型,预训练金融语料达到万亿级tokens。
消费语料
汇纳科技:公司自成立之初即致力于线下消费行为数据分析,旨在“成为中国最大的线下消费数据提供商”。
值得买:公司基于通用模型,利用自身有特色的数据资源和语料库,自研了值得买消费大模型.
医学语料
贝瑞基因:公司年产出的基因数据量已超过PB级,已建立几一种科研服务细分产品类型。
卓创资讯:公司是专注于大宗商品市场数据监测,交易价格评估、行业数据分析及行业研究的专业服务提供商。
语料大宗商品
上海钢联:公司使用内部的数据库结构和业务逻辑来训练大模型,使其能够识别和查询所需的数据。