发布于: iPhone转发:13回复:21喜欢:101
AI语料---泛传媒股票的业绩爆发年(0324)
事件催化:1.open AI2023年12月和全球出版巨头Axel Springer合作,Open AI为后者的内容支付数亿人民币,同时open AI对于springer数据的引用也为springer带来广告流量和订阅收入;2.美股reddit2024年靠出售对话数据和知识库收入5亿人民币左右;3.谷歌因未经允许使用出版商内容罚款近20亿美元;4.这周末大热的国产大模型公司阶越星辰为训练其多模态大模型而向中广天择购买某个视频库,交易金额3千万以上(具体金额未披露)。由此,我们确信,去年AI浪潮下,传媒板块特别是出版公司的IP兑现为业绩的逻辑正在实现。
国内百模大战,最终赢家大概率是多模态公司,即便这周大热的kimi充其量也只是文本垂直大模型,但是随之而来,百度阿里,阶越和360等马上发布自己的长文本LLM,说明长文本只有先发优势并没有太深的护城河。反观Sora,Dalle等多模态LLM显示了极高的壁垒,进展也是非常缓慢。文本只是LLM的早期阶段,LLM对于多模态的理解和生成才是这一阶段LLM们竞争的主赛道,也是能兑现业绩,产生海量收入的阶段。也许今年下半年,我们就可以看到一些真正的爆款多模态应用,比如这周末发酵的AI音乐Sunno,毕竟谁心中没个艺术家的梦呢?说的有点远了。那么国内LLM公司们若想要在当前多模态赛道中不被落下,各种语料的堆叠必不可少。
语料总体分为文本,图片和视频三大类语料数据;因为这也是人类理解世界表达世界的三种主要模式。假设今明两年,百模大战中有3成公司愿意为多模态语料付费,3成公司中假设只有10家左右愿意为视频库付费,我们以中广天择已经落地的某个视频语料库为例,保守按照3千万来算,单单某个视频语料库就能产生3亿收入,这3亿就是纯利润!中广旗下还有万集以上电视剧版权,那还能产生多少利润?计算器都按冒烟了吧?而中广只是A股泛传媒公司的其中一个。更不用说这周末满天飞的小表格了。市场可能也会担心这种版权销售对公司业绩的提升是一次性收入,哪怕是一次性,版权公司短期也是要翻好几倍体量的市值才能匹配。君不见英科九安医疗?因此今年,只要多模态进度加快,多模态公司军备竞争激烈,泛传媒公司一定有令人目瞪口呆的大行情!行情路径推断如下:
第一步,情绪阶段。也就是当下阶段。市场会推崇已经有实际业务落地或正在接洽的公司,比如中广天择,走海外逻辑的中原传媒(中原传媒旗下大象出版社是Springer版权提供商之一,和Open AI达成间接合作)
第二步,按计算器阶段。一旦某种语料形成定价,市场会自发计算泛传媒公司手上的版权ip价值多少,从而进行炒作。这一阶段比拼的是版权数量的多寡。比如图片版权,A股最多的应该就是视觉中国了。
第三步,其实一般炒到第二步就差不多了。第三步可能会炒作一些实时更新的数据公司,因为这些公司的行业数据每天更新,而且大多要付费。所以大模型公司要引用这些公司的数据除了支付旧数据费用,还需要为每天更新的行业数据支付费用,当然可能也会采取合作,广告引流等模式。
综上,俗气一点的说:今年传媒的行情是星辰大海,目前只是扬帆启航。
“语料库”指的是用于训练人工智能的文本库或数据集合,使其变得智能的材料。
如果没有语料库来训练AI,AI就无法学习。你的语料库越大,人工智能就会变得越熟练、越聪明。但当涉及版权和知识产权法时,人工智能语料库可能非常漏洞百出。
【文本语料】
掌阅科技:主要产品或服务为包括掌阅APP、掌阅文学、掌阅精选、掌阅课外书、掌阅国际版、iReader阅读器等;
中文在线:公司深耕文化数字产业20余年,公司以内容为基石,积累了海量正版数字内容资源,目前拥有数字内容资源超460万种,驻站作者390万人;与600余家版权机构合作,签约知名作家、畅销书作者2,000余位。
中国科传:公司是目前国内拥有科技图书和期刊内容资源最多的出版单位之一;
中国出版:中国出版集团旗下,主营图书、报刊、电子音像等出版物出版;
中信出版:具有国家新闻出版总署颁发的出版、发行、零售全牌照,现拥有授权期内各类版权和P储备超过1.6万种;
读客文化:国内各大数字阅读平台的战略合作伙伴和重要内容供应商;
【视频语料】
华策影视:国内影视制作龙头企业;
中广天择:全媒体优质视频内容提供商,万兴科技正式宣布与长沙广电国有控股上市公司中广天择达成战略合作;
【图片语料】
视觉中国:公司拥有数以亿计的专业级且获版权许可的优质图片、视频音乐素材,是市场上少有的高质量素材的图像库之一;
【金融语料】
同花顺:中国金融信息服务业第一家上市公司,移动互联网证券第三方平台龙头,股票 APP月活量超东方财富和大智慧之和,业内最完整的互联网金融产品公司之一;
大宗商品语料】
上海钢联:大宗商品及相关产业数据服务商,作为独立的第三方机构,提供以价格为核心的围绕价格波动的多维度数据。为全球客户提供产业数据服务;
卓创资讯:国内领先的大宗商品信息服务企业,是专注于大宗商品市场数据监测、交易价格评估及行业数据分析、行业深度研究的专业服务提供商;
【消费语料】
值得买:集导购、媒体、工具、社区属性为一体的消费领域门户型网站服务平台;
汇纳科技:公司积累的实体商业数字底座包含大量线下商业客流等大数据资源,可为AIGC(利用人工智能生成内容)领域的各类模型训练提供高质量数据资源。
【航运语料】
中远海科:船视宝系列产品已汇聚全球约24万艘商船290亿条船位数据,覆盖全球5000余个港口、4万多个泊位,识别动态数据6000多万条,开放API接口650个左右,累计调用近4亿次;
【医学语料】
贝瑞基因:CNVisi利用人工智能深度学习算法,挖掘20+权威公共数据库、百万自有CNV大数据以及20多万份CNV-seq临床实践报告;
$中广天择(SH603721)$ $中原传媒(SZ000719)$ $华策影视(SZ300133)$

精彩讨论

niushy603-25 05:51

【20亿语料版权人工智能时代,语料数据版权价值越来越大:谷歌大模型将向法国的出版商支付使用版权数据进行训练的20亿版权费用】,“因为语料数据一直在持续更新、扩张,因此大模型想要持续进步就必须获得持续更新扩张的语料数据输入,所以语料数据就享有持续获得版权收入的巨大优势,这是垄断的实打实的长期收入。”

niushy603-25 06:54

【人工智能的持续输入:持续更新扩张的语料】“如前文所言,我们认为 AI 大模型需要高质量、大规模、持续更新扩张的语料数据。对标海外主要数据集,通用类型数据来自维基百科、书籍、持续更新的期刊、高质量论坛,因此国内的数据或来自文本数据领域的百度百科、中国科传、知乎、中文在线等。
1、中国科传:是中国学科分布最全、出版规模最大的综合性科技出版机构。
截至 2022 年底,中国科传出版期刊 554 种,其中中文期刊 254 种,英文期刊 276 种,中英文期刊 5 种,法文期刊 19 种。共有 101 种期刊被 SCI 收录,其中 36 种期刊处于 Q1 区,4 种期刊在国 际同学科期刊中排名第一,16 种期刊居国际同学科期刊排名前 10%。
2、中文在线,累积数字内容资源超 510 万种,网络原创驻站作者 440 余万名。

全部讨论

改个名字都这么累03-25 09:00

我一直对版权不看好,行业爆发期就想着吸血。不利于行业发展。最终获胜的可能就是最流氓的,最不要脸的,法律团队强的公司。腾讯是一个,360是一个。

赚两盒猪脚饭03-25 08:23

不太一样,数据要素包含ai语料,ai语料偏文本数据,数据要素范围更广

爱女儿爱老婆03-25 08:12

照亮生活03-25 07:02

AI语料,传媒公司IP

niushy603-25 06:54

【人工智能的持续输入:持续更新扩张的语料】“如前文所言,我们认为 AI 大模型需要高质量、大规模、持续更新扩张的语料数据。对标海外主要数据集,通用类型数据来自维基百科、书籍、持续更新的期刊、高质量论坛,因此国内的数据或来自文本数据领域的百度百科、中国科传、知乎、中文在线等。
1、中国科传:是中国学科分布最全、出版规模最大的综合性科技出版机构。
截至 2022 年底,中国科传出版期刊 554 种,其中中文期刊 254 种,英文期刊 276 种,中英文期刊 5 种,法文期刊 19 种。共有 101 种期刊被 SCI 收录,其中 36 种期刊处于 Q1 区,4 种期刊在国 际同学科期刊中排名第一,16 种期刊居国际同学科期刊排名前 10%。
2、中文在线,累积数字内容资源超 510 万种,网络原创驻站作者 440 余万名。

niushy603-25 05:51

【20亿语料版权人工智能时代,语料数据版权价值越来越大:谷歌大模型将向法国的出版商支付使用版权数据进行训练的20亿版权费用】,“因为语料数据一直在持续更新、扩张,因此大模型想要持续进步就必须获得持续更新扩张的语料数据输入,所以语料数据就享有持续获得版权收入的巨大优势,这是垄断的实打实的长期收入。”

bitlee03-25 05:43

AI语料---泛传媒股票的业绩爆发年(0324)
事件催化:1.open AI2023年12月和全球出版巨头Axel Springer合作,Open AI为后者的内容支付数亿人民币,同时open AI对于springer数据的引用也为springer带来广告流量和订阅收入;2.美股reddit2024年靠出售对话数据和知识库收入5亿人民币左右;3.谷歌因未经允许使用出版商内容罚款近20亿美元;4.这周末大热的国产大模型公司阶越星辰为训练其多模态大模型而向中广天择购买某个视频库,交易金额3千万以上(具体金额未披露)。由此,我们确信,去年AI浪潮下,传媒板块特别是出版公司的IP兑现为业绩的逻辑正在实现。
国内百模大战,最终赢家大概率是多模态公司,即便这周大热的kimi充其量也只是文本垂直大模型,但是随之而来,百度,阿里,阶越和360等马上发布自己的长文本LLM,说明长文本只有先发优势并没有太深的护城河。反观Sora,Dalle等多模态LLM显示了极高的壁垒,进展也是非常缓慢。文本只是LLM的早期阶段,LLM对于多模态的理解和生成才是这一阶段LLM们竞争的主赛道,也是能兑现业绩,产生海量收入的阶段。也许今年下半年,我们就可以看到一些真正的爆款多模态应用,比如这周末发酵的AI音乐Sunno,毕竟谁心中没个艺术家的梦呢?说的有点远了。那么国内LLM公司们若想要在当前多模态赛道中不被落下,各种语料的堆叠必不可少。
语料总体分为文本,图片和视频三大类语料数据;因为这也是人类理解世界表达世界的三种主要模式。假设今明两年,百模大战中有3成公司愿意为多模态语料付费,3成公司中假设只有10家左右愿意为视频库付费,我们以中广天择已经落地的某个视频语料库为例,保守按照3千万来算,单单某个视频语料库就能产生3亿收入,这3亿就是纯利润!中广旗下还有万集以上电视剧版权,那还能产生多少利润?计算器都按冒烟了吧?而中广只是A股泛传媒公司的其中一个。更不用说这周末满天飞的小表格了。市场可能也会担心这种版权销售对公司业绩的提升是一次性收入,哪怕是一次性,版权公司短期也是要翻好几倍体量的市值才能匹配。君不见英科九安医疗?因此今年,只要多模态进度加快,多模态公司军备竞争激烈,泛传媒公司一定有令人目瞪口呆的大行情!行情路径推断如下:
第一步,情绪阶段。也就是当下阶段。市场会推崇已经有实际业务落地或正在接洽的公司,比如中广天择,走海外逻辑的中原传媒(中原传媒旗下大象出版社是Springer版权提供商之一,和Open AI达成间接合作)
第二步,按计算器阶段。一旦某种语料形成定价,市场会自发计算泛传媒公司手上的版权ip价值多少,从而进行炒作。这一阶段比拼的是版权数量的多寡。比如图片版权,A股最多的应该就是视觉中国了。
第三步,其实一般炒到第二步就差不多了。第三步可能会炒作一些实时更新的数据公司,因为这些公司的行业数据每天更新,而且大多要付费。所以大模型公司要引用这些公司的数据除了支付旧数据费用,还需要为每天更新的行业数据支付费用,当然可能也会采取合作,广告引流等模式。
综上,俗气一点的说:今年传媒的行情是星辰大海,目前只是扬帆启航。
“语料库”指的是用于训练人工智能的文本库或数据集合,使其变得智能的材料。
如果没有语料库来训练AI,AI就无法学习。你的语料库越大,人工智能就会变得越熟练、越聪明。但当涉及版权和知识产权法时,人工智能语料库可能非常漏洞百出。
【文本语料】
掌阅科技:主要产品或服务为包括掌阅APP、掌阅文学、掌阅精选、掌阅课外书、掌阅国际版、iReader阅读器等;
中文在线:公司深耕文化数字产业20余年,公司以内容为基石,积累了海量正版数字内容资源,目前拥有数字内容资源超460万种,驻站作者390万人;与600余家版权机构合作,签约知名作家、畅销书作者2,000余位。
中国科传:公司是目前国内拥有科技图书和期刊内容资源最多的出版单位之一;
中国出版:中国出版集团旗下,主营图书、报刊、电子音像等出版物出版;
中信出版:具有国家新闻出版总署颁发的出版、发行、零售全牌照,现拥有授权期内各类版权和P储备超过1.6万种;
读客文化:国内各大数字阅读平台的战略合作伙伴和重要内容供应商;
【视频语料】
华策影视:国内影视制作龙头企业;
中广天择:全媒体优质视频内容提供商,万兴科技正式宣布与长沙广电国有控股上市公司中广天择达成战略合作;
【图片语料】
视觉中国:公司拥有数以亿计的专业级且获版权许可的优质图片、视频音乐素材,是市场上少有的高质量素材的图像库之一;
【金融语料】
同花顺:中国金融信息服务业第一家上市公司,移动互联网证券第三方平台龙头,股票 APP月活量超东方财富和大智慧之和,业内最完整的互联网金融产品公司之一;
【大宗商品语料】
上海钢联:大宗商品及相关产业数据服务商,作为独立的第三方机构,提供以价格为核心的围绕价格波动的多维度数据。为全球客户提供产业数据服务;
卓创资讯:国内领先的大宗商品信息服务企业,是专注于大宗商品市场数据监测、交易价格评估及行业数据分析、行业深度研究的专业服务提供商;
【消费语料】
值得买:集导购、媒体、工具、社区属性为一体的消费领域门户型网站服务平台;
汇纳科技:公司积累的实体商业数字底座包含大量线下商业客流等大数据资源,可为AIGC(利用人工智能生成内容)领域的各类模型训练提供高质量数据资源。
【航运语料】
中远海科:船视宝系列产品已汇聚全球约24万艘商船290亿条船位数据,覆盖全球5000余个港口、4万多个泊位,识别动态数据6000多万条,开放API接口650个左右,累计调用近4亿次;
【医学语料】
贝瑞基因:CNVisi利用人工智能深度学习算法,挖掘20+权威公共数据库、百万自有CNV大数据以及20多万份CNV-seq临床实践报告;
$中广天择(SH603721)$ $中原传媒(SZ000719)$ $华策影视(SZ300133)$

想得玉楼瑶殿影03-25 01:44

城城AI死忠粉03-25 01:16

自由海岸03-25 01:04

没看懂,怎么就3千万了,怎么就3千万到3个亿了?
印钞机?