中文预料数据库重新估值

发布于: iPhone转发:0回复:0喜欢:0

3月20日,谷歌因未遵守与新闻出版商的真诚谈判协议,未经通知监管机构或出版商使用新闻内容训练其AI聊天机器人 Gemini,被法国监管机构罚款2.5亿欧元。此事突显出即使是大型科技公司,也需要合法合规地获取优质语料数据来训练其AI模型,暗示拥有核心版权的中文大模型训练厂商可能面临价值重估。

推荐:博彦科技和人民网

逻辑驱动:chatgpt正常运行需要大量的算力和数据。算力成本很高,同样数据成本也很高。

算力已经炒过。后面市场会怎么炒,就很明显了。一定会延伸到数据,ai计算需要啥数据呢?专业术语叫语料。就是喂给程序进行分析计算的原材料。互联网上很多文字资料,但是却不能使用,原因是因为质量不高。训练需要高质量的语料才能训练出好的回答结果,OpenAI最开始就因为使用互联网公开数据训练出的回答出现大量脏话。高质量就需要人工审核整理出一个很大的数据库。就叫做语料库

为什么看好中文语料呢?两点原因:

1.chatgpt如果要把中文回答做好,就需要大量高质量的中文语料。

2.国内跟随做类似chatgpt的大厂(百度,360,字节,阿里腾讯.....),也需要优质中文语料。

重点就是:寻找具有高质量中文语料的公司。推荐两只票在下面。

注:三天前我的上一篇文章早于市场预测了GPU。推荐的三支票也是:两个10cm,一个15cm,一个20cm 链接:《ChatGPT第一大分支:GPU是核心算力,经济日报:夯实人工智能算力底座》 网页链接

只做低位逻辑分析!!!