中文预料数据库重新估值 3月20日，谷歌因未遵守与新闻出版商的真诚谈判协议，未经通知监管机构或出版商使用新闻内容训练其AI聊天机器人 Gem...

3月20日，谷歌因未遵守与新闻出版商的真诚谈判协议，未经通知监管机构或出版商使用新闻内容训练其AI聊天机器人 Gemini，被法国监管机构罚款2.5亿欧元。此事突显出即使是大型科技公司，也需要合法合规地获取优质语料数据来训练其AI模型，暗示拥有核心版权的中文大模型训练厂商可能面临价值重估。

推荐：博彦科技和人民网

逻辑驱动：chatgpt正常运行需要大量的算力和数据。算力成本很高，同样数据成本也很高。

算力已经炒过。后面市场会怎么炒，就很明显了。一定会延伸到数据，ai计算需要啥数据呢？专业术语叫语料。就是喂给程序进行分析计算的原材料。互联网上很多文字资料，但是却不能使用，原因是因为质量不高。训练需要高质量的语料才能训练出好的回答结果，OpenAI最开始就因为使用互联网公开数据训练出的回答出现大量脏话。高质量就需要人工审核整理出一个很大的数据库。就叫做语料库

为什么看好中文语料呢？两点原因：

1.chatgpt如果要把中文回答做好，就需要大量高质量的中文语料。

2.国内跟随做类似chatgpt的大厂（百度，360，字节，阿里，腾讯.....），也需要优质中文语料。

重点就是：寻找具有高质量中文语料的公司。推荐两只票在下面。

注：三天前我的上一篇文章早于市场预测了GPU。推荐的三支票也是：两个10cm，一个15cm，一个20cm 链接：《ChatGPT第一大分支：GPU是核心算力，经济日报：夯实人工智能算力底座》网页链接

只做低位逻辑分析！！！

中文预料数据库重新估值

作者：直捣黄龙止