可能也有一部分是训练数据集的原因吧，国外很多高质量的开源数据集中存在不适合国内合规，大数据集人工清理不太现实，关键词等方...

作者：韭菜牛的小钱

发布于:2023-12-08 07:09

Android

转发：0

回复：1

喜欢：0

可能也有一部分是训练数据集的原因吧，国外很多高质量的开源数据集中存在不适合国内合规，大数据集人工清理不太现实，关键词等方式不够安全。只能使用国内开源数据集加公司自有数据，质量相对低一些。
我自己微调开源模型的时候发现我精选出来的6000条高质量数据训练出来的模型比28万条同类但质量低一些的数据训练出来的应用效果要好的多。

引用：

2023-12-07 09:05

这验证了我半年前的观点：中国大语言模型AI的落后，不在算力，而在技术（相关算法等）。目前多家公司的大语言模型尚未达到OpenAI的GPT3.5版的能力，距离GPT4更远，但国内公司用于训练的算力，比OpenAI当初训练GPT3.5时要强很多。
$腾讯控股(00700)$ $百度(BIDU)$ $微软(MSFT)$

全部讨论

韭菜牛的小钱

2023-12-08 07:12

用某特定领域数据业余训练着玩的，不是专业，所以也不知道行业内的真实原因，纯瞎猜~