发布于: Android转发:0回复:1喜欢:0
可能也有一部分是训练数据集的原因吧,国外很多高质量的开源数据集中存在不适合国内合规,大数据集人工清理不太现实,关键词等方式不够安全。只能使用国内开源数据集加公司自有数据,质量相对低一些。
我自己微调开源模型的时候发现我精选出来的6000条高质量数据训练出来的模型比28万条同类但质量低一些的数据训练出来的应用效果要好的多。
引用:
2023-12-07 09:05
这验证了我半年前的观点:中国大语言模型AI的落后,不在算力,而在技术(相关算法等)。目前多家公司的大语言模型尚未达到OpenAI的GPT3.5版的能力,距离GPT4更远,但国内公司用于训练的算力,比OpenAI当初训练GPT3.5时要强很多。
$腾讯控股(00700)$ $百度(BIDU)$ $微软(MSFT)$

全部讨论

2023-12-08 07:12

用某特定领域数据业余训练着玩的,不是专业,所以也不知道行业内的真实原因,纯瞎猜~