回复@滑雪特: 训练大模型确实有使用大而全但质量不确定的语料这一步,但也有使用高质量语料sft的步骤…关注大逻辑就完了,非专业人士去找里面的bug没啥用//@滑雪特:回复@刘志超:不知有没有朋友玩过或看过赛博朋克2077,现在的ai生态非常像游戏环境里的黑墙入侵。互联网上已经混入了大量ai生成的无效语料。这些语料很可能又被当做素材库去训练成逻辑性更差的语料。这种“迭代”有意义吗?至少现在看来,互联网作为知识库的功能,在gpt时代以来效率和准确性是明显下降的