更大的担忧是,生成式AI产生的内容正在污染未来系统训练的数据集,威胁到一些人所说的“模型崩溃”。生成式AI在知识库中添加更多不完美的信息和故意的虚假信息,使互联网进一步“enshittification”(垃圾化),这意味着经过训练后的AI会输出更多废话。$英伟达(NVDA)$ $C3.ai(AI)$ $Adobe(ADBE)$
所以训练数据最好 全是出版物,利好数据确权