回复@拉普拉斯的老妖: 你这观点out of date了，甲骨文和 IBM 里存的是关系型数据，是结构化的，这些对最新的...

发布于:2024-05-14 11:59

iPhone

转发：0

回复：1

喜欢：0

回复@拉普拉斯的老妖: 你这观点out of date了，甲骨文和IBM里存的是关系型数据，是结构化的，这些对最新的LLM的大模型的预训练基本没用，而且它们的数据不是掌握在他们手里的，是他们的客户的（读取客户业务数据肯定是违规的）。
LLM预训练跟我们从小读书是类似的，就是四书五经，圣经，四大名著，高等数学，企业年报，雪球文章这些著作，通过文字接龙（GPT派）和完形填空（BERT派）等方式学习到模型参数里，而且绝大多数都是互联网上公开可以查到的书籍和文档。
只有基于预训练模型做SFT，做私域领域知识的学习和搜索增强（RAG），才会需要一些个性化的业务数据（比如雪球网站的代码，比如做T的交易记录，比如方丈写给师太的未公开的情书，等等） [狗头]

//@拉普拉斯的老妖:回复@Cadillac的碎片哥:不懂，印象中数据库是甲骨文、IBM的做得比较好

引用：

2024-05-14 09:53

机器学习要数据源吧。你无论GPT还是羊驼。没有数据库都是白费劲。
那么问题来了，A股有哪些股票掌握数据库，掌握数据源。
各位的持股中数据含量多少？
哈哈懂的都懂。

全部讨论

拉普拉斯的老妖

05-14 13:50

奇奇怪怪的知识又更新了

作者：量化投机者

引用：

全部讨论