发布于: iPhone转发:0回复:1喜欢:0
回复@拉普拉斯的老妖: 你这观点out of date了,甲骨文和IBM里存的是关系型数据,是结构化的,这些对最新的LLM的大模型的预训练基本没用,而且它们的数据不是掌握在他们手里的,是他们的客户的(读取客户业务数据肯定是违规的)。
LLM预训练跟我们从小读书是类似的,就是四书五经,圣经,四大名著,高等数学,企业年报,雪球文章这些著作,通过文字接龙(GPT派)和完形填空(BERT派)等方式学习到模型参数里,而且绝大多数都是互联网上公开可以查到的书籍和文档。
只有基于预训练模型做SFT,做私域领域知识的学习和搜索增强(RAG),才会需要一些个性化的业务数据(比如雪球网站的代码,比如做T的交易记录,比如方丈写给师太的未公开的情书,等等)[狗头]//@拉普拉斯的老妖:回复@Cadillac的碎片哥:不懂,印象中数据库是甲骨文、IBM的做得比较好
引用:
2024-05-14 09:53
机器学习要数据源吧。你无论GPT还是羊驼。没有数据库都是白费劲。
那么问题来了,A股有哪些股票掌握数据库,掌握数据源。
各位的持股中数据含量多少?
哈哈懂的都懂。

全部讨论

奇奇怪怪的知识又更新了