发布于: Android转发:0回复:0喜欢:0
原理部分提到的贝尔曼方程,实际上就是最优控制或者强化学习的基础部分,即使是十年前深度强化学习刚刚发展的时候,也直接完成了用深度神经网络对Q函数的近似和训练,阿尔法go也是这么用的。所以,如果原理就是这个的话,感觉完全就是小作文,没有提供信息,而且显得作者很外行。
引用:
2024-03-08 18:07
讲一件有点恐怖的事。
最近硅谷曝出一份54页的内部文件,揭露了去年导致OpenAI宫斗、Altman差点离职的超神秘项目——Q*(Q Star)。
根据该文件显示,Q*多模态大模型拥有125万亿个参数,比现有GPT-4多60倍,而人脑有800-1000亿个神经元、100万亿个突触,也就是说,Q*是完全比对人脑智慧设...