原理部分提到的贝尔曼方程，实际上就是最优控制或者强化学习的基础部分，即使是十年前深度强化学习刚刚发展的时候，也直接完成了...

作者：萧观澜

发布于:2024-03-09 02:23

Android

转发：0

回复：0

喜欢：0

原理部分提到的贝尔曼方程，实际上就是最优控制或者强化学习的基础部分，即使是十年前深度强化学习刚刚发展的时候，也直接完成了用深度神经网络对Q函数的近似和训练，阿尔法go也是这么用的。所以，如果原理就是这个的话，感觉完全就是小作文，没有提供信息，而且显得作者很外行。

引用：

2024-03-08 18:07

讲一件有点恐怖的事。
最近硅谷曝出一份54页的内部文件，揭露了去年导致OpenAI宫斗、Altman差点离职的超神秘项目——Q*（Q Star）。
根据该文件显示，Q*多模态大模型拥有125万亿个参数，比现有GPT-4多60倍，而人脑有800-1000亿个神经元、100万亿个突触，也就是说，Q*是完全比对人脑智慧设...