watchor 的讨论

发布于: 雪球回复:0喜欢:0
那怎么解释alpha go zero不学棋谱,自己和自己下,最后远超过alpha go。
我看到的资料大意是说,根据围棋的特点和影响胜负的因素设计了一个或几个决策矩阵,然后通过训练学习来优化矩阵中每一项的权重。alpha go用了人类的棋谱学习,但alpha zero就完全没学人类的棋谱,而是通过自己和自己下的结果来训练优化决策矩阵,没几天就超过alpha go了。