watchor 的讨论

作者：watchor

发布于:2018-06-01 20:15

雪球

回复：0

喜欢：0

那怎么解释alpha go zero不学棋谱，自己和自己下，最后远超过alpha go。
我看到的资料大意是说，根据围棋的特点和影响胜负的因素设计了一个或几个决策矩阵，然后通过训练学习来优化矩阵中每一项的权重。alpha go用了人类的棋谱学习，但alpha zero就完全没学人类的棋谱，而是通过自己和自己下的结果来训练优化决策矩阵，没几天就超过alpha go了。