master 来了，人工智能要颠覆股市？最近的alphago 貌似又火了一把，朋友圈传遍了网络棋手'master‘ 横扫中韩日三国高端职业棋士，取得了5...

最近的alphago 貌似又火了一把，朋友圈传遍了网络棋手'master‘ 横扫中韩日三国高端职业棋士，取得了50胜0负的战绩。各种夹杂着自我陶醉式的舆论，把人工智能推向了巅峰，一股‘’所有行业的终结者来了，智能永生’的势头。当然不能否认，机器学习在某些领域已经开始披荆斩棘，譬如开车，翻译，甚至各类体育赛事，想乒乓球等，但是机器学习真的能颠覆股市吗？

作为一个量化从业者，同时作为一个机器学习的学习者（虽然是个半吊子），个人也意欲在这股舆论中插上一脚。抱着不知其所以然就无法准确理解表象的精神，本篇将从alphago 如何下棋的基本算法讲起，讨论了这些算法应用的前提以及背景并且讨论了这些算法在股市上应用的局限性。在具体解释之前，先感谢一些大神。no1：网页链接 alphago 是如何思考的。no2；zouxy09 网页链接卷积神经网络的推导与实现；no3: Jeff Bradberry 网页链接蒙特卡洛搜索树。

#############本篇报告涉及的各种算法，请大家自行查找资料学习，这里不作详细介绍#####

在讨论之前，我们必须先说说围棋，在19*19的棋盘上，黑白双方在进行落子，直到最后盘面根据某种既定的判断方法，判定黑白双方的输赢。（本人不太懂围棋，大概的规则是这样的吧）。下面我们将围棋的状态进行数学化表达，围棋每条线的交叉点都有三种表达，黑棋，白旗，无棋，分别指定为（1，-1，0），棋盘的各种落子的状态（例如已经落子20个，他们分别对应的坐标等）和其他信息，我们用一个s表示整体盘面的状态，是一个361*n维度的向量。n可以为1，2，3等（当n为1的时候，就仅仅考虑了盘面所有落子的状态，各个子的坐标，当n为2的时候，可能为添加的信息，类似每个落子的时间信息等等。）。这是盘面状态，我们还得设定一个落子状态，即在这个盘面的情况下，能够落子的空间。我们同样用一个向量A来表示，A为361*1的向量。简单给一个初始设定，能落子的地方我们赋值为1，不能落子（前面有人已经下在这里了）的地方我们设定为0。（简单的初始设定）那么现在的这个下围棋的方法就转换成了一个数学求最优解的过程，就是在给定盘面状态s的情况下，寻找一个最优的对应策略A ，使得按照这个策略走之后，最后获得盘面最大。

数学方法建立好了，那么下一步就是取寻找最优解。最简单粗暴的方法就是穷尽法。反正就19*19的格子，穷尽是最能直观想到的。可是很可惜，基于指数的爆炸理论，如果假设宇宙中的每个原子就是盘面的一种状态，那么整个宇宙也无法包含所有的状态，就是多的你无法计算。那么怎么避免这个问题呢。我们选取了择中的办法。好，下一步祭出我们的大杀器，卷积神经网络。

大杀器一：卷积神经网络：

对于算法本身，我们不做过多的探讨，需要了解可以去参考大神文章zouxy09 网页链接卷积神经网络的推导与实现

基本的我们要了解，神经网络是一种分类聚类算法（其实拟合也是分类的另外一种表现）所谓的学习，不过是不断的数据导入中调整参数的过程（个人理解，可随便喷）。了解了基本的。我们在继续上面的下棋方法，既然不能穷尽所有的盘面情况，那么我们能不能找到其他的择中方法。首先的想到的是人类的下棋方法。Alphago 创始人之一，黄士杰先生收集了网络上的不同人对弈的棋局。好，将棋局和我们的盘面状态s 以及落子A进行对应。黄先生收集了大约有3000万个样本，然后使用卷积神经网络对样本进行分类，分类目标就是下一步落子的状态A，通过大量的数据进行试验，我们相应的会得到在每一个状态S的情况下，人类选手下一步落子的向量A（当然内部的惩罚机制，使得最后赢的落子的频数或者概率越大）。

这些做成以后，我们就得到了一个模拟人类高手的下棋策略函数p_human，根据这个函数，我们知道人类高手在盘面为S的状态下，落子在各个点的概率向量A。

图是盗的，侵删啊。白子上面的绿色表示的时，人类选手落在每个点的概率。这个策略每次都选择概率最大的那一步。

这种逻辑思想是不是很接近人类的学习模式啊，我们都是在不同的学习别的棋局，然后调整自己的落子情况。但是这个算法的结果怎么样呢，结果不咋地，业余6段的水平。

大杀器二，蒙特卡洛搜索树

复杂的蒙特卡洛搜索树的定义我们不说，大家可以简单的认为，蒙特卡洛就是按照既定的概率矩阵随机打点，搜索树就是后面的点是在前面的基础上打的（譬如我们下棋时，刚刚打了一个点在天元，那么下一步就不能打在天元了，因为已经被人占了）。

那么蒙特卡洛搜索树是如何下棋的呢。首先假设两个2B都在下棋，他们什么棋数套路都不懂，只知道输赢的规则。他们都在胡乱下，下呀下，下到最后，总会有结果.要么A赢，要么B赢，要么平局。这里呢，我们在设定一个得分机制，如果赢了，我们就将他每一步的得分在前一个得分的情况下加上1。好，一次模拟结束，我们在进行下一次模拟，然而这一次对弈，我们就不想刚才那么sb了，我们知道开局时，我下在上局下的那个点的概率更大一下，所以随机打点时，就更加偏向于上次的点。就这样下过10万盘后，在某个盘面s，我们会得到下在每个点的赢的概率。大致的蒙特卡洛想法是这样的。

从这里我们也可以看出，对弈双发势均力敌的重要性，如果一方很强，一方很弱，那么弱的一方永远没有正反馈，那么其正参数会一致无法更新，由于另一方是一个类似无穷的大黑洞，所有其参数调整极度缓慢。

大杀器三：状态评价函数

什么叫状态评价函数。简单的解释就是，对于每个盘面我都会有一个评价，对于有些盘面我已经基本判定稳赢了。那么久不需要去进行下面的复杂计算。对于评价函数的参数调整，一个根据现有人为的对弈棋局进行概率拟合，另外一个就是根据蒙特卡洛搜索树进行对弈来进行对弈概率的拟合。

三个大杀器解释完了。那么我们要来看看这些大杀器是否对于我们的股市也同样适用呢。（个人评价，也许是本人功力不够，随便喷）

1 卷积神经网络。肯定能用的，分类聚类算法而已。对于股市的的某些特征聚类分类肯定也是可以用的，关键问题是拿哪些东西来分类。下棋我们可以对落子点A进行分类，股市呢？对价格进行分类？呵呵呵呵

2 蒙特卡洛搜索树。这种随机打点貌似没法用。首先股市的所有信息都只有这么多，而且很多信息不全。第二，周期是个永恒的问题。围棋到棋盘都下满，总会有个结果。而股市什么时候是个头，当然可以定个固定个周期。每次到周期结束，我们假设这次操作的盈亏。但是中间的某处可能会承受损失；第三，股市无法重复，我们无法像重复围棋一样，每次都推到重来，而且每次条件都一样。也许你可以假设每天做一次重复，但是每次重复的条件是一样的吗？当然不可能，点位，成交量，国际经济形势，周遭环境，人的心境都是不一样的。无法完全均等的重复。

3 状态评价函数。这个当然可以用，而且是现在择时研究的重要内容。如何判断大盘的当前的状态。当然你也可以通过固定周期，通过某些维度的函数来进行拟合。但是准确嘛，各有各的说法吧。

综上所述，三大神器能够用到的也许就是卷积神经网络了（其他的个人不知道怎么用），可以进行参数的调整以使分类更加的准确。但是如果真的百发百中，我怎么没有看到赚到所有钱的基金公司呢。 在综上所述，在无穷维度，并且无法完全重复的多人博弈环境中，这三大神器也许并没有我们想象的那么有用。

@今日话题 @江涛 @没干货不废话 @沈潜 @方舟88 $上证指数(SH000001)$ $深证成指(SZ399001)$ $创业板指(SZ399006)$
欢迎转载，标明作者

master 来了，人工智能要颠覆股市？

作者：量化小王子

全部讨论