master 来了,人工智能要颠覆股市?

发布于: 修改于: 雪球转发:37回复:101喜欢:253

       最近的alphago 貌似又火了一把,朋友圈传遍了网络棋手'master‘ 横扫中韩日三国高端职业棋士,取得了50胜0负的战绩。各种夹杂着自我陶醉式的舆论,把人工智能推向了巅峰,一股‘’所有行业的终结者来了,智能永生’的势头。当然不能否认,机器学习在某些领域已经开始披荆斩棘,譬如开车,翻译,甚至各类体育赛事,想乒乓球等,但是机器学习真的能颠覆股市吗?

       作为一个量化从业者,同时作为一个机器学习的学习者(虽然是个半吊子),个人也意欲在这股舆论中插上一脚。抱着不知其所以然就无法准确理解表象的精神,本篇将从alphago 如何下棋的基本算法讲起,讨论了这些算法应用的前提以及背景并且讨论了这些算法在股市上应用的局限性。在具体解释之前,先感谢一些大神。no1:网页链接 alphago 是如何思考的。no2;zouxy09   网页链接 卷积神经网络的推导与实现;no3: Jeff Bradberry  网页链接 蒙特卡洛搜索树。

#############本篇报告涉及的各种算法,请大家自行查找资料学习,这里不作详细介绍#####

        在讨论之前,我们必须先说说围棋,在19*19的棋盘上,黑白双方在进行落子,直到最后盘面根据某种既定的判断方法,判定黑白双方的输赢。(本人不太懂围棋,大概的规则是这样的吧)。下面我们将围棋的状态进行数学化表达,围棋每条线的交叉点都有三种表达,黑棋,白旗,无棋,分别指定为(1,-1,0),棋盘的各种落子的状态(例如已经落子20个,他们分别对应的坐标等)和其他信息,我们用一个s表示整体盘面的状态,是一个361*n维度的向量。n可以为1,2,3等(当n为1的时候,就仅仅考虑了盘面所有落子的状态,各个子的坐标,当n为2的时候,可能为添加的信息,类似每个落子的时间信息等等。)。这是盘面状态,我们还得设定一个落子状态,即在这个盘面的情况下,能够落子的空间。我们同样用一个向量A来表示,A为361*1的向量。简单给一个初始设定,能落子的地方我们赋值为1,不能落子(前面有人已经下在这里了)的地方我们设定为0。(简单的初始设定)那么现在的这个下围棋的方法就转换成了一个数学求最优解的过程,就是在给定盘面状态s的情况下,寻找一个最优的对应策略A ,使得按照这个策略走之后,最后获得盘面最大。

       数学方法建立好了,那么下一步就是取寻找最优解。最简单粗暴的方法就是穷尽法。反正就19*19的格子,穷尽是最能直观想到的。可是很可惜,基于指数的爆炸理论,如果假设宇宙中的每个原子就是盘面的一种状态,那么整个宇宙也无法包含所有的状态,就是多的你无法计算。那么怎么避免这个问题呢。我们选取了择中的办法。好,下一步祭出我们的大杀器,卷积神经网络。

大杀器一:卷积神经网络:

对于算法本身,我们不做过多的探讨,需要了解可以去参考大神文章zouxy09 网页链接 卷积神经网络的推导与实现

      基本的我们要了解,神经网络是一种分类聚类算法(其实拟合也是分类的另外一种表现)所谓的学习,不过是不断的数据导入中调整参数的过程(个人理解,可随便喷)。了解了基本的。我们在继续上面的下棋方法,既然不能穷尽所有的盘面情况,那么我们能不能找到其他的择中方法。首先的想到的是人类的下棋方法。Alphago 创始人之一,黄士杰先生收集了网络上的不同人对弈的棋局。好,将棋局和我们的盘面状态s 以及落子A进行对应。黄先生收集了大约有3000万个样本,然后使用卷积神经网络对样本进行分类,分类目标就是下一步落子的状态A,通过大量的数据进行试验,我们相应的会得到在每一个状态S的情况下,人类选手下一步落子的向量A(当然内部的惩罚机制,使得最后赢的落子的频数或者概率越大)。

        这些做成以后,我们就得到了一个模拟人类高手的下棋策略函数p_human,根据这个函数,我们知道人类高手在盘面为S的状态下,落子在各个点的概率向量A。

       图是盗的,侵删啊。白子上面的绿色表示的时,人类选手落在每个点的概率。这个策略每次都选择概率最大的那一步。

      这种逻辑思想是不是很接近人类的学习模式啊,我们都是在不同的学习别的棋局,然后调整自己的落子情况。 但是这个算法的结果怎么样呢,结果不咋地,业余6段的水平。

大杀器二 ,蒙特卡洛搜索树

       复杂的蒙特卡洛搜索树的定义我们不说,大家可以简单的认为,蒙特卡洛就是按照既定的概率矩阵随机打点,搜索树就是后面的点是在前面的基础上打的(譬如我们下棋时,刚刚打了一个点在天元,那么下一步就不能打在天元了,因为已经被人占了)。

         那么蒙特卡洛搜索树是如何下棋的呢。首先假设两个2B都在下棋,他们什么棋数套路都不懂,只知道输赢的规则。他们都在胡乱下,下呀下,下到最后,总会有结果.要么A赢,要么B赢,要么平局。这里呢,我们在设定一个得分机制,如果赢了,我们就将他每一步的得分在前一个得分的情况下加上1。好,一次模拟结束,我们在进行下一次模拟,然而这一次对弈,我们就不想刚才那么sb了,我们知道开局时,我下在上局下的那个点的概率更大一下,所以随机打点时,就更加偏向于上次的点。就这样下过10万盘后,在某个盘面s,我们会得到下在每个点的赢的概率。 大致的蒙特卡洛想法是这样的。

       从这里我们也可以看出,对弈双发势均力敌的重要性,如果一方很强,一方很弱,那么弱的一方永远没有正反馈,那么其正参数会一致无法更新,由于另一方是一个类似无穷的大黑洞,所有其参数调整极度缓慢。

大杀器三:状态评价函数

        什么叫状态评价函数。简单的解释就是,对于每个盘面我都会有一个评价,对于有些盘面我已经基本判定稳赢了。那么久不需要去进行下面的复杂计算。对于评价函数的参数调整,一个根据现有人为的对弈棋局进行概率拟合,另外一个就是根据蒙特卡洛搜索树进行对弈来进行对弈概率的拟合。

            三个大杀器解释完了。那么我们要来看看这些大杀器是否对于我们的股市也同样适用呢。(个人评价,也许是本人功力不够,随便喷)

1 卷积神经网络。肯定能用的,分类聚类算法而已。对于股市的的某些特征聚类分类肯定也是可以用的,关键问题是拿哪些东西来分类。 下棋我们可以对落子点A进行分类,股市呢?对价格进行分类?呵呵呵呵

2 蒙特卡洛搜索树。这种随机打点貌似没法用。首先股市的所有信息都只有这么多,而且很多信息不全。第二,周期是个永恒的问题。围棋到棋盘都下满,总会有个结果。而股市什么时候是个头,当然可以定个固定个周期。每次到周期结束,我们假设这次操作的盈亏。但是中间的某处可能会承受损失;第三,股市无法重复,我们无法像重复围棋一样,每次都推到重来,而且每次条件都一样。也许你可以假设每天做一次重复,但是每次重复的条件是一样的吗?当然不可能,点位,成交量,国际经济形势,周遭环境,人的心境都是不一样的。无法完全均等的重复。

3 状态评价函数。这个当然可以用,而且是现在择时研究的重要内容。如何判断大盘的当前的状态。当然你也可以通过固定周期,通过某些维度的函数来进行拟合。但是准确嘛,各有各的说法吧。

       综上所述,三大神器能够用到的也许就是卷积神经网络了(其他的个人不知道怎么用),可以进行参数的调整以使分类更加的准确。但是如果真的百发百中,我怎么没有看到赚到所有钱的基金公司呢。 在综上所述,在无穷维度,并且无法完全重复的多人博弈环境中,这三大神器也许并没有我们想象的那么有用

@今日话题 @江涛 @没干货不废话 @沈潜 @方舟88 $上证指数(SH000001)$ $深证成指(SZ399001)$ $创业板指(SZ399006)$
欢迎转载,标明作者

全部讨论

既然你说了随便喷,那我先给楼主定个性:纯粹外行。见谅。

现在我就给你先来个视频放着可以等会你有时间再看(海豚围捕沙丁鱼):网页链接

上面这个视频看了呢你就知道股市是怎么回事了,它其实就是真实股市的翻版。

等你知道了股市怎么回事之后,我们再来谈谈人工智能是怎么回事。

我们说股市就是庄家(包括国家队,大小非,机构,游资)和散户构成的食物链。散户小韭菜显然就是被围捕的沙丁鱼。国家队嘛,大鲸鱼了。

散户也有吃到肉的,严格意义上这样的散户不是散户,我们知道要在股市吃到肉,要么你够聪明,要么你够运气,以及包括各种让你超越一般散户的资源条件。

大部分沙丁鱼是如何躲避围捕的呢?是的,就是通过周围信息的反馈,如果看到海豚冲过来了,那就直接跑,如果看不到,那就看周围同伴的动向。

这反馈的逻辑,就构成了神经网络信息过滤特征提取的基础。反过来说,沙丁鱼的神经网络就是沙丁鱼生存策略提取工具,在海豚不多,大鲸鱼没来的时候,这种生存策略是有效的。

同理,海豚的神经网络也是这样的,在沙丁鱼不多的时候,或者海豚同伴没来的时候,围捕策略就不起作用,这可以解释游资的策略,大多数时候游资的策略都是特立独行的,与大多数散户井水不犯河水。

说到这里你可能已经猜到,股市的人工智能并不复杂,所要的算法就是找到深度学习的关键数据:每一只股票资金进出相对速度和相对股价涨幅的对比。通过提取对应收割韭菜的各路庄家的策略特征,找到它们背后的共同围捕策略。

那么,这种人工智能背后的数学基础是什么呢?与我们所熟悉的阿尔法狗有什么共同点呢?我们先看相对资金进出速度和相对股价相对涨幅的对比,这个在数学上就是所谓空间曲率。曲率和概率类似,有先验层面的对称性,从而可以构成指引经验判断的依据。同时资金进出速度和股价涨幅本身有个时间尺度,由于脱离策略空间尺度的时间尺度是经验的,所以我们说是相对资金进出速度和股价相对涨幅,这两个数据构成了市场操纵的系数,它是提取博弈策略特征的根本。

为了得到策略的先验时间尺度,在算法上我们通过一层层对先验数据和经验数据进行拟合滤波从而实现卷积特征提取。这个卷积过程也就是特征提取深度学习的过程。这和大数据学习有很大的不一样,你可以看到阿尔法狗很少走定式。深度学习是在提取到关键特征之后的智能,这是策略不败的根本。

这样的算法数据处理复杂度和数据依赖度显然不会因为股市和围棋的根本区别(有无固定的博弈边界)而失效,两者的智能化都共同的取决于博弈策略的对称性,这点上当然需要更为详尽的分析,由于并无显然的逻辑问题,这里暂时略过不提。

上面简单的科普或许还不够充分,不足之处难免,仅作智力的分享,同时作为一个曾经的散户也与楼主共勉。

2017-08-02 16:58

对于人工智能只了解皮毛的我(但貌似比笔者知道的多)感觉这就是一个门外汉写的文章,咋会有这么多的浏览量,标题党,你赢了。(但是不否认作者其他文章写的还是不错的,通俗易懂,点赞)

2017-08-02 16:54

卷积神经网络是调参构模型,当然也可以用于分类聚类,但不局限于。

2017-01-08 22:56

也就是说阿尔法狗再牛逼也只能进行数学上的推理,它无法对企业估值?

2017-01-07 21:41

2017-01-06 11:04

我开始看不完全信息博弈定律了。。这个机器暂时还搞不定

2017-01-06 09:07

这个SUMMARY做得不错,帮你转了。

2017-01-06 07:54

前一段时间看了篇介绍 哥德尔定理 的文章,从数学角度认为,人工智能在目前的数据存储框架下是没有可能拥有超越人类智力可能的,总有至少那么一个坑会让它陷入无限循环的死机中。

2017-01-06 03:28

大家都不交易,拿着股票等分红就可以打败机器人了。再牛逼的人工智能,它怎么在一个没有交易的市场上战胜别人呢?当然,这只在理论上成立。股市肯定会有交易的,尤其是a股这种地方,大家发疯地交易,所以人工智能在a股能大显身手。

2017-01-05 21:41

跟机器比速度和记忆能力,人必败。人跟人下棋,机器跟机器下棋才有意义~