GTO Strategy & Adaptive Strategy

发布于: 修改于:雪球转发:0回复:0喜欢:0

欧洲杯上各队主教练赛前面对的一个问题是战术要以我方队员的特点为主,还是以限制对方队员特点为主。通常强队是以我为主,弱队是限制对手为主。像法国队这种强队也采用限制对手防守反击为主的策略,也是因为中场有坎特而缺少博格巴。在大数据时代,获取对手过去的比赛信息很容易,看看英格兰队门将皮克福德的水瓶上印的是对方球员过去罚点球的方向。对于现代足球来说,在以我为主,保持稳定风格的基础上,针对对手数据加上一点adaptive strategy, 已被证明可以提高胜率。

多个主体博弈的德州扑克游戏是GTO(Game Theory Optimal)策略最早发源的地方,采用GTO策略是假设对手是完全理性的,而对应的自己应采取的最佳策略。采用GTO策略虽然因为对手绝对理性的假设不成立而导致策略会损失一些剥削对手的价值,但总体不会犯大错误,故GTO策略被称为最佳防守策略:即使世界最佳扑克玩家也无法剥削采用GTO策略玩家的价值。

毫无疑问,只采用GTO策略是无法实现长期稳定盈利的,必须在此基础上获取对手的信息进行画像,然后针对性的采用Adaptive策略。但如今的扑克生态(以澳门为例)已经不比十年前,非理性的娱乐玩家越来越少,盈利空间不足以cover掉5%的盈利抽水及澳门高昂的生活成本,职业玩家的生存空间被挤压。

股票市场是比德州扑克维度更复杂的游戏,首先博弈的人数更多,类比德州对纽交所可以粗略看成全球几亿人围坐在一个超大桌子上对各种标的报价或吃单。其次,股票市场博弈的标的是企业,因为有的企业还创造增量价值所以不完全是一个零和博弈的市场,市场上有一些专门做增量投资的玩家。最后,因为体量大所以市场参与者较多,除了玩家,也有为玩家提供服务的各种主体(交易所,券商,托管银行),玩家里也有机构玩家,国家队等。

正是由于股票市场结构复杂、玩家类型多,掌握这个游戏规律的难度大但收益也更高。毫无疑问,谁能掌握及科学处理更多数据谁就可以采用更加Apaptive的策略去剥削其它玩家的价值。现在把一个小市值股票拉三个涨停后有多少概率会有人接,会有多少资金量能接住,评估这些问题需要历史数据的回测。总之,A股市场大量的散户的非理性行为依然是这个市场主要的利润来源,而交易所数据是如石油在工业时代的地位。

人性的贪、嗔、痴等非理性元素基本上是各种游戏中Adaptive策略的利润来源,但也是人类生生不息的源泉。如果AI完全消灭了人性,人没有了欲望,那么这些游戏的利润来源也都不存在了,世界会慢慢变得乏味,甚至消亡。