所谓封闭问题,是指影响预测结果的“因素”是确定的,而且是有限的。换句话说,事情的原因是知道的。
比如我们要预测一个图片中出现的动物是不是猫,我们所需要输入的信息只有图片的颜色明暗信息,即像素。而其它信息,如拍摄时间、拍摄作者等,都与这个识别任务无关,所以无须考虑。
很显然,识别猫的这个预测模型的难点不是筛选输入信息,而是如何将猫这个抽象概念与具体的像素布局之间建立起关联关系。
看图识猫
类似的,阿尔法狗下围棋,关心棋盘上的所有落子信息就够了,不需要考虑盘外的其它信息。下围棋的模型的难点在于,将“更有利的局势”这个抽象概念与实际的棋形布局联系起来。
下围棋的关键是“关注棋盘”
建立这种从具体信息到抽象概念的联系,是现代人工智能算法(比如深度学习)最擅长的,即所谓的模型表达能力强。
目前AI算法在许多封闭问题的领域里,取得了重大突破,包括图片识别、视频检测、语音识别、机器翻译等。
而所谓开放问题,是指影响预测结果的“因素”是无法穷尽的,或者是不确定的。不可能把所有相关的信息都输入模型,所以输入是不完备的。
天气预报就是一个典型的开放问题,任何能影响云图、风向、气压等的事件都会对天气状况有所扰动,比如千里之外的蝴蝶扇动翅膀。我们不可能搜集到所有这些相关数据,甚至无法把它们全部列举出来。
影响天气的因素是无穷无尽的
解决开放问题时,算法固然很重要,然而找对关键数据来作为输入才是第一位的。如果没找到结果背后最相关的那个原因,那么算法越先进,危害越大。
为何这么说?
假设一个古人想对下雨天进行预测,他观察了6天,天气分别是“晴晴雨晴晴雨”,于是他总结出规律,每两个晴天后必有一个雨天。这就是预测模型1。
但当他再观察一个月,发现这30天的数据样本并不符合模型1。于是模型1被否定了。
经过几天的推敲,他应该能找出一个更复杂的规律来完美解释(这叫拟合)这30天的天气,比如发现今天的天气是与过去四天都有关的,并且可以用一个复杂的条件关系来表达。这是模型2。
很不幸的是,如果他有毅力连续观察10年的天气,一定会发现他的模型2也失效了。而且他已经无法凭肉眼找出规律来完美拟合这10年的天气。
不过,这个问题难倒了古人,可难不倒现代人。
借助一台计算机,一个算法工程师在一天内就能大概率找到一个完全胜任的模型3来拟合10年的天气。只不过模型3远比模型2要复杂,为了提升拟合能力,他可能用到了数学工具箱里的很多高级武器,如高阶函数、分段拟合、非线性变换等。
任何一个受过九年制义务教育的现代人,想必在看到模型1和模型2的一瞬间,就已经在心里否定它们了。
不过到了模型3,面对一堆可能已经超出中学教纲的数学公式,再加上对10年的真实样本能完美匹配的事实,你可能会开始拿不定主意了:这个模型可能真的能预测天气吧?
事实上,看起来高大上的模型3,真来做预测时,会和前两个简单模型一样笨拙。
总结一下。在做预测时,如果选错了输入的“因”,其预测就肯定不靠谱,就像上面的例子,光用过去的天气来预测未来的天气,是无论怎么建模都没用的。
然而,模型越高级,越能在错误的数据上找出看起来完美符合历史样本的规律。这在建模中叫做过拟合,是预测模型的恶梦。这也是为什么很多量化投资模型在历史回测时很靓丽,可一到实盘就亏钱。可见过拟合有多费钱。
现在我们可以回到本文最初探讨的问题了。人工智能到底可以预测股市吗?
股票价格的变动是一个典型的开放问题,它的相关影响因素是无法穷尽的。比如至少政府意志、公司行为、个人决策等因素都会随时扰动股价。
所以,基于目前实际的AI技术框架来说,它还不可能像阿尔法狗碾压人类棋手一样统治投资界。
事实上,考虑AI对投资的帮助时,我们更应该类比天气预报这样的开放问题,而不是围棋这样的封闭问题。
首先,天气预报仍然无法预测很多局部的突发性天气状况;同样,人工智能也几乎不可能准确预测股市中的黑天鹅。
其次,天气预报无法精准预测某地点每一时刻的温湿度、风速等;相对应的,人工智能也不可能精准预测每只股票下一时刻的涨跌价格。
然而,人们都觉得天气预报挺准的,是因为它对一个时间段的气温区间、下雨概率等更宽泛的问题做得已经很出色了。
同样,人工智能也可以在很多更宽泛的股票问题上取得不错的预测效果。比如找出未来股价涨幅相对更好的一群股票;比如预测未来哪些股票之间的价格相关性更强;比如预测哪些股票未来波动性会显著变化等。
即便不是百分百正确,但做到大概率的预测准确性还是可以的。而且这些结果已经足以带来不错的投资收益了。
最后总结一下。人工智能不可能精准预测股票的涨跌和价格等,这不是因为算法不够强大,而是由问题本身的性质决定的。但人工智能仍然能做出很多辅助预测,帮助我们提高投资收益。
下一篇来聊聊用计算机构建投资策略的思路。