ChatGPT能战胜市场么?

发布于: 雪球转发:8回复:10喜欢:15

在过去几个月中,人工智能和ChatGPT成为互联网上最热门的话题之一。很多人都在讨论ChatGPT会颠覆哪些行业,让多少人失业。很自然的,也有不少人会想到:如果用ChatGPT去炒股,能不能帮我们获得更好的投资回报,甚至战胜市场?

用人工智能来提高投资的胜率,并不是什么新鲜的想法,事实上早在几十年前就已经开始。在对冲基金行业,有不少公司和基金经理专注于量化投资。量化投资领域里,有一些基金基于机器学习(Machine Learning)设计投资策略。机器学习就是一种典型的人工智能,并且已经在投资领域被实践多年。

举例来说,2017年年底,创新工场创始人李开复在其主题演讲《人工智能四波浪潮与机会》中说道:

有了人工智能以后,它可以去计算哪些中国股票搭配起来跟哪些欧洲、美国股票应该是可以对冲的,它可以判断任何市场有任何不平衡的地方,它可以利用现在人民币换美金的交易障碍,来做更好的对冲,或者它可以判断怎么样能够最优化你该买什么样的股票。
过去两年其实我已经没有做任何的个人投资了,我也不把钱交给人了,我现在所有新生产出来的钱都交给机器处理,人已经不能再管理我的钱了,因为人打不过机器,这是非常明确的事情,我们个人投资的这些基金不太好意思分享回报率,回报是不低的,然后是零风险的,它每一天晚上结帐,我可以看到钱全部都卖掉回来了。

那么问题来了,以人工智能算法为核心的基金,是否真能做到像李开复所说的:零风险,日结账,高回报呢?

要回答这个问题,我们首先要搞清楚,什么是机器学习?大致来讲,机器学习可以被分为两种:有人管的机器学习(Supervised Machine Learning)和没人管的机器学习(Unsupervised Machine Learning)。

有人管的机器学习,是指工程师来定义研究的变量。这种“机器学习”,其实和传统意义上的量化交易策略研究没有多大区别。很多这样的机器学习,用的还是最小二乘法(OLS)和主成分分析(PCA)这样的统计方法,而这些统计方法至少已经被用了几十年。这样的“机器学习”被放上“人工智能”的标签,主要就是为了追求一个噱头,在营销上让人产生高科技的错觉。

真正有技术含量的,是没人管的机器学习。在这种机器学习中,电脑程序自己选择最优的变量进行分析和计算。这是真正尖端的人工智能领域,对数据处理和计算能力要求非常高,目前仅在高频交易领域有一些尝试性的应用。

为什么仅在高频交易领域有初步的应用呢?这是因为,人工智能在任何领域应用的一大前提,就是有海量数据。

在同一个演讲中,李开复谈到:

AI其实特别关键的就是大量的数据,有了数据...就都可以做了,没有数据是不可能的。

为什么需要海量数据?

这是因为,人工智能和机器学习的本质,就是数据挖掘。数据挖掘的意思,就是基于海量的数据,去找出一些不为大家所知的规律,并且期望该规律在未来继续管用。如果没有海量的数据,你还去挖掘什么?没东西可挖呀。用科学的语言来讲,如果数据量不够,那么总结出来的任何规律,都是基于小样本的特殊情况,未来继续重复管用的可能性不大。

和其他行业相比,金融市场的数据量,恰恰少的可怜。以全世界数据量最丰富的美国市场为例。比较高质量的美国股市价格历史数据,也就60年左右。再往前推,数据质量就残缺不全或者准确性不够。假设以月回报为单位进行研究的话,60年历史一共就700多个数据样本,显然太少。即使把研究单位改到日回报,一共也就15,000个左右的数据样本。我们再看上市公司的财报数据。美国有差不多4000个上市公司。假设每个公司都有高质量的季报,往回走60年,数据量大约是 4000 X 60 X 4 = 96万。这样的样本量,还是离人工智能的要求差远了。

与之相对比,ChatGPT覆盖的数据量,大约为1750亿个变量,涵盖了过去几十年,甚至是百年的文本和资料。两相比较之下,我们就能看到将相同的人工智能技术用于投资的挑战之一。

有些人会说,我可以拿每天/每小时/每分钟的数据,这样数据量就大了。或者我横向增加测试的变量,这样也能增加样本量。话虽不错,但问题在于数据的频度越高,噪音也越大。变量之间的交叉度越高,相关系数也越高,因此得出的结论,也越不可靠。在量化金融研究中,码农最容易犯的错误,就是忽略经济逻辑去做数据挖掘。在一大堆没有意义的数据中,你不断折腾,总能找出个貌似有用的投资策略来。但如果背后没有符合逻辑的经济原因去支撑,那这种发现就毫无意义。举例来说,有美国学者(Chordia et al, 2017)在检验了210万个不同的股票投资策略后,发现其中只有17个策略通过了统计检验标准,显示其可能有效。在这个例子中,发现真正有效的投资策略的概率,为17/210万=0.0008%!换句话说,在210万个投资策略中,超过209.99万个都是无效的。

除了数据样本量不够之外,人工智能应用于投资的第二个挑战在于,金融市场里信息和回报之间的因果关系并不是那么清晰和容易分辨。举例来说,某一只股票在过去三个月里上涨了20%,那么导致其股价上涨的原因有哪些呢?可能有公司的盈利变化、公司所在行业的供需变化、公司所在国家的宏观政策、公司所在国家的货币汇率、整个股市的投资者情绪、其他国家的央行政策等等。其中每个因素都可能对股价产生影响,也可能未必产生影响。或者其中一些因素,在某个时点某个场合,确实对股价产生实质性影响,属于有效信息。但在另外一个时间点,却对股价毫无影响,属于噪音。那么我们如何让机器去学习分辨,在什么样的场合下,哪些是有效信息,哪些是噪音?这恰恰是把人工智能运用于投资的最难点。如果不能把这个问题解决,那么这样的机器就不够智能,因此也无法持续给投资者带来超额回报。

第三个挑战在于,金融市场说到底是由人组成的,其本质是人的心理和行为。金融市场上的那些股价或者债券价格,只是一个数字表象,背后反映的其实是人们对于股权、房地产或者债权的期望回报。因此对于金融市场的预测,本质上是对众人行为和心理的预测。

问题在于,众人的行为模式可预测么?比如假设我们再发生以此类似于2008年的次贷危机,各国政府和众央行还会以相同的方式来应对危机么?股票和债券市场中的投资者们还会以相同的态度做出反应么?事实上我们几乎可以断定,因为人类有记忆,自命不凡,对自己的能力过分自信,但同时经常受到贪婪和恐惧的情绪影响,因此我们经常会做出连自己都觉得不可思议的非理性决策,这也使得由人组成的市场缺乏一致性,因此而变幻莫测,难以预料。

综合以上几点,要想把ChatGPT为代表的人工智能用于投资来获得持续的超额回报,还有很长一段路要走。当然,这并不意味着投资和计算机决策互不兼容。事实上即使是最老派的基本面基金经理,也会大量用到量化和数据模型来提高自己决策的质量。但这和完全摆脱人,让机器代替人做所有的投资决策,并且做到零风险和高回报还是很不一样的。未来能否做到这一点,值得我们继续关注。

本文首发于FT中文网。

参考资料:

Chordia, Tarun, Amit Goyal, and Alessio Saretto, p-Hacking: Evidence from Two Million Trading Strategies. Swiss Finance Institute Research Paper No. 17-37, 2017.

Robert Arnott, Campbell Harvey, and Harry Markowitz, A Backtesting Protocol in the Era of Machine Learning, Nov 2018.

全部讨论

2023-04-28 10:04

这里有一个悖论:如果chatgpt认为是有效,大家都采用chatgpt来预测,则这种预测的预期就会在价格中体现,导致chatgpt的投资失效。感觉有点像开车抄近路,如果知道的人多了,近路也就开始堵了。

2023-04-29 16:37

“零风险,日结账,高回报”,李开复有常识吗?

2023-04-28 09:35

ChatGPT说的都是昨天,股票收益是明天,不可能做到。

2023-04-28 10:28

李开复能做到0风险 高回报?如果是这样 他很快就可以成为世界首富了

2023-04-30 23:13

分析的逻辑非常清晰
同时,怀疑李开复有带货嫌疑

2023-05-03 18:24

210万个策略,有17个有效还不够吗?问题是,这17个一旦使用频繁,大约很快会失效。就是市场是自适应的。

2023-05-02 11:21

人工智能得算法交易怎么可能是零风险的,它只不过是帮助选择风险收益比更高的交易策略,小概率的会导致亏掉大部分本金的风险性事件仍然可能会发生的。投资成本是永远绕不开的问题,如果资本市场里所有人都在使用人工智能算法投资交易,那么市场状态又会回到原点,这个时候电力和芯片硬件的需求都会因为用计算机的投资者增多而增加,交易成本也会逐步升高。那些幻想某一种人工智能得算法交易可以一直创造超额收益的人其实忘记了一个道理,猎手在进化,猎物也会进化的。。。

2023-04-30 17:54

炒股坑多路洼
天天担惊受怕
利好只利实业
股市少见红花
挫败庄家阴谋
振兴自己腰包
股市谁扛红旗
唯有绩优慢牛
认清事实真相,
适当参与其中,
不动如山持有,
大众喧嚣离开。
题材概念炒作,犹如过山车,没多少意思!
基本都是缺钱的公司,基本都是无法自我造血的企业,
基本都是业绩不好没机构驻足靠游资炒作套现的个股。
只能利用人性的追涨杀跌,只能靠忽悠新人,让他们在侥幸心理面前一次次上当!
搞明白上面逻辑后,题材概念炒作我直接放弃,浪费时间和精力!

2023-04-28 09:31

谢谢分享