金融工程高智威 | 如何用AI选出持续跑赢市场的基金?

发布于: 雪球转发:0回复:0喜欢:1

01 机器学习选基背景概述

传统的量化选基主要从基金的基础特征、业绩动量、持有人结构、交易特征等角度挖掘有效的选基因子,目前普遍的方法是对因子进行线性合成。然而,此方法难以捕捉因子之间的非线性关系,还面临合成时的多重共线性问题,在不同的市场环境下,选基因子难以长期有效。

机器学习在选股领域的研究已经较为成熟,在数据类型上股票市场拥有大量的基本面、量价、另类和数据;在数据频率上股票还有level2、tick和逐笔成交等高频数据,可以充分对模型进行训练,提升泛化能力。相比之下,基金的份额、规模、持仓情况等核心数据频率较低,多在基金季报披露后才可以获得,即每年的1、4、7、10四个月末才可以更新因子。部分因子比如基金的持有人结构只能在基金的中报、年报披露后的3月与8月才可以获得,因而,机器学习在基金标的上的应用相对较少,但是不代表无法应用到该领域上来。

随着基金数量和规模的激增,使用机器学习进行基金优选前景日益广阔。截至2024年5月31日,我国公募基金总管理规模达到29.09万亿元,公募基金数目突破11900只。近些年,主动权益型基金(普通股票型及偏股混合型)持续扩容,虽然在2022-2023年发行量有所萎缩,2023年依然有近300只基金成立。

02 机器学习模型进行量化选基

我们基于文献中提出的表现突出的因子,结合团队智能化选基系列报告构建出来的优秀因子,从六因子模型、业绩动量、基金基础特征、资金流、交易动机、财务报表等多角度进行因子构建。在模型选择和标签构建上,由于树模型相对于神经网络模型更适合处理规模不大的数据,并且泛化能力更强,我们使用随机森林、XGBoost和LightGBM模型来预测基金在下个月跑赢万得偏股混合型基金指数的概率,并最终进行等权合成为机器学习选基因子;若基金的月度收益率能够战胜基准,则记录为1,反之则为0。我们结合因子在样本内的特征重要性和线性表现构建了22个机器学习基础因子。

三大机器学习模型构建出的因子表明了基金在下个月能够战胜万得偏股混合型基金指数的概率。在具体训练上,采用滚动学习和5折交叉验证的方式,为避免偶然性,模型因子为取5个随机种子平均后的结果,单次滚动时样本内合计时长为94个月,样本外时长为3个月。整体来看,模型训练集、验证集和测试集占比大约为75%、20%和5%。

03 基于机器学习模型的AI智选基金组合构建

为了对比和线性模型的表现,我们将22个因子进行等权线性合成,并在样本外做了因子检验,发现因子IC相较于合成前未有明显增强,与机器学习因子相比未见明显优势。从多头超额净值表现来看,机器学习因子稳定性优于线性因子。我们将上述三大机器学习模型因子进行等权合成,合成后的AI智选基金因子IC均值为3.03%,t统计量为1.27,多空Sharpe比率为0.83,多空最大回撤率为10.33%、多头年化超额收益率为4.82%。合成后的因子分位数组合比单个机器学习因子单调性更好。

从策略表现上看,随机森林、XGBoost和LightGBM三大机器学习模型选基策略在每一个完整年度(19-23年)都可以获得正的超额收益。总体而言,XGBoost和LightGBM模型的年化收益率更好,最大回撤率更低,使用合成后的AI智选基金因子构建策略,发现策略超额净值稳定,跑赢基准显著。

机器学习模型的因子因为用类似的逻辑得出,模型架构相似,故而相关性较高,与线性模型相关性多在0.75以下。

AI智选基金组合自2019年2月至2024年4月,获得14.35%的年化收益率,相对于万得偏股混合型基金指数获得了5.54%的年化超额收益率,信息比率达到1.02,超额净值最大回撤率仅有6.59%。策略月度平均双边换手率为35.43%。分年度来看,AI智选基金因子每一完整年度都可以稳定战胜万得偏股混合型基金指数,在过去5年里除了2021年以外都可以明显战胜线性因子,在市场回调下表现优异。超额收益相对单一机器学习模型更加稳定。

风险提示

以上结果通过历史数据统计、建模和测算完成,历史规律不代表未来;在市场环境发生变化时,模型存在失效的风险;策略依据一定的假设通过历史回测数据得到,当交易成本或其他条件改变时,可能导致策略收益下降甚至出现亏损。基金相关信息及数据仅作为基金研究使用,不作为募集材料或者宣传材料.