因子轮动研究系列之一:基于机器学习方法的A股市值风格轮动研究

发布于: 雪球转发:0回复:0喜欢:3

导读

1、本文以市值因子(流通市值)的信息系数为预测对象,充分利用宏观、市场和因子自身特征三方面的数据,在机器学习模型(Adaboost、逻辑斯特回归)的框架下,对未来一个月的市值风格表现进行预测,并基于预测结果在指数轮动、指数增强策略等方面进行应用与实证分析,力求为投资者在大小盘风格切换方面提供帮助。

2、Adaboost、逻辑斯特回归模型样本外(2014.1-2019.10)预测准确率分别为64.29%,70.00%。通过两模型预测结果调整后的市值因子2014年1月-2019年10月IC均值高达7.62%、8.36%,较原始市值因子的2.99%有大幅度提升。同时本文将两模型的预测结果进行融合,得到双模型融合预测结果。在两个模型的基础上进一步提升了表现,样本外预测准确率达71.43%。双模型融合预测结果调整后的市值因子IC均值为9.48%。

3、我们通过各模型预测结果构建指数轮动策略,2014年1月-2019年10月间各模型预测结果构成的沪深300 vs中证500指数轮动策略年化收益分别为15.45%、13.55%、14.42%,较等权策略的4.82%提升显著。同时各模型预测结果构成的沪深300 vs中证1000指数轮动策略年化收益分别为18.21%、17.59%与18.06%,较等权策略的4.00%提升更加明显。本文也构建了中证800指数增强策略,基于预测结果主动控制市值暴露。我们证明,当加入市值风格预测信息后,能进一步提升指数增强策略效果,因此本文的研究有着重要的实践意义。

4、年初至今各模型预测正确率分别为:Adaboost(70%)、逻辑斯特回归(60%)、双模型融合(70%)。11月模型判断大市值风格占优。截止11月24日,本月市值因子IC为-0.12,与月初判断一致。

风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。

1、引言

1.1

源起风格投资,把握股票共性

风格投资是现代证券市场的一个重要概念,具体是指对具有某种风格的股票进行投资的策略,其投资哲学不在于精选个股而在于对股票组合某种共性的把握。

风格投资的历史可以追溯至20世纪30年代。1934年,Benjamin Graham和David Dodd在证券分析中提出安全边际的概念,这也是价值投资理念的源头。风格投资的真正兴起始于20世纪70年代,其发展的内在动因是对资产风险和收益来源的探索。自Sharpe[1964]、Linter[1965]和Black[1972]提出资本资产定价模型(CAPM)以来,CAPM模型已然成为人们考虑平均收益和风险的主要方式。然而大量的实证研究表明,市场因素并不能充分解释资产的收益。与此同时,许多学者发现股票可以分成一些不同的种类,同一种类的股票之间有很高的收益相关性,而不同种类股票的收益相关性较低。Farrell[1975]把这些种类称为“簇”,他发现对于全体股票至少包含了三种这样的簇—成长、周期和稳定。簇的不同表现确定了按簇进行投资存在理论上的可行性,而不同簇的分类,也奠定了人们对于风格的划分。

此后,Banz[1981]、Fama和French[1992]等在内的大量学者从市盈率,账面市值比等方面解释了股票回报率的差异。上述研究不仅是对CAPM中未能反映的风险因素的补偿,同时也奠定了风格投资的理论基础。

Sharpe [1992]通过对Fidelity Magellan基金公司1985年至1989 年间的数据进行分析,发现该公司97%的收益不是来源于个股的选择而是来源于对风格投资的准确把握。Sharpe的研究揭示了风格投资的重要性。在此基础上,Bauman and Miller[1997]提出风格选择为投资中必不可少的一个环节。

那么,风格投资的收益来源是什么呢? Lakonishok[1994]指出,风格投资的超额收益是由于投资者对于某种风格的股票历史业绩的过度反应所致。Jesen, Johnson[1997]认为风格投资的超额收益是对风险的补偿,而这些风险被CAPM模型所遗漏。Sorensen和Lazzara[1995]、Anderson[1997]、Fochtman[1995 ]研究影响风格投资业绩的因素,他们将这些因素分为三类:基本面因素(包括市盈率、红利、每股收益等)、宏观经济因素(包括 GDP 增长、利率、行业产值等)、价格趋势因素等并根据这些影响因素建立了多因素预测模型。

1.2

捕捉风格轮动,获取超额收益

然而,维持风格固定并非最佳策略,关于风格投资的理论研究表明掌握好风格轮动的节点及规律,进行有效的风格投资,可以帮助投资者获得超额收益。

Kahn [1996]发现大多数基金并未系统地遵循价值或成长型的选股风格,而是倾向于在两者之间切换或混合。此外,一部分基金在实际操作上会进行大小盘轮动来追求超额收益。Levis和Liodakis[1999]也提出风格固定不是最优策略,风格之间具有周期性。Quigley和Sinquefield[2000]、James[2001]通过研究发现运用固定的投资风格战略可以带来超额收益,然而收益不能一直持续。Chan,Karceski[2002]研究表明小市值、大市值股票会轮番占优,成长型、价值型股票也会随着时间的推移交替领先,这种风格轮动的现象为投资者提供获得超额收益的机会。Teo和Woo [2003],Chen H 和De Bondt[2004]指出,风格动量具有周期性,通常周期在1个季度左右。

股票中风格轮动常见的两种形式为:1)价值、成长风格轮动;2)大、小市值轮动。下面,我们对这两个方向的研究现状进行概述。

1)价值、成长轮动相关文献综述

目前为止,大量学术论文都支持价值投资在选股领域是有效的。Fama and French[1992,1993],Lakonishok,Shleifer,and Vishny[1994];Capaul,Rowley and Sharpe[1993]研究发现,价值股平均来看会比成长股有着更高的收益。

然而,价值策略存在着失效时期。针对此问题,一些学者利用外生变量建立预测模型,试图对价值策略进行改进。Arnott[1992],Fan[1995],Sorensen and Lazzara [1995],Bernstein [1995]与Kao and Shumaker [1999]研究了宏观经济、金融市场状态指标与价值相对于成长策略收益率(value versus growth returns)之间的关系。这些指标中的一些具有预测能力,但大多变量并没有展示出相应的作用。

Asness[2000]指出用外部宏观变量对价值和成长因子表现进行轮动有“伪关系”的可能性,即事后可能观测到宏观经济等外生变量可以对风格轮动有预测效果,但很难判断现实世界中这些变量是否真正影响了风格的走势。Asness选择从经典的Gordon[1962]模型出发,将股票的收益率分为两部分:估值和股票长期盈利增长率,并基于此提出估值价差和成长价差两个指标。从实证结果来看,两指标对于价值相对于成长的收益表现有着较好的预测能力。

Cohen and Vuolteenaho[2003]在此基础上进一步研究发现,美国市场中盈利价差、违约价差等指标并不能解释价值相对于成长收益率的变化,而估值价差却是预测的有效指标。

总得来看,不少学者认同价值成长轮动策略的可行性。即当投资者具有一定的预测能力时,可以提升相关策略效果。然而其研究难点是如何找到切实可行的预测指标以及保证预测的稳定性。

2)市值轮动相关文献综述

市值效应,或者说小盘股溢价效应,最早由Banz[1981]提出,他发现美国市场中,小盘股票相比于大盘股票有更为突出的表现,因此市值效应往往也被称为小市值效应。之后,Fama and French [1992] 的研究使小市值溢价进一步被认可。

然而,众多学者研究发现小盘股并非在所有时刻都相对大盘股表现更优,股票存在市值轮动效应。

Erdinc Altay[2004]对德国和土耳其的股票市场进行研究发现,在这一段时间内德国股票市场大盘股收益总是高于小盘股收益率,而对于土耳其股票市场这一表现只出现在某几个时点。

Switzer[2010]对处于经济复苏和经济衰退时期中美国和加拿大的股票市场大小盘股表现进行分析,发现在经济复苏时期,小盘股上升空间更大价格弹性也比较大,收益率比大盘股收益率要高,在经济衰退时期大市值公司的经济实力雄厚,抗跌能力比较强,大盘股收益会高。

除证明股票市场市值轮动效应的存在以外,部分学者聚焦于市值轮动策略的研究。我们将目前文献中关于市值轮动策略的研究从技术工具角度分为以下四类:

1)基于收益率动量的市值轮动策略研究:Clare, Sapuric, and Todorovic [2010]通过在英国股市实证发现,基于过去六个月收益动量的市值风格轮动策略较静态策略的夏普比率有较大提高,文章也对比了1, 2, 3, 4, 5, 6, 9, 12月的动量策略效果,发现6个月动量的预测能力最强。

2)基于多元线性回归的市值轮动策略研究:部分学者从经济基本面、商业周期、股票市场状态等维度搜集外生变量,建立多元线性回归预测模型,从而构建市值轮动策略。例如Copeland and Copeland [1999]; Lucas, van Dijk, and Kloek [2002]等人都是借助此方法展开了相关研究。

3)基于逻辑斯特回归的市值轮动策略研究:此方法与方法二在思想上类似,然而从分类的角度选择了逻辑斯特回归建立模型。例如Levis and Liodakis [1999]利用逻辑斯特回归构建了1968年-1997年英国市场市值轮动策略,获得了极好的回测结果。

4)基于非参数模型(例如决策树等模型)的市值轮动策略研究:参数方法的优点显而易见,例如可以从模型出发直接探寻每个变量的边际贡献。然而对模型的高度假设、数据的高度敏感也是其一直受到诟病的地方。因此,一些学者将非参数模型用于市值轮动策略建立中,例如Mouakhar, and Roberge [2007]利用决策树模型建立市值风格预测模型,并基于预测结果构建轮动策略。

1.2

立足A股市场,探究市值风格轮动

本文专注于研究A股市值风格轮动。回溯历史,市值因子在A股市场表现优异,市值可以称为投资者最重视的一类风格。但从图表1可以看出,2017年以来市值因子出现大幅回撤,表现的不确定性不断加强,这进一步加大了对市值风格轮动的研究需求。

本文以市值因子(流通市值)的信息系数为预测对象,充分利用宏观、市场和因子自身特征三方面的数据,在机器学习模型(Adaboost、逻辑斯特回归)的框架下,对未来一个月的市值风格表现进行预测,并基于预测结果在指数轮动、指数增强策略等方面进行应用与实证分析,力求为投资者在大小盘风格切换方面提供帮助。

2、A股市值风格轮动研究框架

在市值风格轮动的研究中,需要解决的主要问题有两个:

1)市值风格的定义,以及市场状态的确定;

2)明确风格定义的前提下,风格预测模型的搭建。

本文将对这两个问题逐一进行说明,建立完整的市值风格轮动研究框架。同时值得注意的是,本文建立的框架有较好的拓展性,不仅适用于市值风格的研究,也能应用于其他风格,这为之后的相关研究奠定了扎实的基础。

2.1

从市值因子出发,观A股市值轮动

首先针对第一个问题,如何定义A股的市值风格。常用的方法有两种:

1)基于主要规模指数相对收益进行划分:对应于工具型产品的投资需求。

2)基于市值因子信息系数(IC)进行划分:对应于选股层面的投资需求。

本文基于市值因子IC建立A股市值风格代理变量。同时在实践应用章节中,我们也发现应用市值因子IC构建的信号不仅能够有效捕捉市场市值风格,用于选股领域,在工具型产品投资(指数轮动策略)中也有着较好的效果。

我们选用A股流通市值作为市值因子,对因子进行标准化与方向变化处理后,计算因子月度IC作为因子表现代理变量。风格信号生成的具体步骤如下:

1)数据准备:提取上个月底的横截面因子值(A)与本月的股票横截面收益率(B)。这里剔除了复权收盘价为空、上市天数小于180天与特殊处理的股票。

2)因子处理:本文采用分位数标准化,对因子值进行标准化处理。最常用的标准化方法为Z-Score 标准化。然而,Z-Score方法的缺陷也显而易见,例如对于分布偏斜较大,并且受极端值的影响很大。在选股领域,不同股票间因子值的绝对距离往往并不重要。鉴于此,本文采用分位数变换标准化方法,只保留因子排名信息,把所有因子的分布均变换为标准正态分布。其次市值因子一般为升序,即因子值越小收益越高。为了便于之后不同风格的合并研究,我们对其取负号,使其变为降序。

3)IC计算:计算因子值与收益率的相关性。如果计算两者之间的Pearson线性相关系数,某些异常值可能会对结果产生很大影响。因此,本文采用更为稳健的 Spearman 秩相关系数来衡量因子的有效性,即RankIC。本文若无特殊说明,所写IC均指RankIC。

4)转换为风格信号:基于市值因子IC将市场划分为两种状态:

a)当月IC >0,市场偏好于小市值股票,信号标签为1;

b)当月IC

依据上述步骤,我们利用2005年1月至2019年10月的数据计算每月A股市值风格信号。在所计算的177月中,小市值占优月度达105个月,占比为59.32%,大市值占优月度为72个月,占比达40.68%。从长周期的角度看,小盘股溢价持续的时间更长。然而,从图表3可以看出,A股存在明显的市值风格转换。

同时,我们对每年的信号分布进行分析,这里用每年小市值占优的月份比例评价当年投资者对小市值股票相对于大市值股票的偏好程度。可以看出,投资者对于小市值的偏好呈现周期性转换,同时许多拐点与宏观经济、市场情绪密不可分。例如在2006年-2009年投资者对小市值偏好持续增强,同时在2009年之后股市经历一段较长的调整期,与此同时,市场对于小市值的热情也有所缓和。2017年,市场对于小市值的偏好达到谷点,与当时中国经济增速放缓、去杠杆政策有不少关系。

2.2

宏观+市场+因子特征,多维度构建风格轮动指标体系

通过上文,我们得到了每月的市值风格信号值,且依据信号值对A股历史市值风格状态进行了一个简要的分析。

我们认为,市值风格转换离不开宏观经济与市场状态的影响。因此本文从宏观基本面和市场状态两方面搜集了一系列变量用于预测市值风格。同时,由于本文采用市值因子表现来度量A股市值风格,我们也加入了因子自身特征指标,从另类角度捕捉投资者对大小市值股票的反应。

1) 宏观经济变量

宏观经济对于市值风格的影响是显然的,当宏观经济向好,无风险利率较低时,小盘股通常能够获得较好的收益。因此我们尝试从宏观经济变量出发,寻找预测市值风格的有效变量。针对宏观经济变量,本文主要从经济增长、价格水平、货币环境、国际贸易、利率水平五大类选取指标作为代表变量。

对于宏观数据的处理,我们认为需要考虑其发布滞后性和及时使用性,特别是在进行预测时需要注意没有使用未来信息。本文将所有宏观数据按其发布时间滞后使用。例如,8月份的CPI通常于9月份中旬公布,因此我们将在9月底基于8月的CPI数据建模。

2) 市场状态变量

在交易活跃、流动性强的市场环境下,我们通常会看到积极的市场情绪以及小盘股收益上升。因此本文从市场表现、市场流动性、市场波动率、市值估值、市场风格、跨市场联动等多角度捕捉市场状态,并建立其与市值风格的关系。

市场状态指标多基于交易数据计算,即一般为日频数据。本文采用月底最后一个交易日的数值将日频指标转换为月频。

3) 因子特征变量

由于本文选用市值因子表现来度量市场市值风格,我们加入一类特殊的指标,即因子特征指标。因子特征指标又称为“Factor of Factor”。最近几年,海外机构在“Factor of Factor”方法上进行了丰富的讨论和研究,其中最常用且最知名的一类指标便是估值价差(Value Spread)。

在个股中,估值指标常被用于预测收益。这方面的研究最早可以追溯到 Fama and  French[1988]和 Campbell and Shiller[1988]的研究。我们通常使用估值指标来评价一类资产是“昂贵”还是“便宜”。一些学者将估值的概念引申到其他投资组合中(Vuolteenaho [2002], Cohen, Polk, and Vuolteenaho[2003], Lochstoer and Tetlock [2016] and Asness, Chandra, Ilmanen, and Israel[2017]等人)。估值价差便是将估值概念引入因子领域,Asness, Friedman, Krail, and Liew[2000]和 Cohen, Polk, and Vuolteenaho[2003]在美国市场中测试估值价差信号,发现估值价差能够显著预测收益。

本文选用市值因子多头组和空头组估值中位数的比率计算市值因子的估值价差。这里,和大多数文献一样,本文选择比率而非多头组和空头组估值中位数的差来计算因子估值价差指标。从理论的角度来看,这样做的优势并不是很明显,但这种方法可以避免价格水平变化的影响。

同时我们将估值价差的概念推广至其他指标(如波动率、换手率),市值因子的*差值(Spreads)的具体计算方法如下:

1)将股票按因子值分为10组,将第1组作为高组别,第10组作为低组别;

2)计算高组别和低组别对应指标如BP的中位数之比;

同时我们将因子过去一段时间的业绩表现加入模型,即因子过去12个月IC均值和标准差。

4) 其他衍生变量

考虑到投资者对于指标的边际变动更敏感,本文基于差分法计算上述指标的变动放入模型。具体的:

a)  宏观经济变量

在宏观经济指标中有计算两种增长率的方式,同比与环比。其中:同比用于消除季节变动的影响,是本期数据与上年同期作对比;环比用于衡量指标逐期的发展速度,是本期数据与上期数据做对比。同比指标与环比指标无法直接对比。

本文对环比指标计算年变动(本期数减上年同期);同比指标计算月变动(本期数减上月同期),希望能使衍生变量囊括更多的信息。同时对于PPI、社会融资规模等水平值,我们将其月变动、年变动、年变动的月变动一并放入指标库。

b)市场状态指标

前面我们提到市场状态通常为日频指标,我们采用月末值将其转换为了月频。本文也加入了市场状态指标的月变动值,来衡量指标本月与上月的变化。

c)季节与月度效应

为了探究季度与月度效应的影响,本文将当月和当季两个变量放入指标库。

2.3

分类 or 回归?风格轮动模型初探

在梳理完风格轮动指标体系之后,我们可以借助量化模型建立上述指标库的因子与风格轮动信号之间的关系。

一般的建模方法可分为:1)回归模型;2)分类模型。两者的区别为标签值(模型的Y,本文特指市值风格信号)是连续值还是离散值。如前所述,本文选择忽略风格的强弱信息,将IC连续值转换为离散值进行建模。即我们认为,在处理风格轮动问题上分类模型是优于回归模型的,主要原因如下:

最常用的回归算法便是多元线性回归(OLS),然而该模型假设众多,而这些假设在实践中常常被违背。当我们用线性回归进行拟合时,可能会遇到很多问题。其中经常出现的有以下几种:

1)非线性的预测关系:线性回归模型假设预测变量与标签Y之间有线性关系。如果真实关系是非线性的,那么我们得出的结论几乎都是不可信的,且模型的预测精度也可能显著降低。

2)误差项自相关:线性回归的一个重要假设是误差项之间不相关。如果误差项相关,那么模型的置信度几乎是无法保证的。那么为什么误差项会有相关性?这种相关关系经常出现在时间序列数据,即在离散时间点测量得到的观测值构成的数据中。很多情况下,在相邻时间点获得的观测误差有正相关关系。而本文所需要构建的正是时间序列模型。

3)误差项方差非恒定:线性回归的另一假设是误差项的方差是恒定的。线性模型中的假设检验和标准误差、置信区间的计算都依赖于这一假设。然而,通常情况下,误差项的方差不是恒定的。这一问题可用加权最小二乘(WLS)改善,但 WLS中又引入了新的假设,即需要假设原始方差误差与预测变量之间的关系式。

4)时间序列的“伪回归”:在时间序列模型中,经常遇到一个问题便是伪回归问题。伪回归通俗的来说是指,两个变量之间本身是不存在任何关系的,但是因为这两个时间序列数据表现出的变化趋势是一致的。所以,当对其进行回归时候会得到一个很高的可决系数,会误以为这一回归关系显著成立。通常我们会检验预测变量的平稳性,当其与y值同阶平稳时,才能在两者之间构建回归关系。然而这提升了对变量的要求,使得很多变量无法加入到预测模型中,损失了大量信息。

在实践中,识别和解决这些问题是一门科学,也是一门艺术。无数的书籍和章节中都在讨论这个话题。同时在组合构建时,我们更关注的是市场的相对风格,即目前究竟是大盘股更优还是小盘股更优,因此选择性的放弃风格强弱信号,似乎是更明智的。

如果仅拥有分类信息,对于收益能够提升多少呢?下面我们简单构建一个例子:将每期的市值因子值与下一期的IC值进行相乘,即假设在每个月底能够提前知道下个月的市场风格(完美预测)。2014年1月到2019年10月,IC表现如下:

可以看出仅成功捕捉分类信息带来的收益就足够丰厚了。因此本文选择Adaboost和逻辑斯特回归两种分类模型来构建预测模型,而这两个模型都有效的从根本上避免了多元线性回归的高假设问题。

3、分类模型之一:基于Adaboost模型的风格轮动模型

3.1

模型简介

兴业金工前期报告《基于集成学习算法的量化选股模型研究》中,我们对Adaboost算法进行了详细介绍,并发现其在选股领域具有较好的效果。

本文将进一步利用Adaboost进行市值风格预测,建立指标与市值风格的联系。下面我们对Adaboost算法进行简单介绍。

Adaboost是集成学习中Boosting方法的代表,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。具体算法如下:

1)初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N。

2)训练弱分类器。具体训练过程中,如果某个样本点已经被准确地分类,那么在构造下一个训练集中,它的权值就被降低;相反,如果某个样本点没有被准确地分类,那么它的权值就得到提高。然后,权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。

3)将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。换言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

Adaboost可以选择不同的分类模型作为基模型,本文选用最为常见的决策树模型作为基模型构建弱分类器。同样是基于决策树的组合算法,相对随机森林的Bootstrap Sampling重采样技术,Adaboost的权重调整是在上一个弱分类器的基础上进行的,更具目的性。

3.2

测试框架

本文以2005年1月-2013年12月为训练集,2014年1月-2019年10月为测试集。考虑到我们希望模型稳定,寻找长期有效的指标,且样本数量尽可能的多,本文采用拓展模型进行滚动建模。同时在每期建模时剔除存在缺失值的变量,并对预测变量进行Zscore标准化处理。具体滚动建模流程如下:

AdaBoost模型需要调节的参数包括:

1) 树的最大深度(max_depth):本文所选弱分类器为决策树,因此需要调节的参数之一为决策树的深度。通常来说,Adaboost的弱分类器不宜过于复杂。决策树最大深度一般设置为1~2,本文将其定为2。

2) 学习率 (learning_rate):学习率为每个弱学习器的权重缩减系数,意义等同于正则化项,可用于提升模型的泛化能力,默认值为1。弱学习器数量和学习率共同影响了模型效果,本文将学习率定为默认值,通过改变弱分类器数量来调节模型效果。

3) 弱学习器数量(n_estimators)

本文最终的选取参数如下表所示:

在上述3个参数中,最重要的参数便是弱学习器数量,本文综合考虑模型效果和稳定性,最终选择了30个弱分类器,在3.5中我们会对参数敏感性进行测试。

3.3

Adaboost模型预测结果

Adaboost样本外预测准确率达64.29%。从图表16可以看出,Adaboost模型多次成功捕捉到了2017年之后的大市值风格。

同时本文利用每期的预测值调整市值因子方向,形成调整后市值因子:若预测值为1,因子值保持不变,当预测值为-1,将因子值转变为逆序。

本文采用以下两个指标对预测结果进行评价:

1)样本外调整后因子IC表现;

2)样本外调整后因子分位数组合测试结果。

3.4

所选变量分析

由于本文所选基模型为决策树模型,则可根据基尼系数从信息增益角度评价每一个变量的重要性。具体来说,在树的构建中,每个特征我们都会计算基尼指数,特征重要性就是这个基尼指数减少量的归一化值。对所有弱分类器的特征重要性结果进行平均便得到Adaboost模型的特征重要性。本文以此指标来判断模型中每个变量所起作用。

首先我们计算每期模型中重要性不为0的变量个数,如图表20所示,所选出变量个数大致在50-60之间浮动。

我们列出平均特征重要性前十的变量,以探究对A股市值风格长期来看有重要影响的变量。需要注意的是,特征重要性只能衡量变量的相对作用,而无法判断变量和标签的具体关系。

3.5

参数敏感性分析

在前面的章节中,我们将弱分类器个数设为30个。这里,我们将对弱分类器个数做敏感性分析。本文我们遍历弱分类器从1到100的预测结果,从各项指标来看:当弱分类器从1上升到20左右时,对于预测结果的提升十分明显;而之后随着弱分类器上升,预测效果提升有所放缓,直到弱分类器个数为30左右时,预测效果趋于平稳。从IC均值来看,30左右的参数一直维持着较高水平(6%以上)。综上,我们将弱分类器个数定为30。

4、分类模型之二:基于逻辑斯特回归的风格轮动模型

4.1

模型简介

逻辑斯特回归是一种广义线性回归(generalized linear model),与多重线性回归分析有很多相同之处。然而,线性回归中所预测的y为连续值,逻辑斯特回归则用于处理分类问题。

如果用一句话来总结逻辑回归:“逻辑回归假设因变量服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的”。其中需要的假设仅为因变量服从伯努利分布,相较于线性回归的高假设,有很大的放宽,其避免了多重线性回归可能引发的多个问题。

逻辑斯特回归对Y属于某一类的概率建模而不对变量Y建模。对于我们的风格轮动问题而言,逻辑斯特回归需要建立的预测模型,可以认为是:

4.2

测试框架

在逻辑斯特回归中,我们同样以2005年1月-2013年12月为训练集,2014年1月-2019年10月为测试集,采用拓展模型进行滚动建模。逻辑斯特回归模型需要调节的参数仅有一个,即 L1正则项的系数,这里我们取1,之后在4.5中进行了参数敏感性测试。

4.3

逻辑斯特回归预测结果

逻辑斯特回归样本外预测准确率达70.00%,略优于Adaboost模型。同样的,逻辑斯特回归多次捕捉到A股的大市值风格。

4.4

所选变量分析

由于在建模之前我们对预测变量进行了标准化处理,因此回归系数的绝对大小可体现逻辑斯特模型中变量的重要性。数值越大,变量越重要。

我们同样计算每期模型中所囊括的变量个数,可以看出在逻辑斯特回归中的变量较Adaboost要少,在30-45个之间波动,我们认为加入Lasso之后的逻辑斯特回归可以有效挑选出重要变量。

同样的,本文计算逻辑斯特回归中平均重要性前十名的变量。逻辑斯特回归为广义线性模型,其模型具有较好的可解释性,变量的符号可表明变量与预测为小市值风格的概率正相关还是负相关:若符号为正,即变量越大,市值风格为小市值的概率越大;若符号为负,即变量越大,市场风格为大市值的概率越大。

下面我们从经济逻辑出发对所选变量进行进一步分析,这有助于我们深入理解模型结果,增强对模型的信心。

1)根据模型,PPI:全部工业品为影响市场市值风格的价格水平层面核心变量,其月变动值越高,市场为大市值概率越高;其年变动的月变动值越高,市场为小市值概率越高。PPI是厂商生产产品的成本,其上升通常预示着通货膨胀,此时货币政策可能趋于偏紧,使得市场流动性不足,利好蓝筹大盘股。

2)社会融资规模为全面反映金融与经济关系,以及金融对实体经济资金支持的总量指标,当其提升,经济可能属于复苏阶段,此时人们的风险偏好上升,小市值股票更有可能获得高收益。

3)BP_Spread与EP_TTM_Spread是因子估值水平的代表,其与小市值收益从逻辑上看应当为反向关系,而这与模型结果一致。

4)M1同比增加代表市场资金更加充裕,通常利好小市值股票。

5)Above MA20 dummy为1代表市场情绪积极,此时对小市值股票通常更有利。

4.5

参数敏感性分析

在前面的章节中,我们将L1正则项的系数设为1。本节将对此参数做敏感性分析。我们遍历了参数取值为0.1、0.2、0.3……1 等的各种情况,从测试结果来看:当弱分类器数量由 0.1提升至1时,各指标基本维持上升状态,因此本文选取系数为1。

5、双剑合璧,基于双模型预测结果的风格轮动模型

5.1

模型简介

上文,我们分别基于Adaboost与逻辑斯特回归给出了市值风格预测结果,且两者都有较好的结果。本节我们将两个模型的预测结果进行融合,希望能够在此基础上进一步提升模型效果,融合方式如下所示:

1、 获取Adaboost模型的预测信号A;

2、 获取逻辑斯特模型的预测信号B;

3、 在每个月底:

a)若A=B,则双模型预测结果与单一模型的一致;

b) 若A与B不同,则依据模型置信度(过去12个月的预测准确率)给定当前预测值,即如果Adaboost模型过去12个月预测正确的月数大于逻辑斯特回归模型,则本期选择Adaboost模型预测结果作为预测结果。

4、 如果过去预测月数不满12个月或两模型置信度一致(预测结果不一致)时,考虑到A股小市值溢价出现概率更高,我们将预测值定为1。

则我们拥有了2014年1月-2019年10月的双模型融合的预测结果。下面我们对其效果进行测试。

5.2

双模型融合预测结果

双模型融合的预测准确率达71.43%,在两个基础模型的效果上进一步提升。同时由双模型融合的预测结果调整后的市值因子在多个指标上也表现更优。

6、实践应用

上文我们利用市值因子IC表现将市场风格划分为大市值占优与小市值占优两种,并基于Adaboost与逻辑斯特回归两种分类模型给出预测结果。下面我们将基于各模型(Adaboost、逻辑斯特回归、双模型融合)的预测结果构建指数轮动与指数增强策略。

6.1

指数轮动策略

6.1.1 沪深300 vs 中证500指数轮动策略

本文首先依据预测结果构建沪深300中证500指数轮动策略,具体构建步骤如下:

1) 回测时间段:2014年1月至2019年10月。

2) 轮动方式:在每个月末基于预测模型发出信号进行交易:

a)     若发出信号值为1,则购买中证500指数

b)     若发出信号值为-1,则购买沪深300指数。

在第二章中,我们提到常用的划分市值风格的方法有两类:基于规模指数相对表现或基于市值因子相对表现。上文我们基于市值因子表现建立市值风格轮动研究框架且取得了令人满意的预测结果。

下面我们首先对比规模指数相对表现(中证500指数收益-沪深300指数收益)和市值因子IC两种信号值构建的沪深300 vs中证500指数轮动策略上限,可以看出采用市值因子IC所构建的策略上限与规模指数相对表现差距并不大,即此信号不仅适用于选股领域,在指数型产品投资上也发挥作用。

由图表41可以看出,基于各模型预测结果构建的指数轮动策略较等权策略在年化收益率、夏普比率等指标上有明显的提升,年化收益率分别达15.45%(Adaboost)、13.55%(逻辑斯特)与14.42%(双模型),夏普比率达0.58(Adaboost)、0.5(逻辑斯特)与0.52(双模型)。

同时从上述结果中可以看出:Adaboost模型的预测正确率低于逻辑斯特回归,然而其在指数轮动策略上的表现更佳。经过对预测结果深度剖析,我们发现主要原因是:Adaboost预测正确的一些月份带来了更高的收益,而逻辑斯特回归在某些月份中虽然预测正确,收益却并不明显。

如图表42所示,在Adaboost模型预测正确,而逻辑斯特回归预测错误的所有月份中,两个模型构建的指数轮动策略收益差总和为20.40%,而逻辑斯特回归预测正确,Adaboost模型预测错误的所有月份中,两个模型构建的指数轮动策略收益差总和为14.93%。

以两个具体预测结果为例,2017年4月与11月,市场风格均为大市值。

1)2017年4月:Adaboost模型预测正确,选择购买沪深300指数,当月收益为1.54%;而根据逻辑斯特回归预测结果,选择购买中证500指数,当月收益为-6.24%。指数轮动策略收益差为7.79%,位于所有收益差的约90%分位点。

2)2017年11月:逻辑斯特回归预测正确,选择购买沪深300指数,当月带来的收益为0.62%;而根据Adaboost模型结果,选择购买中证500指数,当月收益为-0.20%,指数轮动策略收益差为0.82%,位于所有收益差的约40%分位点。

6.1.2 沪深300 vs 中证1000指数轮动策略

下面我们依据预测结果构建沪深300 vs中证1000指数轮动策略,中证1000指数更能凸显出小盘股效应,然而其相关投资工具相对较少,我们在这里展现相关轮动策略结果。从策略上限来看,两种信号构建的轮动策略表现相差依旧不大。

由图表48可以看出,基于模型预测信号构建的中证1000 vs沪深300指数轮动策略较等权策略在收益率等指标上的提升更加明显,各策略年化收益率分别达18.21%(Adaboost)、17.59%(逻辑斯特回归)与18.06%(双模型融合),而等权为4.00%。

6.2

指数增强策略

指数增强策略一般是指在控制跟踪误差的前提下尽可能的获得超额收益,主动与被动相结合的理念使其受到极大的关注。组合优化为指数增强中极其重要的方法,在控制风格暴露、换手率、个股权重一定范围的条件下达成如收益最大化或风险最小化等目标。

在组合构建中,一般情况下会选择控制市值中性,即避免组合过度暴露于市值风格。然而,本文证明当加入市值风格预测信息,能相应的提升策略效果。

为说明加入市值风格预测信息的作用,本文从一类简单的组合优化模型(极小化跟踪误差)入手,探讨风格预测信号对于指数增强策略的效果提升。我们基于预测信号对组合的市值暴露进行控制,其主要思想是当市场风格偏向大市值股票时,加大大市值的暴露,同样的,在市场风格偏于小市值时,加大小市值股票的暴露。

各指数增强策略结果如下表所示,从年化超额收益率来看,随着因子暴露阈值的增大,年化收益率持续增强,说明根据预测结果进行市值暴露的调整能够增加收益。同时从夏普比率来看,各组合皆维持一个较高的水平(大多在2以上)。换言之,市值因子的暴露在增强收益的同时,并未过多的增加风险。

7、结论

风格投资是现代证券市场的一个重要概念,有效捕捉风格轮动能够为策略带来超额收益。本文立足于A股市值风格轮动研究,以市值因子(流通市值)IC表现来划分A股市场大小市值风格,利用机器学习模型预测风格信号,并基于预测信号构建指数轮动、指数增强策略,力求为投资者进行风格切换提供帮助。

我们从宏观经济、市场状态、因子自身特征三个方面搜集变量用于建模,同时基于Adaboost和逻辑斯特回归两个分类模型建立预测模型,模型样本外(2014.1-2019.10)预测准确率分别为64.29%,70%。通过两个模型预测结果调整后的市值因子2014年1月-2019年10月IC均值高达7.62%、8.36%,较基准的2.99%有大幅度提升,同时多空组合年化收益率达48.19%、50.16%。

本文将两模型的预测结果进行融合,得到双模型融合预测结果。在两个模型的基础上进一步提升了表现,样本外预测准确率达71.43%。双模型融合预测结果调整后的市值因子2014年1月-2019年10月IC均值为9.48%,多空组合年化达55.81%。

我们通过预测结果构建沪深300 vs中证500指数轮动策略,2014年1月至2019年10月间各模型构成的指数轮动策略年化收益分别为15.45%、13.55%、14.42%,较中证800的5.94%与等权策略的4.82%提升显著。同时从夏普比率来看,各模型预测结果构成的指数轮动策略分别达0.58、0.5、0.52,而中证800和等权策略仅为0.24、0.19,有一个极为明显的上升。

同时本文也基于预测结果构建中证800指数增强策略,通过主动控制市值暴露在市值完全中性的基础上增加了年化收益率。本文证明当加入市值风格预测信后,能进一步提升指数增强策略效果,因此本文的研究有着重要的实践意义。

8、今年以来各模型表现&各模型最新观点

8.1

今年以来各模型预测结果

我们统计了2019年1月-2019年10月各模型预测结果。从结果来看,Adabosst与双模型融合的结果更好,而逻辑斯特回归稍逊一筹。

8.2

各模型最新观点

同时我们根据10月底的预测变量和模型对11月的市值因子IC表现进行预测,结论为大市值占优概率更大(信号值为-1,市值因子IC为负)。

截止2019年11月24日,市值因子与股票涨跌幅的秩相关系数为-0.12,即截至目前(11月24日)市场偏向大市值,与月初判断一致。

参考文献

[1]Sharpe,WillianF,1992,”Asset allocation:Management style and performance measurement,”

Journal of Portfolio Management 18,7-10

[2] Kahn, Virginia. “A Question of Style: Must Consistency Equal Mediocrity in Mutual Funds?” Financial World, July 8, 1996, pp. 70-75.

[3] Levis, Mario. “Are Small Firms Big Performers?” The Investment Analyst, 76 (April 1985).

[4]  Quigley, Garrett and Rex Sinquefield, Performance of UK Equity Unit Trusts[J].

Journal of Asset Management, 2000, 1(1), 72-92. 

[5] Chan, L.K.C., Chen, H. -L., Lakonishok,J.. On mutual fund investment styles[J],

Review of Financial Studies. 2002(15):1407 -1437.

[6]  Teo,Woo.Style  Effects  in  the  Cross-section  of  Stock  Returns[J].  Journal  of  Financial Economics, 2004(74):367-398.

[7] Chen,H., De Bondt, W.F.M..  Style  Momentum  Within  the  S&P  500  index[J]. Journal of Empirical Finance. 2004(11):483 -507.

[8]Stovall,Sam.1996.Standard&Poor's guide to sector investing(McGraw-Hill).

[9] Avramov, Doron , and R. Wermers . "Investing in Mutual Funds When Returns are Predictable." Social Science Electronic Publishing.

[10] Stangl,Jeffrey,Jacobsen et al.Sector Rotation over Business-Cycles.20th Australasian Finance &Banking Conference 2007 paper,2007,9

[11]  Lorne N.Switzer.The behabiour of small cap vs large cap stocks in recessions and recoberies:Empirical evidence for the United States and Canda[J].North American Journal of Economice and Finance 21(2010)332-346

[12]  Banz R W. The relationship between return and market value of common stocks[J]. Journal of Financial Economics, 1981, 9(1):3-18.

[13]  Fama, Eugene F. and Kenneth R. French (2012), Size, value, and momentum in international stock returns. Journal of Financial Economics.

[14] Campbell, J. and R. Shiller (1988). The dividend-price ratio and expectations of future dividends and discount factors. Review of Financial Studies 1 (3), 195–228.

[15]  Vuolteenaho, T. (2002). What drives firm-level stock returns? The Journal of Finance 57 (1), 233– 264. 

[16]  Asness, C. S., J. A. Friedman, R. J. Krail, and J. M. Liew (2000). Style timing: Value versus growth. Journal of Portfolio Management 26 (3), 50–60.

[17] Cohen, R. B., C. Polk, and T. Vuolteenaho (2003). The value spread. The Journal of Finance 58 (2), 609–641.

风险提示:文献中的结果均由相应作者通过历史数据统计、建模和测算完成, 在政策、市场环境发生变化时模型存在失效的风险。

当线性模型遇见机器学习

基于集成学习算法的量化选股模型研究

注:文中报告节选自兴业证券经济与金融研究院已公开发布研究报告,具体报告内容及相关风险提示等详见完整版报告。

证券研究报告:《因子轮动研究系列之一:基于机器学习方法的A股市值风格轮动研究》。

对外发布时间:2019年11月25日

报告发布机构:兴业证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)

--------------------------------------

分析师:徐寅

SAC执业证书编号:S0190514070004

电话:18602155387,021-38565949

E-mail: xuyinsh@xyzq.com.cn

--------------------------------------

更多量化最新资讯和研究成果,欢迎关注我们的微信公众平台(微信号:XYZQ-QUANT)!