高频因子之股票收益分布特征丨优矿深度报告系列(十一)

本文利用优矿的分钟级别数据与回测框架,参考海通证券《选股因子系列研究(十九)——高频因子之股票收益分布特征》与《选股因子系列研究(二十五)——高频因子之已实现波动分解》中的研究方法,对研报的结果进行了实证分析,用以探索日内高频数据因子在选股方面的应用。

研究结论如下:

1.本文主要利用了股票分钟线数据,计算了收益的方差、偏度、峰度因子,并且将波动拆分成“上行波动+下行波动”的形式,实证偏度因子与上行波动因子具有选股的能力;

2.对偏度因子与上行波动因子剔除市值、行业、换手及反转因子相关性后,虽然选股效果有所减弱,但仍具备选股能力

3.从Fama-MacBeth回归结果、因子权重占比及TOP50股票纯多头回测来看,增加偏度因子与上行波动因子进入传统多因子模型是能提高模型效果的

第一部分:数据准备

1.1获取高频数据,并计算因子:

由于内存限制,该章节分为两小节;每15天读取一次高频数据,进行方差、偏度、峰度因子的计算,并存储在raw_data/high_freq_signal.csv;

读取上述文件,在每个月末计算该月因子的均值,当作最终因子值,存储在raw_data/high_freq_month_signal.csv。

1.1.1 计算每日因子

因子内存及时间限制,本文只考虑1分钟级别的行情数据,因为本章节读取的分钟级别数据过多,需要占用很多资源,建议该章节运行结束后重启环境释放已占资源,最终的结果进行了存储,重启不会影响后续章节运行。

重启研究环境的步骤为:网页版:先点击左上角的“Notebook”图标,然后点击左下角的“内存占用x%”图标,在弹框击重启研究环境,客户端:点击左下角的“内存x%”, 在弹框中点击重启研究环境。特别说明: 由于本节读取数据过多,时间过长,如果存在网络连接断开、内存不足系统强制重启等情况时,只需重跑相应cell中的代码即可,本节支持断点再续功能。

本小节共计算了9种因子,其中包括:

1.两种方法计算的方差、偏度、峰度因子,共2 X 3 = 6种因子:

2.上行波动因子、下行波动因子、上行波动占比因子,共3种因子:

1.1.2 合并每日因子得到月末因子

1.2 获取优矿因子数据,并进行处理

本章节读取常见的几个因子,并进行相关处理

winsorize

上界值=因子中位数+5*|中位数(因子值-因子中位数)|,下界值=因子中位数-5*|中位数(因子值-因子中位数)|,超过上下界的值用上下界值填充

neutralize和standardize

直接调用优矿的neutralize函数进行市值、行业的中性化

对中性化后的因子进行标准化,直接调用优矿的standardize函数

1.3 正交化处理

对1.1章节计算的高频因子进行正交化处理,主要是剥离市值、行业、换手等的影响


第二部分:单因子回测

2.1 高频收益因子——方差因子

从上述分组回测及IC来看,方差因子选股作用较差。

更进一步的,将波动拆分成"上行波动与下行波动"再次进行测试,得到如下效果:

可以看出,上行波动占比有较好的选股效用,其long-short组合的年化收益率在20.9%左右,信息比率1.97;从IC上看,平均IC在0.07左右,ICIR高于2.5。后续会针对该因子进行深入分析。

2.2 高频收益因子——偏度因子

从分组测试来看,有较好的区分结果,long-short组合有20%的收益率。IC上来说,均值维持在0.06左右,ICIR普遍高于2.5,后续会针对该因子进行下一步分析。

2.3 高频收益因子——峰度因子

从上述测试结果看出该因子也无选股效用,后续不对该因子进行分析。

2.4 正交化后的因子监控

从上述测试结果看出该因子也无选股效用,后续不对该因子进行分析

首先考察使用因子分组后的各组股票组合在市值、换手、动量等因子上的单调特征

2.4.1 上行波动占比因子

可以看出,偏度因子与市值、换手都有一定的相关性。所以需要正交化偏度因子,剔除市值等因素作用后再进行因子测试

可以看出,正交化后的上行波动占比因子虽然选股作用比之前减弱,但还是有较好的区分度。IC均值下降到0.027左右,但ICIR绝对值仍然高于2.5以上。

2.4.2 偏度因子

同样,该因子与市值、换手有很强的相关性,正交化后再测试偏度因子,效果如下:

同样的,正交化后的偏度因子虽然选股作用比之前减弱,但还是有较好的区分度。IC均值下降到0.033左右,但ICIR绝对值仍然高于2.5以上。


第三部分:多因子模型测试

3.1 Fama-Macbeth回归检验

分别对原始因子、及加入高频因子后的数据进行回归

查看可知, 分别加入偏度因子和上行波动占比因子后的T统计量均满足显著条件,说明有一定的选股作用

3.2 因子权重分配情况

利用过去12期的ICIR作为当期因子的权重,考察每期高频因子的权重占比

图形中可以看出,每期的高频因子占比大约在20%~40%左右,说明因子在模型中发挥了一定的作用。

3.3 因子合成及回测

3.3.1 因子合成

利用上述的IC计算的每期权重值,结合原始的因子暴露,可以进行因子的合成。

3.3.2 回测详情

选取中证全指作为选股股票池,每期选取TOP50股票做多,进行回测

可以看出,加入高频偏度因子后模型有少许提升,纯多头的年化收益从34.7%升至35.9%,IR从1.65提升到1.74。加入高频上行波动占比因子后,模型效果提升比偏度因子更为明显。纯多头的年化收益从34.7%升至36.2%,IR从1.65提升到1.88。

虽然从Fama-MacBeth回归与因子权重时序变化图上看出高频因子效果显著,但选取top50股票进行回测提升却很少,特别是偏度因子,主要原因可能是:

因子的收益显著主要集中在空头(从分组回测中可以看出),回测结果跟因子权重分配方式关系密切,本文利用过去12期的ICIR作为分配标准,可以尝试其他方法进行分配再查看回测结果。

参考

1、 海通证券 《选股因子系列研究(十九)——高频因子之股票收益分布特征》

 2、 海通证券 《选股因子系列研究(二十五)——高频因子之已实现波动分解》

意犹未尽?到优矿客户端和官网深度报告频道获取完整报告和源代码!!

专业版的用户可以查看并一键克隆所有的深度报告,试用专业版的用户可以查看并一键克隆当月的两篇报告,社区版的用户可以查看我们的报告,寻找研究思路。

@今日话题 $中兴通讯(SZ000063)$  $中国平安(SH601318)$ $阿里巴巴(BABA)$ 

雪球转发:1回复:0喜欢:1