第一期的研报复现大赛已经落下帷幕啦~
再次感谢朋友们的踊跃参与和大力支持~
所有的匍匐都只是高高跃起前的热身,
第二期的赛事即将开启,我们期待您的参与!
第一期研报复现比赛已经结束,通过15天的社区公开审核,综合社区人气指标进行评选,本次研报复现比赛的最终结果公布如下:
排名前三的作者分别是
>>> 1. 一梦春秋
>>> 2. lan666
>>> 3. k线放荡不羁
在第一期的研报复现活动中收到了许多小伙伴们的投稿,也感受到了诸位量化爱好者的热情,再次感谢各位小伙伴对本次比赛的支持与厚爱。
我们也希望通过这样的活动,能够传递基础的量化研究方法、了解量化策略构建流程,能通过比赛任务的方式促进小伙伴们快速成长。
为此,我们调整了第二期的赛事规则,更多聚焦于研究思路与因子处理过程,任务内容也更加灵活。错过了第一期比赛任务与未能取得满意成绩的小伙伴,不要灰心哦,第二期即将开始,敬请期待!
>>> 研究目的
本文参考广发证券《基于日内高频数据的短周期选股因子研究-高频数据因子研究系列一》,对研报构造的因子做了实现,并复现了里面的结果,做出了分析。其中用个股日内高频数据构造选股因子,低频调仓的思路是一个很好的方向。
>>> 研究内容
基于个股日内高频数据,构建了已实现波动(Realized Volatility) ,已实现偏度(Realized Skewness)、已实现峰度(Realized Kurtosis)因子指标,考察这三个因子在回测区间内对个股收益率 的区别度。
>>> 研究结论
在三个因子中偏度RSkewRSkew因子最有效,分组区分度高,比较稳定,收益最高。
因子构建过程摘自研报,具体因子指标构建如下:
1.对于每个个股在交易日t,首先计算个股在特定分钟频率下第i个的收益率
其中,pt,i表示在交易日t,个股在第i个特定分钟频率下的对数价格,pt,i-1表示在交易日t,个股在第i-1个特定分钟频率下的对数价格。
2.对于每个个股,根据,分别计算个股在交易日t下的已实现方差(Realized Variance) RDV art、已实现偏度(Realized Skewness)RDSkewt,已实现峰度(Realized kurtosis)RDKurtt。其中:
其中N表示个股在交易日t中特定频率的分钟级别数据个数,如在1分钟行情级别下,数据个数N为60*4=240;在5分钟行情级别下,数据个数N为240/5=48。
1.对于每个个股在交易日t计算累计已实现波动(Realized Volatility)RVolt,已实现偏度(Realized Skewness)RSkewt,已实现峰度(Realized Kurtosis)RKurtt,其中:
在每期调仓日截面上,按照上述公式计算每个个股的已实现波动(Realized Volatility)RVolt,已实现偏度(Realized Skewness)RSkewt,已实现峰度(Realized Kurtosis)RKurtt指标,针对每个由高频数据计算得到的因子指标在历史上的分档组合表现,试图寻找出相对有效的因子指标。
计算因子值的过程比较慢,大概耗时1小时左右。如果直接下载我构造好的数据文件(factor_dict.pkl)上传到研究里可以跳过这一步,直接到因子特征展示开始执行。
之后开始计算因子值。
通过上文中的代码,已经获取到了中证500成分股2013-2019的因子数据。
以下分别从因子频率分布、因子百分位走势2个维度展示因子特征。
从以上因子分布三图看出,整个A股市场个股的波动率分布整体上呈现右偏分布;个股的偏度分布,整体偏度水平保持在零附近,呈现较为明显厚尾状态;个股的峰度分布与个股波动率水平类似,分布整体上右偏,且样本内个股的峰度水平大部分大于3,呈现厚尾的现象。
和研报中的三个因子分布图情况和结论相同。
从以上三图看出,个股的波动率在不同的时间维度上变化较大,当市场趋势行情较明显时候,个股波动率水平整体上呈现上升的趋势;个股偏度水平整体较为稳定;个股峰度水平在极端行情下峰度更高,且不同分位数差异更加明显。
和研报中的三个因子百分位走势图情况和结论相同。
由以上累计收益率5档图看出,偏偏度RSkew因子分档很明显,单调性显著;RVol因子分档不明显,峰度RKurt因子的区分度比偏度RSkew略微弱一些,但好于RVol因子。
和研报结论相同。
从以上多空累计收益三图可以看出,偏度RSkew因子多空收益最高,也比较稳定,基本上一直在上行,进一步验证了RSkew因子的有效性。峰度RKurt因子在2013-2014年多空收益在0上下徘徊,和峰度RKurt因子分档累计收益图中2013-2014区分度不明显情况相同。
r_skew ic 小于0的个数占比:0.6600660066006601
r_kurt ic 小于0的个数占比:0.66996699669967
从以上IC三图可以看出,偏度RSkew因子平均IC基本都小于0,且IC负值占比超过6成,预测能力较好。
偏度RSkew因子在中证500指数下2013-2019年IC小于0的个数占比为66%,和研报中中证500的IC统计结果近似。受限于研究的内存和因子构建执行时间,我没有使用全市场数据计算,研报中全市场数据的IC小于0的个数占比未验证。
这里不知道换手率统计的对不对。我只考虑了两个调仓日之间,每个档位更换股票占原股票的比例。偏度RSkew因子子的换手率比较稳定,基本上每期都要把持仓更换一遍。
看散点分布情况,换手率分布大部分在85%以上,考虑到时间选取和算法的不同,和研报中给出的平均80%换手率也算接近。
本研究从因子分布和因子百分位走势对因子特征做了展示,从累计收益率、多空收益、因子IC、换手率几个角度做实证分析。
总的来说,本研究使用中证500指数2013-2019年的数据选股,对研报中的内容基本上都做了复现,得出结论:三个因子中偏度RSkew因子最有效,分组区分度高,比较稳定,收益最高。
点击【阅读原文】,查看研究源码~