券商研报复现挑战赛|回望来时路,砥砺再出发

第一期的研报复现大赛已经落下帷幕啦~

再次感谢朋友们的踊跃参与和大力支持~

所有的匍匐都只是高高跃起前的热身,

第二期的赛事即将开启,我们期待您的参与!



第一期研报复现结果回顾


第一期研报复现比赛已经结束,通过15天的社区公开审核,综合社区人气指标进行评选,本次研报复现比赛的最终结果公布如下:


排名前三的作者分别是

>>> 1. 一梦春秋

>>> 2. lan666

>>> 3. k线放荡不羁


在第一期的研报复现活动中收到了许多小伙伴们的投稿,也感受到了诸位量化爱好者的热情,再次感谢各位小伙伴对本次比赛的支持与厚爱。

我们也希望通过这样的活动,能够传递基础的量化研究方法、了解量化策略构建流程,能通过比赛任务的方式促进小伙伴们快速成长。

为此,我们调整了第二期的赛事规则,更多聚焦于研究思路与因子处理过程,任务内容也更加灵活。错过了第一期比赛任务与未能取得满意成绩的小伙伴,不要灰心哦,第二期即将开始,敬请期待!


第一名研报作品展示


引言


>>> 研究目的

本文参考广发证券《基于日内高频数据的短周期选股因子研究-高频数据因子研究系列一》,对研报构造的因子做了实现,并复现了里面的结果,做出了分析。其中用个股日内高频数据构造选股因子,低频调仓的思路是一个很好的方向。


>>> 研究内容

基于个股日内高频数据,构建了已实现波动(Realized Volatility) ,已实现偏度(Realized Skewness)、已实现峰度(Realized Kurtosis)因子指标,考察这三个因子在回测区间内对个股收益率 的区别度。


>>> 研究结论

在三个因子中偏度RSkewRSkew因子最有效,分组区分度高,比较稳定,收益最高。



因子构建


因子构建过程摘自研报,具体因子指标构建如下:

1.对于每个个股在交易日t,首先计算个股在特定分钟频率下第i个的收益率

其中,pt,i表示在交易日t,个股在第i个特定分钟频率下的对数价格,pt,i-1表示在交易日t,个股在第i-1个特定分钟频率下的对数价格。

2.对于每个个股,根据,分别计算个股在交易日t下的已实现方差(Realized Variance) RDV art、已实现偏度(Realized Skewness)RDSkewt,已实现峰度(Realized kurtosis)RDKurtt。其中:

其中N表示个股在交易日t中特定频率的分钟级别数据个数,如在1分钟行情级别下,数据个数N为60*4=240;在5分钟行情级别下,数据个数N为240/5=48。

1.对于每个个股在交易日t计算累计已实现波动(Realized Volatility)RVolt,已实现偏度(Realized Skewness)RSkewt,已实现峰度(Realized Kurtosis)RKurtt,其中:

在每期调仓日截面上,按照上述公式计算每个个股的已实现波动(Realized Volatility)RVolt,已实现偏度(Realized Skewness)RSkewt,已实现峰度(Realized Kurtosis)RKurtt指标,针对每个由高频数据计算得到的因子指标在历史上的分档组合表现,试图寻找出相对有效的因子指标。



构造因子数据


计算因子值的过程比较慢,大概耗时1小时左右。如果直接下载我构造好的数据文件(factor_dict.pkl)上传到研究里可以跳过这一步,直接到因子特征展示开始执行。

之后开始计算因子值。



因子特征展示


通过上文中的代码,已经获取到了中证500成分股2013-2019的因子数据。

以下分别从因子频率分布、因子百分位走势2个维度展示因子特征。


>>> 频率分布

从以上因子分布三图看出,整个A股市场个股的波动率分布整体上呈现右偏分布;个股的偏度分布,整体偏度水平保持在零附近,呈现较为明显厚尾状态;个股的峰度分布与个股波动率水平类似,分布整体上右偏,且样本内个股的峰度水平大部分大于3,呈现厚尾的现象。

和研报中的三个因子分布图情况和结论相同。


>>> 百分位走势

从以上三图看出,个股的波动率在不同的时间维度上变化较大,当市场趋势行情较明显时候,个股波动率水平整体上呈现上升的趋势;个股偏度水平整体较为稳定;个股峰度水平在极端行情下峰度更高,且不同分位数差异更加明显。

和研报中的三个因子百分位走势图情况和结论相同。



实证分析


>>> 因子选股分档表现

由以上累计收益率5档图看出,偏偏度RSkew因子分档很明显,单调性显著;RVol因子分档不明显,峰度RKurt因子的区分度比偏度RSkew略微弱一些,但好于RVol因子。

和研报结论相同。


>>> 因子多空收益

从以上多空累计收益三图可以看出,偏度RSkew因子多空收益最高,也比较稳定,基本上一直在上行,进一步验证了RSkew因子的有效性。峰度RKurt因子在2013-2014年多空收益在0上下徘徊,和峰度RKurt因子分档累计收益图中2013-2014区分度不明显情况相同。


>>> 因子分析

r_skew ic 小于0的个数占比:0.6600660066006601

r_kurt ic 小于0的个数占比:0.66996699669967

从以上IC三图可以看出,偏度RSkew因子平均IC基本都小于0,且IC负值占比超过6成,预测能力较好。

偏度RSkew因子在中证500指数下2013-2019年IC小于0的个数占比为66%,和研报中中证500的IC统计结果近似。受限于研究的内存和因子构建执行时间,我没有使用全市场数据计算,研报中全市场数据的IC小于0的个数占比未验证。


>>> 因子换手率

这里不知道换手率统计的对不对。我只考虑了两个调仓日之间,每个档位更换股票占原股票的比例。偏度RSkew因子子的换手率比较稳定,基本上每期都要把持仓更换一遍。

看散点分布情况,换手率分布大部分在85%以上,考虑到时间选取和算法的不同,和研报中给出的平均80%换手率也算接近。


总结

本研究从因子分布和因子百分位走势对因子特征做了展示,从累计收益率、多空收益、因子IC、换手率几个角度做实证分析。

总的来说,本研究使用中证500指数2013-2019年的数据选股,对研报中的内容基本上都做了复现,得出结论:三个因子中偏度RSkew因子最有效,分组区分度高,比较稳定,收益最高。

点击【阅读原文】,查看研究源码~

雪球转发:0回复:0喜欢:1