小白量化系列-“机构调研”事件研究(一)

发布于: 雪球转发:0回复:0喜欢:0

收盘之后,小F正在看财经新闻,忽然一则新闻吸引了注意力-《400亿的基金经理教你如何布局三季度-明星基金经理的调研路径》。
“这种新闻,散户看了肯定都会去追!我要赶紧拿出我的小金库来冲一波!”
“先等等!要不要测试一下看看?”

数据准备

说干就干,首先看一下哪里有没有比较规整的数据源可以用。

常用的数据源有以下几个,一般可以和数据商先沟通一下有没有对应数据,如果有就可以直接用,没有就需要自己想办法处理,比如手动下载或者写爬虫,etc.

1. wind数据库(filesync)

2. 朝阳永续数据库(盈利预测数据库2.0)

3. 通联数据 ……

这次正好wind数据库有对应收集好的数据,那么先来看看数据是什么样的,数据质量如何。

一般检验数据时,可以考察下面几个方面:

1. 数据覆盖历史

2. 数据内容格式

3. 数据质量

“老林,快看我的day1的成果。”
正在准备的时候,小F发来了ta的初步回测结果,还挺快!让我们来瞅瞅。

小F的思路是从调研次数入手,从发生一次,再到一段周期内发生多次调研,确定回测效果最好的调研次数之后,再回测最好的持仓周期。在此思路下,给了一个类似胜率的统计结果。老林的评价是,“大体上抓到了主要矛盾,细化工作还有很多。”

接下来我们继续数据的准备工作。
wind数据库里相关的表是如下几张,分别检查一下。

还有如下几张相对有关系的表,暂且按下不表
* AShareEarningEst(中国A股盈利预测明细)
* AShareConsensusData(中国A股盈利预测汇总)
* AShareStockRating(中国A股投资评级明细)
* AShareStockRatingConsus(中国A股投资评级汇总)

得到几个结论:

1. AshareISActivity表里有调研的日期、类别、人数、参与方式信息。从2019年1月1日开始,共有5万多条记录。

2. AShareISParticipant表可以关联到AshareISActivity表,获取每次调研活动的机构名单。

AshareISActivity格式如下:

AShareISParticipant格式如下:

在初步印象中该有的信息应该都是有的,从老林的主观印象中判断,调研活动类别、次数,调研人数,参与者类型应该对股价是会有比较大影响的。不过还不到测试这一步,接下来先来看看数据的质量。一般看数据质量是去抽样核对一下数据的准确性和完备性,此处略过不表。

完成质量的初步检查后,接下来我们先对数据进行一个大致的汇总,对我们拥有的材料有个更细致的了解。

(未完待续……)