【转载】JQData| 使用日期数据校验tick数据有效性

发布于: 雪球转发:0回复:0喜欢:0

在分析数据过程中,数据有效性非常重要,所谓garbage in garbage out,数据正确性得不到保证,结果的可信度就要打折扣。聚宽提供了很多数据api方便调用,其中tick数据包含了低粒度(秒级)数据成交的快照,具有较大的微观数据分析价值,但tick数据量大,由于各种原因(服务器,网络等)导致数据出现问题的几率偏大,但通常日级的数据可信度较高,所以我们可以用日级数据来检验下tick数据的有效性。例如针对一个个股600769.XSHG,我们可以取到它的tick数据,通过get_tick函数

df_tick=jd.get_ticks('600769.XSHG',start_dt='2018-07-02',end_dt='2018-07-10',count=None)

我们现在要检验这个tick数据的正确性,我们可以通过取日数据

df_day = jd.get_price('600769.XSHG',start_date='2018-07-02',end_date='2018-07-10',fq=None)

然后将tick数据按日重采样

d1 = df_tick.price.resample('1D').mean()
d1.dropna(inplace=True)
d2 = pd.concat([d1, df_day.close], join='inner', axis=1)
d3 = d2[abs(d2.price / d2.close - 1) > 0.15].index.astype(str).tolist()

如果tick数据的平均价格和日数据的收盘价价差在15%以上,就认为tick数据有问题,另外还可使用成交量来验证数据

d1 = df_tick.volume.resample('1D').sum()
d1.dropna(inplace=True)
d2 = pd.concat([d1, df_day.volume], join='inner', axis=1)
d3 = d2[abs(d2.volume / d2.volume - 1) > 0.1].index.astype(str).tolist()

如果通过tick统计的成交量和日数据中的成交量有10%以上的差异,同样认为tick数据存在错误,通过这两种方式,可以大体的对tick数据初步验证,为后续模型的正确性做个预防。

原文:网页链接