股市数据

发布于: 修改于:雪球转发:0回复:5喜欢:0

一部分老粉知道,我买的绝大多数股票是我自己的量化系统推荐的。但我很少在雪球谈量化,发帖一般只聊市场面。原因比较简单:我谈量化应该没人看,有些内容也不好说。

不过试试吧,写点。首先要强调的是,我聊的量化只限定于依据算法对股票未来走势进行预测,不涉及融券、反复挂撤单等手段。

将机器学习、深度学习应用于特定领域,要点在数据清理、数据表示、模型和标签构建等。在自然语言、图像领域,我们掌握至少一门语言、能识图,也就是说,我们对数据有一定程度的理解,我们知道可以根据一句话画出一幅图,此类任务是合理的,但在股市中,某些量到底能不能被预测是不一定的。我们甚至对数据本身的意义都不太理解,更别提设计任务了。

这里说的股市数据,更多指市场面数据,特别是量价数据。相比市场面数据,基本面数据是意义较明确、较好理解的。但基本面数据在量化中不太会占核心主导地位。我的观点是,如果一个量化系统主要用基本面数据,这个系统大概率平庸,因为它利用不好量化速度、频度上的优势。

市场面下,数据和标签的噪声特别大(消息刺激、情绪影响,或主力迷惑),数据不一定独立(同一截面,同一板块内或一个大题材下几个板块内的数据往往相互关联)同分布(同样爆量,高位爆量和低位爆量不同;不同板块、属性的票逻辑可能很不同,导致数据分布不同),存在概念漂移(p(Y|X)变化)(市场好强者恒强,市场差高低切明显)。对股市现象的产生,对股票量价波动有一定深度的理解,才能筛选、清洗、整理得到好的数据。

设计学习任务、选择模型等也需要对股市、对数据有理解。很多任务,难以达到想要的效果可能不是模型训练得不够好,是当前的输入本就得不到想要的输出的缘故(一部分股票一段时间内的走势能被较好地预测,但一部分股票(暴涨、阴跌的票)一段时间内的走势很难被预测)。输入或特征构建、标签构建、甚至超参数选取等都依赖于对股市数据的理解。在策略解释、归因和迭代方面,也需要有对数据的理解。

关于数据表示,我有一个比较有意思的观点:股票价格序列最小的有意义的单元不该是单个价格,而应该是由若干相邻价格构成的小结构。就像中文语句中承载语义的最小单位不是字,而是词。这个观点可能会给量价数据分析提供新的角度。单个价格的信息可能全被噪声埋没,但据我观察,很多小结构是有强信息的,比如小“w”型表示价格稳固。如果能有一个结构库,其中每个结构都有特定意义,而每个序列都能被划分成一系列结构,这样序列的意义就好解读了。偏数学一点,一个个结构就是一个个基底,一个序列用基底表示,后续分析上会容易很多。

有些观点不知道放哪好,记录在这至少不会忘。

$上证指数(SH000001)$

全部讨论

04-01 10:22

说得很好包括量化在内的所有数据分析都是以业务理解为基础的,不是单纯的数学游戏。股票数据的噪声很大,但是通过业务理解处理后,股票数据还是可以有比较好的预测性的,甚至比很多其他金融行业的业务数据有更好的预测性

04-08 09:31

股票价格序列最小的有意义的单元不是单个序列。说得对。
多发点这种观点大佬。让我们也学习学习。哪怕学不到精髓,也能多少有点启发

03-31 14:47

向楼主学习

边读书边炒股,知行合一,舒适。