资产定价过程应用机器学习的一些观察思考作者：王玮中股票的定价，涉及对公司未来现金流的预测。与预测相关的有价值信息非常多：财务报表和公告文本揭示的上市公司公开经...

作者：王玮中

股票的定价，涉及对公司未来现金流的预测。与预测相关的有价值信息非常多：财务报表和公告文本揭示的上市公司公开经营状况；交易清算机构保存的市场历史交易价格；卖方研报和社交媒体内容中包含的投资者情绪信息；客户和员工的网络点评传递出的企业质量线索；如此等等可用于预测的变量不胜枚举。

大量潜在预测变量的存在引发高维设定下的统计问题：当变量的个数接近甚至超过股票的数量，非但统计回归的数值解不唯一，过度拟合了数据中的噪音之后还导致预测结果常常表现出样本内有效而样本外失效。用低维模型来摆脱高维困境、聚焦关注少量的公司特征，作为一种替代方案可以确保传统统计方法的良好表现，但无疑是给模型强加了“极端且特设的稀疏性”约束：成百上千的其它因子对收益率的影响被当作零值而忽略。

机器学习，作为“解决高维预测问题的工具”和让计算机从数据中学习的算法，无须强加极端的稀疏性假设，在更贴近现实的高维环境中对大量变量的联合作用进行探索，捕捉“特征之间的高阶交互作用”以及它们在“解释股票间收益率和风险差异的重要性”。人们寄望于通过找到有效的方法来约束估计过程，从而使模型产生有用的样本外预测。但要让机器学习方法真正适用于资产定价研究和投资管理预测，必须充分考虑很多现实因素，甚至需要将一些经济学推理比如关于预测问题本身的性质和数据自身属性的先验知识等，引入机器学习的使用过程。不施加任何假设、仅依靠数据发声，往往无法解决复杂的实际问题。

金融市场中的数据生成，一直在经历持续的“结构性变化”，具有不可逆的时间方向性，其本身也不是一个平稳的过程，背后原因包括了整体经济的内在结构重塑，生产技术、监管政策、制度环境的巨变，投资者在市场中不断学习和改变投资行为等等。这种结构性变化导致机器学习方法应用中的“概念漂移”问题：

个股特征随着时间的推移在逐渐变化；

公司特征与未来收益率之间无法保持稳定的关系；

部分存在于历史数据中的协变量与预期收益率的关系随时间推移而消失；

存在过的可预测性在未来可能无法以同样的形式出现。

资产定价领域的预测，与机器学习方法以往所擅长处理的其它领域问题，有很大的差异，比如：信噪比低、样本量有限就是一个非常现实的约束，而“增加采样频率并不能提升估计准确度”；资产价格数据中的非线性关系不像其它领域那么明显；数据预处理的方式例如变量标准化这种尺度缩放，直接影响到监督学习算法的预测性能。

方法和目标的选择本身，隐含决定了我们通过估计所能得到的发现。很多重要的细节问题目前还都没有完美的答案：

平均收益率可观的组合，其波动率也较大。我们到底追求个别收益率最优，还是投资组合的风险收益特征最优？样本外决定系数的提升并无法保证投资组合在样本外表现的提升。根据决定系数来评价预测性或选择超参数，这种做法是否合理？允许参数随时间改变，比如对近期数据以指数加权方式赋予更高权重、降低更久远数据的重要性，或者采用滚动窗口抛弃超过一定时限的数据，这么做能否适应数据的结构性变化特征？有没有办法递归地更新超参数而又不至于使计算负担过大？特征不均匀、样本量小、极值大的表格数据集，用决策树集成方法处理似乎比用神经网络模型更有效，这又说明了什么？

预测资产收益率的信号能否持续适应不断变化的金融市场环境，对投资管理而言，本身就是一个长期的挑战。机器学习，从发现最优的算法，到合理评价预测性能，再基于预测结果构建最佳投资组合，也将是一个不断迭代进化的过程。道路是曲折的，前途是光明的。

（本文部分表述引自《机器学习与资产定价》，结合实践体会总结为文章观点）

资产定价过程应用机器学习的一些观察思考

作者：少数派投资