金融工程高智威丨Alpha掘金系列之十一:基于BERT-TextCNN的中证1000舆情增强策略

发布于: 雪球转发:0回复:0喜欢:0

金选·核心观点

金融论坛中的舆情信息蕴含了丰富的股民情绪,可能影响其交易行为进而影响股价,通过对金融论坛中股民的发帖信息进行情感分析,有望能够挖掘到有效的选股因子。我们已经在《Alpha掘金系列之八:FinGPT对论坛评论情感的精准识别——沪深300另类舆情增强因子》报告中构建了沪深300指数增强策略,本次我们将基于中证1000指数成分股股票池,构建中证1000指数增强策略。

金融论坛舆情信息的情感评分方法

本报告采用子长科技提供的中证1000指数成分股相关的金融论坛股民发帖数据,使用了2018年至2023年的超5000万条的主帖文本内容。经预处理后,我们在主帖文本数据中抽取部分样本进行训练和验证,我们利用大语言模型进行这部分样本的标注,然后采用BERT-TextCNN模型进行针对金融论坛舆情信息的特定任务训练,最终构建出文本情感识别模型,将股评信息标注为积极、消极、悲观三类。BERT模型通常用于提取文本的深层次语义信息和上下文信息,而TextCNN模型则用于捕捉文本的局部特征,两者结合可以同时利用全局和局部特征进行文本分类。我们训练后的BERT-TextCNN模型样本外准确率超过85%,我们用该模型对超过5000万条股评信息进行情感分类。

多维度舆情因子构建与回测

我们利用金融论坛舆情信息文本情感评分结果,从多维度构建了周频舆情选股因子,包括情绪一致性、关注度、周内关注度波动、整体情绪、周内情绪波动等因子。我们用积极/消极帖子占比来刻画情绪一致性,两个因子均显著,积极帖子占比因子IC值为负值,即积极情绪一致的股票未来股价可能较差。我们用主帖数、积极帖子数、消极帖子数来刻画关注度,积极帖子数量因子IC值为-6.22%,多空年化收益率为59.41%,即中证1000股票池中,关注度越高的股票,未来表现越差。我们用积极帖子数量减去消极帖子数量来衡量股民整体情绪,整体情绪因子IC均值为3.86%,即整体情绪越积极,未来一周股票表现越好。此外,关注度波动因子、情绪波动因子的IC均值均为负值。

我们将五个维度的因子进行等权重合成,合成因子IC达到6.13%,风险调整的IC为0.71,t统计量达到12.4,多空年化收益率为54.76%,多空组合夏普比率为4.07,而多空组合最大回撤率为9.02%。合成因子分位数组合单调性较好,top组合的年化超额收益率能够达到12.99%。合成后的舆情因子与传统选股因子的相关系数也均不超过0.3。

基于金融论坛多维度舆情因子的中证1000指数增强策略构建

我们利用构建的舆情因子,我们基于如下条件构建了中证1000指数增强策略:选股范围是中证1000指数成分股,回测时间区间是2018.1.8-2023.12.29,每周第一个交易日进行调仓,按开盘价进行交易,调仓日根据合成因子值从大到小进行排序,选择前10%的股票等权重构建组合,交易成本设置为单边千分之二。我们设置了换手率缓冲条件,即上期持仓中如果当期仍然在前0%与35%内,则保留。基于金融论坛多维度舆情因子的中证1000指数增强策略,自2018年初至2023年末,获得10.85%的年化收益率,相对于中证1000指数获得了13.95%的年化超额收益率,信息比率达到1.56,超额净值最大回撤率为9.52%。除2019年之外,其余各年份均获得了正的超额收益率。

风险提示

以上结果基于一定的假设条件、通过历史数据统计和测算完成,在市场环境发生变化时模型存在失效的风险;大语言模型对文本进行情感分析的结果具有一定的随机性,存在一定的随机性风险。