【宏观经济】如何用高频指标预测社会消费品零售总额?

发布于: 雪球转发:0回复:0喜欢:1

作者:宋彦辰、郭于玮、鲁政委

在支出法下,消费对经济增长的贡献率超过50%,是经济增长的主要驱动力。因此,作为衡量消费在高频数据中的主要观测指标,社会消费品零售总额具有十分重要的预测价值。

本文选取能够较好跟踪社会消费品零售总额的5类高频指标:汽车类(乘用车零售销量)、出行类(地铁客运量、拥堵延时指数)、房地产类(商品房成交面积)、票房类(全国电影票房)、疫情类(全国新冠肺炎新增确诊病例)。把上述6项高频指标作为解释变量,构建模型以对社零数据进行预测。

本文使用主流的时间序列模型对社零进行拟合,包括ARIMA、VAR、SVR和LSTM模型。通过比较样本外平均绝对误差对各模型表现进行评价,综合来看ARIMA模型能够较好地实现对社零的预测。进一步平衡疫情前后模型的表现,对ARIMA模型进行调整,最终得到ARIMA-5变量模型和ARIMA-6变量模型。

综合考量各模型的预测结果,本文预测10月社会消费品零售总额落在[40589.9 , 40950.9]的区间内,同比增长预测区间为[0.34% , 1.23%]。

消费在国民经济中占有举足轻重的地位。在支出法下,最终消费支出对我国国内生产总值的贡献率近10年均值为53.4%,超过半壁江山。伴随着全球刺激性货币和财政政策退潮,发达经济体经济陷入衰退风险加大,在外需趋弱的背景下,作为内需主要部分的消费,对于国民经济的支撑作用日益重要。作为衡量消费的日常高频观测数据,社会消费品零售总额具有十分重要的预测价值。疫情发生后,波动明显加大,因此,值得对如何使用高频数据对社会消费品零售预测进行探讨。

一、社会消费品零售总额

社会消费品零售总额(以下简称“社零”),是指企业(单位、个体户)通过交易售给个人、社会集团非生产、非经营用的实物商品金额,以及提供餐饮服务所取得的收入金额[1]。该指标是由国家统计局对从事商品零售活动或提供餐饮服务的法人企业、产业活动单位和个体户调查得出的,其中对于限额以上[2]企业采用全数调查,对于限额以下企业采取抽样调查。

按照消费类型,社零分为商品零售(约占社零总额的88%)和餐饮收入(约占12%)。其中,商品零售包括粮油食品类、饮料类、烟酒类、服装鞋帽针纺织品类、化妆品类、金银珠宝类、日用品类、家用电器和音像器材类、中西药品类、文化办公用品类、家具类、通讯器材类、石油及制品类、汽车类、建筑及装潢类。值得注意的是,纳入商品零售的商品中,售给个人用于生活消费的实物商品并不包括商品房,售给社会集团的商品不包括用于生产经营和固定资产投资的原材料等。同时,餐饮服务被视作一种特殊的商品销售形式,被计入餐饮收入;但居民和社会集团用于教育、医疗、文化、艺术、娱乐等方面的服务性消费支出并未计入其中。

二、指标选取与数据处理

社零主要反映了全社会实物商品的消费情况,包括基本生活类、消费升级类、餐饮在内的多种商品和服务。在不复制社零指标的前提下,无法且没有必要穷尽枚举社零中每一种商品的消费状况。本文主要寻找对社零具有预测作用的高频指标,并进一步探讨高频指标与社零之间的关系。

2.1 汽车类指标

汽车类商品在社零中占有重要地位,在限额以上单位商品零售中约占29%。统计局每月的社零发布中,亦会单独计算“除汽车以外的消费品零售额”,足见汽车类商品对于最终社零读数的重要影响。

乘用车市场信息联席会自2015年3月起以周度频率发布乘用车零售销量。该指标呈现较强的季节性特征,与社零的相关系数达到0.54。

2.2 出行类指标

社零中餐饮收入的实现,往往依赖一定的消费场景,因此,对餐饮服务的消费与居民出行密不可分。此外,商品零售中的石油及制品类商品(在限额以上单位商品零售中约占15%)亦与出行息息相关。整体而言,旺盛的出行需求往往伴生零售市场的繁荣,支撑社零指标走高,反之亦然。

2.2.1 地铁客运量

作为重要的公共交通,地铁客运量直观体现了一个城市的出行活跃程度。万得收集了全国29座城市每日的地铁客运人数,该数据始于2017年7月27日。由于部分城市缺乏早期地铁客运数据,中途计入会影响整体均值的稳定性,因此本文仅计入有长期历史数据的19座城市的地铁客运量。对19座城市的客运量取算数平均数,该指标与社零之间具有明显共变关系,相关系数为0.36。

2.2.2 拥堵延时指数

除公共交通外,开车出行也是重要的出行方式。高德编制了拥堵延时指数,该指数为实际旅行时间与自由流(畅通)状态下旅行时间的比值[3],该比值越高表示实际通行花费时间越长,即交通状况越拥堵。万得收录的拥堵延时指数始于2015年10月1日,包括全国100座城市的日度数据。100座城市拥堵延时指数的算术平均与社零亦存在正相关关系,相关系数为0.20。

2.3 房地产类指标

尽管商品房本身并不属于社零统计范畴,但商品房销售往往伴生对周边商品的需求,对应于社零项下家用电器和音像器材类、家具类、建筑及装潢材料类商品(合计在限额以上单位商品零售中占比8%左右)。旺盛的商品房成交量,一定程度上会带动家电家装市场销售的繁荣。

万得收录了全国30座大中城市商品房成交面积的日度数据,该数据起始于2010年1月1日。30城商品房成交面积同比增速与社零同比增速间的相关系数为0.59。

2.4 票房类指标

值得注意的是,电影票房等文化娱乐方面的服务性消费支出,并不属于社零的统计范畴。但从国内消费品市场角度,居民观影行为往往从侧面体现了消费需求,因而与零售市场的表现存在千丝万缕的联系。

万得收录了全国电影票房的日度数据,该数据始于2015年9月30日。通过对电影票房数据计算同比增速,发现其与社零同比增速具有正向相关关系,两者相关系数为0.49。

2.5 疫情类指标

2020年2月和2022年4月,社零同比增速分别降至-20.5%和-11.1%,足见疫情对于社零的影响。万得自2020年2月6日起,日度发布全国新冠肺炎确诊病例的新增数量,该数据与社零存在明显的负向相关关系,相关系数为-0.28。

此外,社会消费品零售还包括社会集团的非生产、非经营消费。由于难以获得社会集团非生产、非经营类消费的数据,因此,我们尝试在模型中加入全国磨机运转率、水泥库容比、全国高炉开工率(163家)、汽车全钢胎开工率、江浙织机负荷率等与政府机关、企业生产投资相关的高频指标。不过,实证结果表明,加入上述指标未能提升预测模型的准确程度。这可能是由于社零口径下的商品,不包括企业和个体经营户用于生产经营和固定资产投资所使用的原材料、燃料和其他消耗品的价值量,社零“只包括通过商品流通最终环节进入城乡居民生活消费和社会集团公共消费的实物商品销售情况”,“不包括与生产、建设紧密相连的生产资料市场的变化情况”[4]。因此,选择企业生产和投资类指标很容易因计入投入品和中间品,导致社零外延泛化。最终,我们在预测模型中并未引入上述指标。

三、模型拟合与选择

本文使用高频指标对社零月度数据进行预测的基本方法是,对高频数据在预测月内产生的多个观测值取算数平均数,将月内均值作为解释变量加入模型,这相当于假设不同时间先后的观测值对于当月社零的影响权重相等。

其中,Y是因变量社零;代表不同的解释变量;t 分别代表不同解释变量在预测月内存在的多个观测期。

3.1 数据区间

由于19城地铁客运量数据最早可追溯至2017年7月,因此本文选取2017年7月至2022年9月的乘用车零售销量、19城地铁客运量、100城拥堵延时指数、30大中城市商品房成交面积、全国电影票房5个高频指标,作为社零的解释变量。

由于自2020年起疫情影响开始显现,社零走势与疫情前明显不同。为提高后疫情时代预测的准确性,本文对2020年1月之后的时间区间,在已有5变量的基础上,再增加全国新冠肺炎新增确诊病例指标以体现疫情影响,并单独验证模型在后疫情时代的表现。

3.2 模型选择

社零属于标准的时间序列数据,具有明显的趋势项和季节项。因此本文使用主流的时间序列模型对社零进行拟合,包括移动平均自回归模型(ARIMA)、向量自回归模型(VAR)、支持向量回归模型(SVR)以及长短记忆神经网络模型(LSTM)。

为平衡拟合不足和过度拟合问题,本文主要采用样本外的平均绝对误差(Mean Absolute Error, MAE)作为模型表现的评价标准。由于时间序列具有明显的自相关属性,不便使用传统的k折交叉验证(k-fold cross-validation)划分训练集和测试集。本文将前t期的数据作为训练集,对t+1期的数据作为测试集进行单期预测,计算t+1期的残差,然后滚动t重新建模并重复上述过程,以此计算MAE用于评估模型表现。

整体来看,ARIMA模型能够较好地捕捉社零的季节性周期,仅使用社零自身数据的自回归模型已能取得较好的拟合效果,因此本文主要选择ARIMA模型用于社零预测。

3.3 模型调整

ARIMA自回归模型,可以准确捕捉社零的趋势项和季节项,整体来看具有最小的MAE。进一步观察发现,2020年疫情发生之前,ARIMA自回归模型MAE为672.4;而2020年1月至2022年9月,MAE跳升至1528.2。可见自回归模型仅仅捕捉到了社零自身的变动周期,忽视了疫情等因素对于社零的影响。

因此,在ARIMA模型中逐步加入乘用车零售销量、地铁客运量、拥堵延时指数、商品房成交面积和电影票房5个解释变量,最终疫情前MAE增加至850.5,而疫情后MAE减少至1222.4,整体MAE为1156.8。进一步加入全国新冠疫情新增确诊病例指标后,疫情后MAE改善至1050.2。部分原因在于疫情的部分影响经由其他5个解释变量已传导至社零,因此再单独加入疫情指标,对于模型仅有小幅改善。

综合来看,疫情前的模型表现主要体现了对于社零自身走势的拟合,疫情后模型表现更侧重各类影响因素对于社零走势的扰动。过分看重疫情前模型表现,将导致对于后疫情时代的拟合不足;过分看重疫情后模型表现,则会导致过度拟合问题。在实践中,我们将综合考虑不同模型设定下的预测结果。

四、模型应用与预测

根据10月已发布的乘用车零售销量、19城地铁客运量、100城拥堵延时指数、30大中城市商品房成交面积、全国电影票房数据,ARIMA-5变量模型预测10月社零总额为40950.9亿元,同比增长1.23%;加入了疫情影响的ARIMA-6变量模型预测10月社零总额为40912.00亿元,同比增长1.13%。由于10月疫情对居民生活的影响较大,我们进一步用新增密接替代新增确诊进行预测,结果显示10月社零总额约40589.9亿元,同比增长0.34%。综合考量各模型的预测结果,本文预测10月社会消费品零售总额落在[40589.9 , 40950.9]的区间内,同比增长预测区间为[0.34% , 1.23%]。

注:

[1] 资料来源:国家统计局,什么是社会消费品零售总额,[2022/10/30],网页链接*&siteCode=tjzsk

[2] 限额以上统计标准为:批发业年主营业务收入2000万元及以上,零售业年主营业务收入500万元及以上,住宿和餐饮业年主营业务收入200万元及以上。

[3] 资料来源:高德地图,中国城市交通分析报告,[2022/11/1], 网页链接

[4] 资料来源:国家统计局,什么是社会消费品零售总额,[2022/11/8],网页链接*&siteCode=tjzsk

特别提示

本报告内容仅对宏观经济进行分析,不包含对证券及证券相关产品的投资评级或估值分析,不属于证券报告,也不构成对投资人的建议。

长按上方二维码关注我们