基于CatBoost算法的多因子量化选股策略研究
【摘要】:随着计算机和信息技术的发展,人们在股票市场的投资方式不再局限于传统投资的技术分析和基本面分析,基于二者的量化投资走进了人们的视野。量化投资凭着其纪律性、系统性、及时性及分散化的特点在投资界不断取得优异的投资回报,获得了人们的认可。纵观量化界,海外国家已经大规模地使用量化的方式进行投资决策,成为了不可获取的投资方式,而我国A股市场由于创立时间晚,制度不完善,起初量化投资在中国发挥的成绩并不是很理想,但随着这几年法律制度的不断完善,计算机硬件的性能提高,量化投资逐渐在中国火热起来,并取得了优秀的成绩。在量化投资策略中,多因子选股凭借着稳定性和覆盖面广泛,一直是研究的焦点。尤其是近几年随着人工智能和大数据的发展,机器学习算法结合多因子数据进行量化选股成为了新的研究热点。本文准备使用最新的集成学习算法Cat Boost并结合有效的因子进行多因子选股建模从而构建一套能够稳定地获取超额收益的量化投资组合。本文选取了沪深300成分股近8年季度财务比率数据以及每季度最后一个交易日数据作为模型的多因子,目标变量为下季度该只个股的涨和跌,对应数字1和0。首先对原始数据进行数据预处理,使得数据变成易于建模的干净数据,然后选取经典算法随机森林、GBDT梯度提升树和最新的Cat Boost算法进行建模,并使用重要的分类问题评价指标评估算法的表现。实证研究过程中包含单期建模比较三个算法的准确性和泛化能力,多期向前滚动建模检验模型的稳定性,然后进行了因子重要性分析,最后使用算法进行选股回测评价投资收益。根据三种算法建模效果比较,最后选择了Cat Boost算法进行因子选股,使用最近的三年12个季度的数据进行选股回测,每期选择5只股票等权重进行建仓调仓。通过计算收益,单期收益分析中,三年12期中有10期超过了同期基准收益,跑赢基准季度占比83.33%,有10期取得了正收益,占比达到83.33%,为期三年共获得了140%,年化复合收益率33.88%的投资收益回报,远超基准总收益17.27%的收益率,同时最大回撤为14.57%也在合理范围之内。