一、AQF研报摘要
卷积神经网络引领深度学习的发展,能够运用于多因子选股
卷积神经网络(CNN)是目前最为成熟的深度学习模型,是近年来人工智能蓬勃发展的重要推手之一,其主要特点是通过卷积和池化操作进行自动的特征提取和特征降维。本文首先通过原理分析给出了
CNN 运用于多因子选股的经验方法;然后在全 A 股票池内对 CNN 的预测结果进行单因子测
试,其单因子测试结果相比对比模型具有良好表现;本文还构建了行业、市值中性全
A 选股策略并进行回测,CNN 在以中证 500 为基准的全 A 选股测试中相比对比模型表现优秀。
本文通过原理分析总结了卷积神经网络运用于多因子选股的经验方法
将卷积神经网络运用于多因子选股时,通过分析其工作原理,我们总结出以下经验:(1)股票因子数据可以组织成二维的“图片”形式,这使得
CNN具有了时间序列学习的能力。(2)当卷积核作用于股票因子数据时,本质上是在进行因子合成,因此本文只使用了一层卷积层。(3)池化层是对因子数据的“模糊化”,这对体现因子的明确意义是不利的,因此本文未使用池化
层。(4)因子数据在“图片”中的排列顺序会影响到 CNN
的学习结果。
卷积神经网络合成因子的单因子测试具有良好表现
我们构建了卷积神经网络、全连接神经网络、线性回归三个模型,在2011-01-31 至 2019-1-31
的回测区间中分年度进行训练和测试,样本空间为全 A 股。从单因子测试的角度来看,CNN 合成因子的 RankIC
均值为13.62%,因子收益率均值为 1.021%,略高于全连接神经网络,也要高于线性回归。在分五层测试中,CNN 合成因子的 TOP
组合年化收益率为20.05%,夏普比率为 0.72,信息比率为 4.04,多空组合的夏普比率为
4.84,表现都要优于全连接神经网络和线性回归。
卷积神经网络在以中证 500 为基准的全 A 选股测试中表现优秀
基于卷积神经网络、全连接神经网络和线性回归,我们构建了行业、市值中性全 A
选股策略并进行回测。在 2011-01-31 至 2019-1-31 的回测区间中,当以沪深 300
为基准时,两种神经网络在年化超额收益率、信息比率和 Calmar 比率上的表现都不如线性回归。当以中证 500 为基准时,CNN的 年
化 超 额 收益在 13.69%~16.38% 之 间 , 超 额 收 益 最 大 回 撤 在
4.80%~7.55%之间,信息比率在 2.29~2.56
之间,Calmer 比率在 2.16~2.85之间,CNN
在以上各项指标上的表现都优于另外两个模型,全连接神经网络略优于线性回归。
卷积神经网络仍有进一步研究的空间
随着 ImageNet
旗下的大规模视觉识别挑战赛(ILSVRC)连续数年的推动,卷积神经网络正在日新月异地进步中,还有诸多技术值得我们学习和尝试,例如增大训练样本数量的“数据增强”方法;ResNet
中的残差学习方法;Inception 网络中的多种尺寸卷积核混合的方法等等。此外,在高频、海量的金融数据中使用 CNN
也是一个值得尝试的方向。
二、研报结论和展望
卷积神经网络(CNN)是目前发展最为成熟、投入研究力度最大的深度学习模型,是近年来人工智能蓬勃发展的重要推手之一。本文对 CNN
的原理和特色进行了介绍,并探讨了如何使用 CNN 构建人工智能选股模型。初步得出以下结论:
1.
卷积神经网络(CNN)是目前最为成熟的深度学习模型,是近年来人工智能蓬勃发展的重要推手之一,其主要特点是通过卷积和池化操作进行自动的特征提取和特征降维。把CNN
运用于多因子选股时,我们总结出以下经验:(1)股票因子数据可以组织成二维的“图片”形式,这使得 CNN
具有了时间序列学习的能力。(2)当卷积核作用于股票因子数据时,本质上是在进行因子合成,因此本文只使用了一层卷积层。(3)池化层是对因子数据的“模糊化”,这对体现因子的明确意义是不利的,因此本文未使用池化层。(4)因子数据在“图片”中的排列顺序会影响到
CNN 的学习结果。
2. 我们构建了卷积神经网络、全连接神经网络、线性回归三个模型,在
2011-01-31 至2019-1-31 的回测区间中分年度进行训练和测试,样本空间为全 A 股。从单因子测试的角度来看,CNN
合成因子的 RankIC 均值为 13.62%,因子收益率均值为
1.021%,略高于全连接神经网络,也要高于线性回归。在分五层测试中,CNN 合成因子的 TOP 组合年化收益率为
20.05%,夏普比率为 0.72,信息比率为 4.04,多空组合的夏普比率为
4.84,表现都要优于全连接神经网络和线性回归。
3. 基于卷积神经网络、全连接神经网络和线性回归,我们构建了行业、市值中性全
A 选股策略并进行回测。在 2011-01-31 至 2019-1-31 的回测区间中,当以沪深 300
为基准时,两种神经网络在年化超额收益率、信息比率和 Calmer 比率上的表现都不如线性回归。当以中证 500 为基准时,CNN
的年化超额收益在 13.69%~16.38%之间,超额收益最大回撤在 4.80%~7.55%之间,信息比率在 2.29~2.56
之间,Calmer 比率在 2.16~2.85
之间,CNN在以上各项指标上的表现都优于另外两个模型,全连接神经网络略优于线性回归。
4. 随着 ImageNet
旗下的大规模视觉识别挑战赛(ILSVRC)连续数年的推动,卷积神经网络正在日新月异地进步中,还有诸多技术值得我们学习和尝试,例如增大训练样本数量的“数据增强”方法;ResNet
中的残差学习方法;Inception 网络中的多种尺寸卷积核混合的方法等等。此外,在高频、海量的金融数据中使用 CNN
也是一个值得尝试的方向。