近年来,机器学习方法越来越广泛的应用到了经济、金融领域的研究。其中以基于深度学习的神经网络算法最火。最近读了一些相关的文献,本文简单总结一下神经网络方法,并将该方法与计量经济学方法进行比较。
首先要说明,为什么要将神经网络方法和计量经济学方法进行比较。我们知道,计量经济学模型,通过给解释变量与被解释变量之间设置一定的初始函数关系(一般为线性关系),基于经验数据,拟合函数关系中的关键参数,最后得到基于经验的解释变量与被解释变量之间的关系。进而,预测未来被解释变量的走势,并基于解释变量给出政策建议。
而神经网络模型呢?它同样利用经验数据,基于非线性关系拟合,得到解释变量(或者称features 特征)与被解释变量(同样也是一个或多个features)的关系。进而预测未来被解释变量的变化。
从简单的功能定义可以看出来,二者都是基于经验数据,拟合被解释变量与解释变量之间的函数关系,得到拟合结果,并以此模型预测未来被解释变量的变化。说白了,就是regression analysis回归分析。
那么,问题来了,他们的不同是什么呢?一下简单陈述一下二者的优劣:
计量经济学模型:
计量经济学模型经过了数十年的发展,衍生出了多种多样的模型,以适用复杂的社会情景,从简单的单变量回归,到多变量回归,到断点回归,双重差分模型。计量经济学的主要优势是,其拟合过程是whitebox,也即我们可以清楚的看到解释变量与被解释变量的关系,从而具体地解释单个变量如何影响被解释变量。提出更concrete的政策建议。
计量经济学的缺点却产生于他的优点:的函数形式是根据研究者们的观测构建的,譬如:就业与通胀的反比、CO2与能源消耗正比关系。但是,这种关系并不是一定正确的,或者说,现实社会可能存在各种各样的非线性关系叠加,使得经验数据恰巧呈现出了这样一种线性的关系。更重要的,但我们的研究深入后,我们发现经验数据更倾向于呈现出非线性的关系,譬如,环境领域常说的 Kuznets curve,最开始是U型曲线,而后是N型曲线,更有甚出现了M型曲线,这种真实世界的variation大大降低了计量经济学的解释力。
而神经网络算法,作为一种无需预设函数形式的非线性拟合模型,可以更好的拟合解释变量与被解释变量之间的关系,大大降低预测值与观测值之间的误差,提高模型准确性。因此,变动复杂的社会情景,如,金融市场变动,价格变化,数据存在non-stationary,seasonality等,研究者不需要对数据进行更多的pre-processing,便可直接feed到模型中,进行比较。
但是,神经网络算法的一个重要问题是,它是blackbox regression,作为研究者不能去观测到具体的数据模型与参数取值是什么样的(虽然你能够设置如:numbers of hidden layers, numbers of neurons, activation function, loss function这样的参数),研究者们只能通过统计检验手段,如MAPE (mean absolute percentage error), RMSE (root mean square error)等来确定算法的准确性,并拿来应用。无法深入地解释一些features怎样影响另一些features。
基于神经网络模型与计量经济学的模型的优劣比较,我认为,未来二者的应用将进一步分化,如:神经网络模型将越来越多地应用到发现问题层面(forward looking),如预测未来市场波动,测度市场未来的不稳定性,从而辅助风险管理决策,而计量经济学将承担具体的政策研究,有效性分析等领域,关注已实施政策的效果。