本文主要根据回归模型的建模流程进行依次讲解:
1 如何选取指标变量?
回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量y,然后再选取与y有统计关系的一些变量作为自变量。
通常,希望因变量(内生变量、被解释变量)和自变量(外生变量、解释变量)之间存在因果关系。
对于一个具体的问题,当研究目的确定后,被解释变量容易确定,其一般直接表达研究的目的。
对被解释变量有影响的解释变量的确定存在困难,原因:
- 我们的认识有限,可能并不知道对解释变量的有重要影响的因素。
- 为了保证模型参数估计的有效性,设置的解释变量之间应该不相关。但很难确定哪些变量是相关的,哪些是不相关的。
- 对于一些非常重要的变量,可能没有观察数据,需要用近似变量代替或者其他几个指标复合成一个新的指标。
注意,回归模型不是解释变量越多越好。过多会引入一些无关变量,造成信息重叠,出现共线性问题,同时计算量也会增大。
2 如何收集、整理统计数据?
确定变量之后就要开始收集样本。样本数据分为时间序列数据和横截面数据。
时序数据的收集需要注意数据的可比性和数据的统计口径问题。其在收集过程中容易产生随机误差,因为时序变量的前后期存在关联。但这种误差可以通过一定的方法消除,比如差分法。
横截面数据是同一时间截面上的统计数据。其构建的回归模型具有异方差性,可以理解为同一时间采集的不同(随机)样本数据可能存在较大的差异。
不论哪种数据,样本量的多少都要与设置的解释变量的数目匹配。即样本量大于解释变量,一般10倍左右。
3 如何确定变量的数学形式(理论模型)?
一般先画个散点图看看趋势,然后考虑用线性或非线性回归模型去拟合。
正常情况下,无法根据所获信息确定模型形式,但可以采用不同形式进行计算机模拟,从不同的模拟结果中选择较好的一个作为理论模型。
4 如何对模型的参数进行估计?
一般先假定模型符合某种基本假设,如普通最小二乘法。
如果不满足模型假设,可以用:岭回归、主成分回归、偏最小而成等等。
5 如何对模型进行检验和修改?
建立初步模型后,不能直接拿来应用,需要对模型进行检验。因为模型是否真正揭示了被解释变量与解释变量之间的关系,需要检验才能确定。
对于回归模型,一般进行统计检验和模型经济意义的检验。
统计检验通常是:
- 对回归方程的显著性检验
- 回归系数的显著性检验
- 拟合优度检验
- 随机误差项的序列相关检验
- 异方差检验
- 解释变量的多重共线性检验等
注意,有些模型通过了统计检验,但可能得不到合理的经济解释。比如,因变量与某些自变量的偏回归系数应该是正的,但是模型中却是负的,那这个模型即使通过了统计检验,也是没有意义的,更不能应用。
针对上述情况,则需要对模型进行修改:
- 检查变量设置是否合理,是否将某些重要变量忘记
- 回归模型的基本假设是否都满足
- 变量间是否具有很强的相关性
- 样本量是否太少
- 变量的统计口径是否变化
- 理论模型是否合适
注意,模型的修改往往要反复多次。
6 如何应用回归模型?
当回归模型通过统计检验以及具有经济意义时,就可以应用了:
- 可以通过观察模型的回归系数,发现经济变量的结构关系,给出政策评价的一些量化依据。
- 回归模型揭示了变量间因果关系,则可以考虑给定被解释变量值来控制解释变量值。
- 进行经济预测
7 如何解释回归系数?
8 如何用回归方程进行预测?