本文主要根据回归模型的建模流程进行依次讲解:

如何从头开始建立回归模型?_数据

1 如何选取指标变量?

回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量y,然后再选取与y有统计关系的一些变量作为自变量。

通常,希望因变量(内生变量、被解释变量)和自变量(外生变量、解释变量)之间存在因果关系

对于一个具体的问题,当研究目的确定后,被解释变量容易确定,其一般直接表达研究的目的。

对被解释变量有影响的解释变量的确定存在困难,原因:

  • 我们的认识有限,可能并不知道对解释变量的有重要影响的因素
  • 为了保证模型参数估计的有效性,设置的解释变量之间应该不相关。但很难确定哪些变量是相关的,哪些是不相关的。
  • 对于一些非常重要的变量,可能没有观察数据,需要用近似变量代替或者其他几个指标复合成一个新的指标

注意,回归模型不是解释变量越多越好。过多会引入一些无关变量,造成信息重叠,出现共线性问题,同时计算量也会增大

2 如何收集、整理统计数据?

确定变量之后就要开始收集样本。样本数据分为时间序列数据横截面数据

时序数据的收集需要注意数据的可比性和数据的统计口径问题。其在收集过程中容易产生随机误差,因为时序变量的前后期存在关联。但这种误差可以通过一定的方法消除,比如差分法

横截面数据是同一时间截面上的统计数据。其构建的回归模型具有异方差性,可以理解为同一时间采集的不同(随机)样本数据可能存在较大的差异。

不论哪种数据,样本量的多少都要与设置的解释变量的数目匹配。即样本量大于解释变量,一般10倍左右。

3 如何确定变量的数学形式(理论模型)?

一般先画个散点图看看趋势,然后考虑用线性或非线性回归模型去拟合。

正常情况下,无法根据所获信息确定模型形式,但可以采用不同形式进行计算机模拟,从不同的模拟结果中选择较好的一个作为理论模型。

4 如何对模型的参数进行估计?

一般先假定模型符合某种基本假设,如普通最小二乘法。

如果不满足模型假设,可以用:岭回归、主成分回归、偏最小而成等等。

5 如何对模型进行检验和修改?

建立初步模型后,不能直接拿来应用,需要对模型进行检验。因为模型是否真正揭示了被解释变量与解释变量之间的关系,需要检验才能确定。

对于回归模型,一般进行统计检验模型经济意义的检验

统计检验通常是:

  • 对回归方程的显著性检验
  • 回归系数的显著性检验
  • 拟合优度检验
  • 随机误差项的序列相关检验
  • 异方差检验
  • 解释变量的多重共线性检验等

注意,有些模型通过了统计检验,但可能得不到合理的经济解释。比如,因变量与某些自变量的偏回归系数应该是正的,但是模型中却是负的,那这个模型即使通过了统计检验,也是没有意义的,更不能应用。

针对上述情况,则需要对模型进行修改

  • 检查变量设置是否合理,是否将某些重要变量忘记
  • 回归模型的基本假设是否都满足
  • 变量间是否具有很强的相关性
  • 样本量是否太少
  • 变量的统计口径是否变化
  • 理论模型是否合适

注意,模型的修改往往要反复多次

6 如何应用回归模型?

当回归模型通过统计检验以及具有经济意义时,就可以应用了:

  • 可以通过观察模型的回归系数,发现经济变量的结构关系,给出政策评价的一些量化依据。
  • 回归模型揭示了变量间因果关系,则可以考虑给定被解释变量值来控制解释变量值
  • 进行经济预测

7 如何解释回归系数?

如何从头开始建立回归模型?_数据_02

8 如何用回归方程进行预测?

如何从头开始建立回归模型?_数据_03