按照老师上课所述整理的一份简要的计量经济学复习笔记,适合期末一天速成补天。
本文仅对上课所提及的重点考点进行归纳整合。
目录
- 第一章
- 计量经济学的定义
- 建立经典计量经济学模型的步骤:
- 第一步:理论模型的设计。
- 第二步:样本数据的收集
- 第三步:模型参数的估计
- 第四步:模型的检验
- 第二章
- 经济变量间的关系
- 函数与相关
- 一些基本概念
- 数理部分
- 第三章
- 相比一元时增加的数值部分
- 虚拟变量
- 第四、五、六章
- 多重共线性
- 异方差性
- 内生性
- 模型设定偏误
- 序列相关性
- 二元离散选择模型
第一章
计量经济学的定义
计量经济学的定义:经济理论、统计学和数学三者的结合。
建立经典计量经济学模型的步骤:
第一步:理论模型的设计。
包含三部分工作:选择变量,确定变量之间的数学关系,拟定带估计参数的取值范围。
理论模型的设计必须遵循“从一般到简单”的原则,即作为建模起点的总体模型必须能够包容所有经过约化得到的“简洁”的模型。
确定模型所包含的变量中,作为研究对象的变量,是模型中的被解释变量,作为原因的变量,是模型中的解释变量。可以作为解释变量的有以下几类变量:
- 外生经济变量
- 外生条件变量
- 外生政策变量,常以虚变量形式出现
- 滞后被解释变量
如何正确选择解释变量:
- 需要正确理解和把握所研究的经济现象中,暗含的经济学理论和经济行为规律。
- 要考虑数据的可得性。
- 要考虑所有入选变量之间的关系,使得每个解释变量都是独立的。
选择模型的数学形式的主要依据是经济行为理论,也可以根据变量的样本数据作出解释变量与被解释变量之间关系的散点图,并将由散点图显示的变量之间的函数关系作为理论模型的数学形式。拟定模型中待估参数的理论值,关键在于理解待估参数的经济意义。
第二步:样本数据的收集
样本数据的分类:常用的样本数据有时间序列数据、截面数据和面板数据。
- 时间序列数据:一批按照时间先后排列的统计数据。要考虑所选择样本区间内经济行为的一致性、数据在不同样本点之间的可比性、样本观测值过于集中、随机干扰项序列相关的问题。
- 截面数据:一批发生在同一时间截面上的调查数据。经典计量经济学模型理论是基于随机抽样的截面数据建立的,随机抽样是经典模型对截面数据的最重要和最基本的要求。
- 面板数据:在多个时间序列上取多个截面,在这些截面上同时选取样本观测值。
样本数据的质量:完整性、准确性、可比性、一致性。
- 完整性:模型包含的所有变量都必须得到相同容量的样本观测值。
- 准确性:数据本身是准确的,且必须是模型研究中准确需要的(满足模型对变量口径的要求)。
- 可比性:数据口径问题,数据需要经过处理变成相同口径的才能用于参数估计。
- 一致性:总体与样本的一致性。
第三步:模型参数的估计
第四步:模型的检验
计量经济学模型必须通过四层检验:经济意义检验、统计检验、计量经济学检验和模型预测检验。
- 经济意义检验:模型参数估计量在经济意义上的合理性,即将参数估计量与预先拟定的理论期望值进行比较。只有当模型中的参数估计量通过所有经济意义检验,才能进行下一步检验。
- 统计检验:拟合优度检验、显著性检验等。
- 计量经济学检验:随机干扰项序列检验、异方差性检验、解释变量的内生性检验、多重共线性检验等。
- 模型预测检验:检验模型参数估计量的稳定性,以及相对样本容量变化时的灵敏度,确定所建立的模型是否可以用于样本观测值之外的范围。
计量经济学模型成功的三要素:理论、方法和数据。
第二章
经济变量间的关系
函数与相关
函数关系与相关关系:确定性现象之间的关系往往表现为函数关系,非确定性现象之间的关系往往表现为相关关系。
相关分析与回归分析:
- 回归分析:研究一个变量关于另一组变量的依赖关系的计算方法和理论,目的在于通过后者的已知或设定值,去估计和预测前者的均值。要求变量之间存在因果关系。
- 相关分析:主要研究随机变量间的相关形式及相关程度。
回归分析构成计量经济学的方法论基础,内容包括:
- 根据样本观测值对计量经济学模型参数进行估计,求回归方程;
- 对回归方程、参数估计值进行显著性检验;
- 利用回归方程进行分析、评价和预测。
相关系数:分为总体相关系数与样本相关系数。
\[\rho_{XY}=\frac{{\rm Cov}(X,Y)}{\sqrt{\mathbb{D}(X)\mathbb{D}(Y)}},\\ r_{XY}=\frac{\sum\limits_{i=1}^n (X_i-\bar X)(Y_i-\bar Y)}{\sqrt{\sum\limits_{i=1}^n(X_i-\bar X)^2\sum\limits_{i=1}^n(Y_i-\bar Y)^2}}=\frac{\sum x_iy_i}{\sqrt{\sum x_i^2\sum y_i^2}}. \]
一些基本概念
总体回归函数:\(\mathbb{E}(Y|X)=f(X)=\beta_0+\beta_1X\)。
随机干扰项:\(\mu=Y-\mathbb{E}(Y|X)\)。
总体回归模型:\(Y=\beta_0+\beta_1X+\mu\)。
样本回归函数:\(\hat Y=\hat\beta_0+\hat\beta_1X\)。
样本残差项:\(e=\hat\mu=Y-\hat Y\)。
样本回归模型:\(Y=\hat\beta_0+\hat\beta_1X+e\)。
引入随机干扰项的原因:
- 代表未知的影响因素。
- 代表残缺数据。
- 代表众多细小影响因素。
- 代表数据观测误差。
- 代表模型设定误差。
- 变量的内在随机性。
数理部分
一元线性回归模型的基本假设:
- 对模型设定的假设:回归模型是正确设定的(没有设定偏误)。
- 对解释变量的假设:解释变量\(X\)在所抽取的样本中具有变异性,并且随着样本容量的无限增大,样本方差趋于一个非零的有限常数。
- 对随机干扰项的假设:随机干扰项是条件零均值的(\(X\)为外生解释变量),随机干扰项是条件同方差且序列不相关的,随机干扰项服从条件正态分布。
除了条件正态分布以外的几个假设,称为高斯-马尔科夫假设,所有假设统称为经典假设。
最小二乘原理:残差平方和最小。
\[Q=\sum_{i=1}^n e_i^2=\sum_{i=1}^n[Y_i(\hat\beta_0+\hat\beta_1X)]^2. \]
参数估计量:
\[\hat\beta_0=\frac{\sum X_i^2\sum Y_i-\sum X_i\sum Y_iX_i}{n\sum X_i^2-(\sum X_i)^2}=\bar Y-\hat\beta_1\bar X,\\ \hat\beta_1=\frac{n\sum Y_iX_i-\sum Y_i\sum X_i}{n\sum X_i^2-(\sum X_i)^2}=\frac{\sum x_iy_i}{\sum x_i^2}. \]
最小二乘估计量的小样本性质:高斯-马尔科夫定理。
- 线性性:是\(Y_i\)的线性组合。
- 无偏性:期望等于真值。
- 有效性:在线性无偏估计量中方差最小。
最小二乘估计量的大样本性质:一致性(即相合性)。
方差估计:
\[\hat\sigma^2=\frac{\sum e_i^2}{n-2}. \]
可决系数(判定系数):
\[\mathrm{TSS}=\sum y_i^2=\sum(Y_i-\bar Y)^2,\\ \mathrm{ESS}=\sum \hat y_i^2=\sum(\hat Y-\bar Y)^2, \\ \mathrm{RSS}=\sum e_i^2=\sum(Y_i-\hat Y_i)^2,\\ \mathrm{TSS}=\mathrm{ESS}+\mathrm{RSS}.\\ R^2=1-\frac{\mathrm{RSS}}{\mathrm{TSS}}. \]
\(R^2\)与\(r^2\)的等价性:
\[R^2=\frac{\sum \hat y_i^2}{\sum y_i^2}=\frac{\sum \hat\beta_1^2 x_i^2}{\sum y_i^2}=\hat\beta_1^2\frac{\sum x_i^2}{\sum y_i^2}=\frac{(\sum x_iy_i)^2}{(\sum x_i^2)^2}\frac{\sum x_i^2}{\sum y_i^2}=\left(\frac{\sum x_iy_i}{\sqrt{\sum x_i^2\sum y_i^2} }\right)^2=r^2. \]
假设检验问题:
\[\hat\beta_1\sim N\left(\beta_1,\frac{\sigma^2}{\sum x_i^2} \right),\quad \hat\beta_0\sim N\left(\beta_0,\frac{\sigma^2\sum X_i^2}{n\sum x_i^2} \right).\\ H_0:\beta_1=0\quad \text{or}\quad H_0:\beta_0=0. \\t\sim t(n-2). \]
总体均值的置信区间:
\[{\rm Cov}(\hat\beta_0,\hat\beta_1)=\frac{-\sigma^2\bar X}{\sum x_i^2},\\ \mathbb{E}(Y_0|X_0) \sim N\left(\beta_0+\beta_1X_0,\sigma^2\left[\frac{1}{n}+\frac{(X_0-\bar X)^2}{\sum x_i^2} \right] \right). \]
置信区间基于\(t\)统计量构造。
第三章
相比一元时增加的数值部分
以下均假设解释变量有\(k\)个,从而待估参数有\(k+1\)个。
\[\hat{\boldsymbol{\beta}}=(X'X)^{-1}(X'Y),\\ \hat{\boldsymbol{\beta}}\sim N_{k+1}(\boldsymbol{\beta},\sigma^2(X'X)^{-1}). \]
样本容量问题:最小样本容量为\(n\ge k+1\),即满足行满秩。满足基本要求的容量是\(n\ge 30\)或\(n\ge 3(k+1)\)。
调整可决系数:
\[\bar R^2=1-(1-R^2)\frac{n-1}{n-k-1}. \]
调整可决系数可能小于0。
模型检验的\(F\)统计量:\(\mathrm{ESS}\)和\(\mathrm{RSS}\)同时除以其自由度。
\[F=\frac{\mathrm{ESS}/k}{\mathrm{RSS}/(n-k-1)}\sim F(k,n-k-1). \]
与可决系数的关系:
\[F=\frac{\frac{\mathrm{ESS}}{\mathrm{TSS}}/k}{\frac{\mathrm{RSS}}{\mathrm{TSS}}/(n-k-1)}=\frac{R^2/k}{(1-R^2)/(n-k-1)},\\ \bar R^2=1-\frac{n-1}{n-k-1+kF}. \]
虚拟变量
虚拟变量:只取0或1的人工变量。虚拟变量的引入方式有:加法方式、乘法方式。
- 加法方式引入变量时,两个函数有相同的斜率,但是截距不同。
- 乘法方式引入变量时,引起斜率的变化(边际)。
如
\[D=0:Y_i=\alpha_0+\alpha_1X_{i1}+\alpha_2X_{i2}+\mu_{1i}, \\ D=1:Y_i=\beta_0+\beta_1X_{i1}+\beta_2X_{i2}+\mu_{1i}. \]
建立如下模型:
\[Y_i=\beta_0+\delta_0D_i+\beta_1X_{i1}+\delta_1(D_iX_{i1})+\beta_2X_{i2}+\delta_2(D_iX_{i2})+\mu_i. \]
虚拟变量的设置原则:如果有\(m\)个定性变量,只在模型中引入\(m-1\)个虚拟变量(虚拟变量陷阱,要求模型本身存在截距项)。
第四、五、六章
多重共线性
多重共线性:如果解释变量之间出现了相关性,就成为存在多重共线性。后果:
- 完全共线性下,参数估计量不存在,只能确定综合参数的估计值。
- 近似共线性下,普通最小二乘法估计量的方差变大。
- 参数估计量经济意义不合理。
- 变量的显著性检验和预测功能失去意义。
\[\mathrm{VIF}=\frac{1}{1-r^2}. \]
异方差性
异方差性:对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同。后果:
- 参数估计量非有效。
- 变量的显著性检验失去意义。
- 模型的预测失效。
怀特检验:先对模型作OLS回归得到残差项的平方,并作辅助回归。辅助回归的解释变量为原回归解释变量之间,二次项以内的项,被解释变量为残差项的平方。
\[e_i^2=\delta_0+\delta_1X_{i1}+\delta_2X_{i2}+\delta_3X_{i1}^2+\delta_4X_{i2}^2+\delta_5X_{i1}X_{i2}+\varepsilon_i.\\ H_0:\delta_1=\delta_2=\delta_3=\delta_4=\delta_5=0,\\ LM=nR^2_{e^2}\sim \chi^2(5). \]
加权最小二乘法:对原模型加权,使之变成一个不存在异方差性的模型,然后采用普通最小二乘法估计其参数。加权的基本思想是,对较小的残差平方和赋予较大的权数,对较大的残差平方和赋予较小的参数。
\[\sum w_ie_i^2=\sum w_i[Y_i-(\hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_kX_k)]^2. \]
如果已经知道\(\mathbb{D}(\mu_i)=f(X_{ji})\sigma^2\),则原模型应该变为
\[\frac{1}{\sqrt{f(X_{ji})}}Y_i=\frac{\beta_0}{\sqrt{f(X_{ji})}}+\frac{\beta_1X_{1i}}{\sqrt{f(X_{ji})}}+\cdots+\frac{\beta_kX_{ki}}{\sqrt{f(X_{ji})}}+\frac{\mu_i}{\sqrt{f(X_{ji})}},\\ \mathbb{D}\left[\frac{\mu_i}{\sqrt{f(X_{ji})}} \right]=\sigma^2. \]
此时修正为同方差模型,用普通最小二乘法估计其参数。
内生性
内生解释变量问题:如果存在一个或者多个随机变量是内生解释变量,则称原模型存在内生解释变量问题。这里一般指的是内生解释变量与随机干扰项同期相关,即\({\rm Cov}(X_{i2},\mu_i)\ne 0\)。
成因:
- 被解释变量与解释变量互为因果。
- 模型设定时遗漏了重要的解释变量,所遗漏的变量与模型中的解释变量同期相关。
- 解释变量存在测量误差。
案例:以企业资金利润率作为被解释变量,以企业中外资所占比例和其他外生变量为解释变量建立模型。但是效益好的企业容易引进外资,效益差的企业引进外资困难,这就是互为因果。
内生性的后果:有偏且不一致。
工具变量法要满足的条件:
- 与替代的随机变量高度相关。
- 与随机干扰项不相关。
- 与模型中其他解释变量不高度相关。
- 所选择的工具变量之间不线性相关。
工具变量法的正规方程组:
\[\sum e_i=0,\quad \sum e_iZ_i=\sum Z_i[Y_i-(\hat\beta_0+\hat\beta_1X_i)]=0,\\ \boldsymbol{Z'(\boldsymbol Y-\boldsymbol{X}\tilde{\boldsymbol{\beta}})}=\boldsymbol{0}. \]
工具变量法是有偏但相合的。
2SLS:先用OLS进行\(X\)关于工具变量\(Z\)的回归,即\(\hat X_i=\hat\alpha_0+\hat\alpha Z_i\),再进行第二阶段的回归:
\[Y_i=\beta_0+\beta_1\hat X_i+\mu_i. \]
模型设定偏误
模型设定偏误的来源:相关变量的遗漏,无关变量的误选,错误的函数形式。
序列相关性
序列相关性:随机干扰项不相互独立。
- 如果仅存在\(\mathbb{E}(\mu_t\mu_{t+1})\ne 0\),则称为一阶序列相关,或自相关。
- 自相关往往可以写成:\(\mu_t=\rho \mu_{t-1}+\varepsilon_t\),\(-1<\rho<1\)称为自协方差系数。
成因:经济变量固有的惯性,如供给对价格的反应本身存在滞后期。
序列相关性的后果:参数估计量非有效、变量显著性检验失去意义、模型的预测失效。
DW检验:条件是解释变量非随机,随机干扰项一阶自回归,回归模型中不含有滞后应变量,回归模型含有截距项。
\[\mathrm{D.W.}=\frac{\sum\limits_{t=2}^n(e_t-e_{t-1})^2}{\sum\limits_{t=1}^n e_t^2}\approx2(1-\rho)\in[0,4]. \]
- 如果\(0<\mathrm{D.W}<d_L\),则存在正自相关;
- 如果\(d_L<\mathrm{D.W.}<d_U\),则不能确定;
- 如果\(d_U<\mathrm{D.W.}<4-d_U\),则无自相关;
- 如果\(4-d_U<\mathrm{D.W.}<4-d_L\),则不能确定;
- 如果\(4-d_L<\mathrm{D.W.}<4\),则存在负自相关。
广义差分法:如果原模型随机干扰项是\(\mathrm{AR}(p)\)的,即:
\[\mu_t=\rho_1\mu_{t-1}+\rho_2\mu_{t-2}+\cdots+\rho_p\mu_{t-p}+\varepsilon_t, \]
则进行\(p\)阶差分,即
\[\begin{aligned} &\quad Y_t-(\rho_1Y_{t-1}+\rho_2Y_{t-2}+\cdots +\rho_pY_{t-p})\\ &= \beta_0(1-\rho_1-\cdots-\rho_p)+\beta_1(X_{t,1}-\rho_1X_{t-1,1}-\cdots-\rho_pX_{t-p,1})+\cdots\\ &\quad +\beta_k(X_{tk}-\rho_1X_{t-1,k}-\cdots-\rho_pX_{t-p,k})+\varepsilon_t. \end{aligned} \]
此时的\(\{\varepsilon_t\}\sim \mathrm{WN}(0,\sigma^2)\)。
普莱斯温斯特变换:补救样本观测值的损失,对一阶序列相关时的普莱斯温斯特变换是
\[Y_1^*=\sqrt{1-\rho^2}Y_1,\\ X_{1j}^*=\sqrt{1-\rho^2}X_{1j}. \]
二元离散选择模型
二元离散选择模型:被解释变量只能存在两种选择——0,1的模型。
\[Y_i^*=\boldsymbol{X}_i\boldsymbol{\beta}+\mu_i^*. \\ \mathbb{P}(Y_i=1)=\mathbb{P}(Y_i^*>0)=\mathbb{P}(\mu_i^*>-\boldsymbol{X}_i\boldsymbol{\beta}) \]
最常用的两种二元选择模型:Probit模型,Logit模型。