这一章笔记围绕虚拟变量问题展开,主要介绍虚拟变量的引入形式和分析方法,重点介绍双重差分模型的应用方法。
目录
- 虚拟变量与双重差分
- 虚拟变量的模型设定
- 虚拟变量的回归分析
- 虚拟变量的综合应用
- 结构变化分析
- 交互效应分析
- 双重差分模型
- 双重差分模型的优点
虚拟变量与双重差分
虚拟变量的模型设定
首先我们先对解释变量中的定性因素和定量因素作以下阐述:
- 定量因素:可直接测度、数值性的因素;
- 定性因素:属性因素,表征某种属性存在与否的非数值性的因素。
在实际建模中,如何对定性因素进行回归分析?采用“虚拟变量”对定性变量进行量化是最常用的一种思路。其基本思想为:
- 直接在回归模型中加入定性因素存在诸多的困难;
- 可将这些定性因素进行量化,以达到定性因素能与定量因素有着相同作用之目的;
- 有些定量因素也可以采取分组的方式来研究。
虚拟变量设置的时候需要考虑以下的基本规则:
- 总原则为:设置能够区分所有属性的最少虚拟变量。
- 虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。
- 如果定性因素具有 \(m\) 个相互排斥属性,当模型中含有截距项时,则只能引入 \(m-1\) 个虚拟变量;当模型中没有截距项时,则可以引入 \(m\)
- “虚拟变量陷阱”的实质:完全共线性。
虚拟变量的回归分析
在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种。
- 加法方式:
\[Y_i=\alpha_0+\beta_1X_i+u_i+\alpha_1 D_i \ . \]
- 乘法方式:
\[Y_i=\alpha_0+\beta_1X_i+u_i+\beta_2X_iD_i \ . \]
实质上,加法方式引入虚拟变量改变的是截距,乘法方式引入虚拟变量改变的是斜率。
含有虚拟变量的模型的分析手段:条件期望。
以加法方式引入虚拟变量时,主要考虑的问题是定性因素的属性和引入虚拟变量的个数。主要有四种情况:
- 解释变量只有一个定性变量而无定量变量,而且定性变量为两种相互排斥的属性;
- 解释变量分别为一个两种属性的定性变量和一个定量变量;
- 解释变量分别为一个定性变量(两种以上属性)和一个定量解释变量;
- 解释变量分别为两个定性变量(各自分别是两种属性)和一个定量解释变量。
以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。
- 截距不变的情形:\(Y_i=f(X_i,\,D_iX_i)+u_i\)
- 截距和斜率均发生变化的情形:\(Y_i=f(X_i,\,D_i,\,D_iX_i)+u_i\)
虚拟变量的综合应用
所谓虚拟变量的综合应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。基本分析方式仍然是条件期望分析。
结构变化分析
结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、不同的回归三个模型均不是同一模型。
- 平行回归模型的假定是斜率保持不变(加法类型,包括方差分析);
- 共点回归模型的假定是截距保持不变(乘法类型,又被称为协方差分析);
- 不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。
例:比较改革开放前后我国居民平均“储蓄—收入”总量关系是否发生变化?
模型设定为 :
\[Y_t=\alpha_1+\alpha_2D_t+\beta_1X_t+\beta_2(D_tX_t)+u_t \]
其中:\(Y_t\) 为储蓄总额,\(X_t\)
\[D=\left\{\begin{array}{cl} 1 \ \ , & \text{改革开放前} \\ 0 \ \ , & \text{改革开放后} \end{array}\right. \ . \]
条件期望分析:
- 改革开放后:\({\rm E}(Y_t|X_t,\,D_t=1)=\alpha_1+\alpha_2+(\beta_1+\beta_2)X_t\)
- 改革开放前:\({\rm E}(Y_t|X_t,\,D_t=0)=\alpha_1+\beta_1X_t\)
只要 \(\alpha_2\) 和 \(\beta_2\)
交互效应分析
交互作用:一个解释变量的边际效应有时可能要依赖于另一个解释变量。
例:研究人群的个人收入 \(Y\) 与其教育水平 \(E\) 和所在地区 \(D\)
模型设定为:
\[Y=\alpha_0+\alpha_1D_1+\alpha_2D_2+\alpha_3E+\alpha_4D_1E+\alpha_5D_2E+u \ , \]
其中
\[D_1=\left\{\begin{array}{cl} 1 \ \ , & \text{中部} \\ 0 \ \ , & \text{其他} \end{array}\right. \ , \ \ \ \ D_2=\left\{\begin{array}{cl} 1 \ \ , & \text{东部} \\ 0 \ \ , & \text{其他} \end{array}\right. \ , \ \ \ \ E=\left\{\begin{array}{cl} 1 \ \ , & \text{高等} \\ 0 \ \ , & \text{中等} \end{array}\right. \ . \]
各类人员的收入表如下:
西部 \((0,\,0)\)中部 \((1,\,0)\)东部 \((0,\,1)\)中等 \(E=0\)\(\alpha_0\)\(\alpha_0+\alpha_1\)\(\alpha_0+\alpha_2\)高等 \(E=1\)\(\alpha_0+\alpha_3\)\(\alpha_0+\alpha_1+\alpha_3+\alpha_4\)\(\alpha_0+\alpha_2+\alpha_3+\alpha_5\)
差异性描述:
中部与西部差东部与西部差东部与中部差中等 \(E=0\)\(\alpha_1\)\(\alpha_2\)\(\alpha_2-\alpha_1\)高等 \(E=1\)\(\alpha_1+\alpha_4\)\(\alpha_2+\alpha_5\)\(\alpha_2-\alpha_1+\alpha_5-\alpha_4\)
各类人员的收入表如下:
西部 \((0,\,0)\)中部 \((1,\,0)\)东部 \((0,\,1)\)高等与中等差\(\alpha_3\)\(\alpha_3+\alpha_4\)\(\alpha_3+\alpha_5\)
双重差分模型
双重差分法,Differences-in-Differences,基本思想就是通过对政策实施前后对照组和实验组之间差异的比较构造出反映政策效果的双重差分统计量。首先强调一点,一般而言 DID 仅适用于面板数据模型,但并没有严格意义上面板数据模型所需要的过多的假设,通过引入虚拟变量并通过最小二乘法即可实现参数估计。因此我们在讨论面板数据之前,先讨论双重差分模型的应用。
前提假设:
- 平行趋势假设:如果实验组的事件没有发生,对照组和实验组的变化趋势相同。
- 检验方法:比较实验组和对照组样本的 \(Y\) 随 \(t\)
模型设定:
\[Y_{it}=\alpha+\alpha_1d_{it}+\alpha_2T_{it}+\beta d_{it}T_{it}+\varepsilon_{it} \]
其中,\(Y_{it}\) 为个体 \(i\) 在 \(t\)
\[d_{it}=\left\{ \begin{array}{ll} 1 \ \ , & i\,\text{为实验组} \\ 0 \ \ , & i\,\text{为对照组} \\ \end{array} \right. \]
\[T_{it}=\left\{ \begin{array}{ll} 1 \ \ , & \text{表示实验后} \\ 0 \ \ , & \text{表示实验前} \\ \end{array} \right. \]
对 DID 模型取数学期望:
对照组+实验前
\[{\rm E}(Y_{it}|d_{it}=0,\,T_{it}=0)=\alpha \]
对照组+实验后
\[{\rm E}(Y_{it}|d_{it}=0,\,T_{it}=1)=\alpha+\alpha_2 \]
实验组+实验前
\[{\rm E}(Y_{it}|d_{it}=1,\,T_{it}=0)=\alpha+\alpha_1 \]
对照组+实验前
\[{\rm E}(Y_{it}|d_{it}=1,\,T_{it}=1)=\alpha+\alpha_1+\alpha_2+\beta \]
为了方便对比参数设定的意义,我们用如下的表格:
对照组 | 实验组 | |
实验前 | \(\alpha\) | \(\alpha+\alpha_1\) |
实验后 | \(\alpha+\alpha_2\) | \(\alpha+\alpha_1+\alpha_2+\beta\) |
Difference | \(\alpha_2\) | \(\alpha_2+\beta\) |
将双重差分的思想与上表的内容结合,我们可以得到政策的净效应:
\[{\rm DID}=\alpha_2+\beta-\alpha_2=\beta \ . \]
关键:检验交叉项系数 \(\hat\beta\)
双重差分模型的优点
- 可以很大程度上避免内生性问题的困扰:政策相对于微观经济主体而言一般是外生的,因而不存在逆向因果问题。此外,使用固定效应估计一定程度上也缓解了遗漏变量偏误问题。
- 传统方法下评估政策效应,主要是通过设置一个政策发生与否的虚拟变量然后进行回归,相较而言,双重差分法的模型设置更加科学,能更加准确地估计出政策效应。
- 双重差分法的原理和模型设置很简单,容易理解和运用,并不像空间计量等方法一样让人望而生畏。
- 尽管双重差分法估计的本质就是面板数据固定效应估计,但是 DID 听上去或多或少也要比 OLS、FE 之流更加“时尚高端”,因而 DID 的使用一定程度上可以满足“虚荣心”。