一、什么是内生性
对于一个回归问题,回归方程如下:
简单来说内生性就是自变量x1与扰动项
存在相关性,即
,存在内生性那么用OLS就无法得到无偏估计,结论就不可靠。
无偏估计
是指用样本统计量来估计总体的参数时,估计量的数学期望等于被估计参数的真实值。
二、产生内生性原因
1)测量误差
这个很好理解,由于测量误差导致某变量与真实值偏离,那么这个变量的偏离就会影响到扰动项的大小,从而产生相关性。
2)样本选择
举个栗子,评估某个特效药品的治疗效果,选择了服用药物的作为实验组(处理组),未服用药物的作为对照组(控制组),最后对比两组的效应,E(处理组)- E(控制组),但是如果处理组中大多是青壮年,也可能青壮年更偏向参与这种测试,那么就很难说清药物治疗效果,还是青壮年体质好自愈性强。
3)遗漏变量
比如要评价一个人的健康状况,已知变量身高,体重,血压,血糖,饮食习惯,若遗漏了体重,那么体重会体现在扰动项
上,我们知道血压和血糖跟体重是相关的,也就产生了内生性。
4)互为因果
比如老旧改造安装电梯,需要2/3居民同意,没有反对意见,所以居民意见影响了电梯的安装,但是安装电梯这事会导致1层的房价失去竞争力,从而反对安装,所以就很难达成共识。
公式说明一下:
y:表示是否安装电梯,x:居民意见
则第一个回归方程的假设是:
1)
第二个回归方程:
2)
两个方程合并:
3)
由于
,但是由于1)方程可知y和
是相关的,所以存在内生性。
三、解决内生性办法
1) 测量误差
- 工具变量法
一般提到工具变量法会想到两个:2SLS(两阶段最小二乘)和GMM(广义矩估计)
2SLS适用于球型扰动项的假设条件下,即同方差,不自相关。
模型:
其中
是内生性变量,
是其他外生变量,这个时候需要找到工具变量Z,需要满足两个条件: 1、工具变量Z和扰动项不相关,即
2、工具变量Z和内生变量
相关
模型估计的两个阶段核心思想:
第一阶段,内生变量对工具变量和所有外生变量回归,得到估计系数,从而得到内生变量预测值。
第二阶段,用预测值代替内生变量进行回归。
stata命令:ivregress 2sls
GMM适用于扰动项存在异方差或自相关。
什么是异方差:
是指回归方程的扰动项的方差不完全相等。
举个栗子:学历对收入的影响,一般情况下学历越高收入越高,但是也存在小学学历的是个大老板,但是大多数情况下小学学历收入普遍不高,所以在小学的样本集中方差是相同的,而本科学历普遍要高于小学学历的收入,也存在收入居高和极低的特例,同样在本科情况下方差也是相同的。但是综合一起看两者(小学学历,本科学历)的方差是不同的,就存在了异方差。
什么是自相关:
一般指动态面板数据,例如一个上市公司,他的去年业绩也会影响今年的业绩。
矩估计思想同OLS(最小二乘法)和LIML(最大似然法)不同,
OLS目标函数是求真实数据和预测数据平方和最小
LIML目标函数是假设样本概率分布和真实相同,利用样本的联合概率密度最大值估计参数的过程。
矩估计是假设样本和总体拥有相同的矩,一阶原点矩和二阶原点矩,然后推到参数的过程。
stata命令:ivregress gmm 或 xtabond2
- 固定效应
固定效应适用于面板数据,能够解决部分变量问题,因为它消除的是不随时间变化的不可观察变量。
固定效应模型:
是被解释变量,
可观察随时间变化的变量,
可观测不随时间变化的变量,
不可观测不随时间变化的变量,
不可观测随时间变化的变量
例如使用个体内差分估计法,使用的是每个样本和样本的均值做差,然后再做回归,这样消除了可观测不随时间变化的变量和不可观测不随时间变化的变量。这个方法也是stata xtreg的默认方法。当然还有其他的方法例如LSDV。
stata命令:xtreg
2)样本选择
- PSM
目标是计算倾向得分,根据得分使用不同的方法获得匹配的样本,然后再做其他操作的过程。
举个栗子:研究某个政策的实施是否对当地有促进作用,那么实施的地区是实验组,没有实施的是控制组,显然当地由于地方特色和历史条件也会有促进作用,并不能说明是政策影响,所以需要找个跟实验组差不多的地区做对照组。
这个时候处理变量可以是政策实施,控制变量可以是地方的一系列特征变量,做回归得到政策实施的倾向得分。
然后利用k近邻匹配、几率比例匹配、半径匹配(卡尺匹配)、核匹配等匹配方法获得共同支撑域下的样本。匹配后检验过了,可以继续做DID等其他分析。
stata命令:psmatch2或diff(只支持核匹配)
- Heckman
也是分两个阶段:第一阶段probit估计选择的概率获得IMR,第二阶段利用IMR带入回归的目标方程进行估计。
stata命令:heckman,或是probit 与reg两部走
3)遗漏变量
- 工具变量
- 固定效应
4)双向因果
- 工具变量