目录


  • 0. 理论背景
  • 1. Selection ratio 的基本原理
  • 2. Selection ratio 计算步骤
  • 3. Stata 实操
  • 4. 拓展阅读
  • 5. 参考文献


0. 理论背景

核心解释变量的内生性问题似乎是实证经济学家在追寻因果关系道路上避不开的拦路石。因为经济学研究中使用的数据绝大部分都不是通过实验条件生成的随机试验结果,选择性偏误(selection bias)是经济学家们经常过招的头号顽固敌人。选择性偏误泛指任何处理组和控制组之间的系统性区别(systematic difference)。举个例子:在研究私立学校 vs.公立学校的教育回报率问题上。对全样本直接做工资对是否上私立学校的回归,相当于直接比较私立学校学生和公立学校学生,这两组学生的组间平均工资的差异。然而,这个差值并不是准确的私立学校的教育回报率。因为私立学校学生和公立学校学生之间除了所上学校不同之外(我们关注的差别),还有很多系统性差别。比如私立学校学生,总体上平均总成绩更好,其父母收入更高,能力更综合优秀等。这些变量都是选择性变量,造成了两组人之间明显的选择性区别。

很多同学可能都知道此时应该把这些造成选择性偏误的变量控制起来!但是现实中因为数据集的限制,可能有些重要的可观测变量与核心解释变量非常相关,但我们没有数据。或者当你在回归的过程中,不断加入新的控制变量时,核心变量的系数随着新控制变量的加入而不断的减小或波动,此时你很可能会担忧,在没有数据限制下,还有更多的额外控制变量可供我们选择加入的话,我所探究和关心的因果关系是否还存在呢?此外,我们能控制的都是可观测变量 (selection on observed variables),那不可观测变量的选择性 (selection on unobserved varaibles) 如何排除呢?

Selection ratio 指标可以帮助我们来判别不可观测变量选择性偏误的强度!这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后,新加入的控制变量与核心解释变量的残余相关性比较小,从而使得系数估计比较稳定。倘若研究中还存在遗漏的(不可观测的、没办法控制的)选择性变量的话,我们有理由相信,这些遗漏的选择性变量和核心解释变量之间的残余相关性也会比较小。所以即使不控制也不会影响我的系数估计。这样的推断有一个逻辑上的跳跃,这其实是一种间接检验的思想。即,系数估计稳定性理论的本质是用可观测变量的选择性去推断不可观测变量的选择性。即控制了关键控制变量以后,额外的可观测控制变量还能纠正系数估计的程度,去推断遗漏变量还能抵消掉的因果效果的程度。