文章目录
- 一、RDD中LATE的计算方式
- 二、 两次回归
- 三、一次回归
- 四、去中心化
一、RDD中LATE的计算方式
二、 两次回归
所谓的两次回归指的是,在断点左边和右边,根据数据样本,分别拟合一条曲线。两条曲线在断点这条直线上的截距项,作为我们想要估计的。
断点左边这条线外层指定的函数是:假设
表示高考得分:
表示收入,处置为进入一本或不进入一本,则式中的:
指的是截距项,即不受高考得分影响的平均收入水平;
指的斜率,即收入随着高考得分增长的边际价值;
指的随机误差项,即模型无法完全捕捉的随机性和不确定性;
表示
(断点)的结果。
右边这条线指定的函数是:式中的:
指的是截距项,即不受高考得分影响和是否上一本的平均收入水平;
指的斜率,即收入随着高考得分增长的边际价值;
是我们想要的
,即处置的边际价值;
指的随机误差项,即模型无法完全捕捉的随机性和不确定性;
表示
(断点)的结果。
此时的推导如下:
因为和
都表示不受高考分数和处置影响的平均收入水平,所以:
因此,忽略掉两个误差项后:
若左右两边回归函数的斜率一致,即:
则:
否则:
问题一:怎么看待回归曲线斜率不一致的问题?等我知道了再补充。🐶
三、一次回归
所谓的一次回归,指的是直接用一个函数做拟合,其实本质和上面是一样的,只是两个式子合并成了用一个式子表达:
为什么可以写成这样呢?我们分别看下处置和不处置
时,这个式子会变成什么样:
上式的第一个表达式是不是和式(1)一样?就不用再解释啦。关键是第二个表达式怎么理解?第二个式子跟式(2)唯一的区别是多了一个交互项:,这里其实是为了考虑左右两边回归曲线的斜率不一致的场景,当
时,左右两边回归曲线的斜率相等,否则不等。
此时的LATE为:
四、去中心化
所谓去中心化,就是将:
中凡是涉及的项,都用
来代替,即变成:
这么做有什么好处呢?我们先来推导一下去中心化以后的:
因此可以表示为:
可以看到去中心化前后的LATE计算的表达式分别为:和
。看起来是不是很困惑?到底哪个是对的呢?其实这两个是相等的!我们将式(12)换一套字符表达:
然后我们再来比较下去中心化之前的式(9):
和去中心化之后的式(15):
我们将式(15)展开可以得到:
可以看到:
从最后一个等式可以推出:
因为:
所以:
等式前一项是去中心化之后的,等式的后一项是去中心化之前的的
!!!这也是为什么说去中心化理论上并不会改变计算的LATE的值。
好了,最后总结下为什么要去中心化:由于去中心化后,只与一个估计量相关啦,相比去中心化之前的与两个估计量相关,自然估计的偏差会小一点(无偏性更好),因为多个参数估计的误差是会累积的,同时,方差也会小一点(有效性更强)。一致性我们刚刚推导过程中已经保证了。