STATA

  • 常用命令
  • 数据相关
  • 生成新数据
  • 删除和修改数据
  • 改变数据类型
  • 条件命令
  • 取对数命令
  • 输出相关
  • 常用回归
  • 非线性选择回归
  • logit回归
  • probit回归
  • 线性回归
  • OLS
  • Heckman 回归
  • Tobit回归
  • 2SLS回归(工具变量法)
  • 常用检验
  • 异方差检验
  • 多重共线性检验
  • 自相关检验
  • 格兰杰因果检验
  • 稳健性检验
  • 内生性检验


常用命令

数据相关

生成新数据

利用旧数据定义新数据,注意,如果使用的旧数据为两个及以上,只要其中一个为空值,则新数据也为空值(即空值不会自动转化为0):
gen new_valuename = f(value1,value2,……)
如果要生成时间序列,可以定义原有的时间序列数据:
tsset valueame
如果原本没有,可以定义一列新的时间序列:
gen t=_n
tsset t

删除和修改数据

删除数据:
drop value1 value2 value3 ……
保留数据(除保留的以外全部删除):
keep value1 value2 value3 ……
修改数据:
replace valuename = f(value1 , value2 ,……)
修改数据时也可以将自己作为自变量,比如:
replace age = age -1
则age数据全部减少1
注意,请谨慎使用 drop 命令,该命令不可撤销,数据一旦丢失将无法追回,建议使用do文件减少风险(找不回,只是可以选择不保存,然后不用重输命令)

一键删除全部含有缺失值的对象:
egen mis = rowmiss(_all)
drop if mis

删除重复值(删除重复值后会保留第一个数据):
duplicates drop valuename , force

改变数据类型

excel导入的时候,数值型的数据如果有缺失,可能会被导成数值型,可以利用以下操作强制改为数值型
destring value ,force

条件命令

条件命令为 if ,并且的符号为&,或者的符号为|,否认的符号为!,以下为示例:
drop value1 if value 1 >=1 & value 2>=3
drop value1 if value 1 >=1 | value 2>=3
drop value1 if value 4 != “error”

取对数命令

底数为e取对数:
log(value)
底数为10取对数:
log10(value)
取对数后新数值的系数表示百分比变化,如果回归结果不好,可以尝试对其中相对大的数据列取对数。

输出相关

将不同回归结果输出到同一张表中,其中的省略号为所作的操作,注意nest与逗号之间要有空格,不然会失败(第一条命令为安装命令,已经安装的可以跳过):
ssc install asdoc, replace
asdoc …… , nest replace
asdoc …… , nest append

如果要输出描述统计或者其他结果,则可以用:
asdoc …… , save(docname.doc) title(titlename)

常用回归

非线性选择回归

logit回归

二元选择回归,因变量y为虚拟变量:
logistic y x1 x2 x3……
此外逻辑回归也可以做到分组回归,多元选择回归,在学习完成后在这个博客上将继续补充

probit回归

probit y x1 x2 x3……
与逻辑回归的用法相同,虽然思想不一样,但通常情况下,probit回归估计出的参数值乘以1.814,大致会等于logistic回归中的参数值。

线性回归

OLS

reg y x1 x2 x3……
如果有虚拟变量,可以使用xi命令快捷生成:
xi:reg y x1 x2 x3 i.x4……

Heckman 回归

选择样本模型的一种,这里给出heckman二步法的命令:
heckman y x1 x2 x3 …… , select(xi = z1 z2) twostep
后面的select变量中必须含有至少一种影响xi但对y没有影响的变量,xi为选择变量,这种方法会直接输出第二步回归时的R^2,但无第一步的信息,且默认第二步为OLS回归。可以使用下列方法分布计算:
dprobit xi x1 x2 z1 z2
predict zg if e(sample),xb
gen lambda = normalden(zg) / normal(zg)
reg y x1 x2 x3 …… lambda

符号含义同上,新增lambda变量意为“反Mills比例”,若其为负数则说明确实存在选择问题,使用该方法是合理的。另外,对最后一步可以替换为其他回归,例如2SLS等。

Tobit回归

选择样本模型的一种,只给出一般的tobit命令:
tobit y x1 x2 x3……

2SLS回归(工具变量法)

被解释变量:y

解释变量:x1

控制变量:x2 x3 x4

工具变量:z1 z2

reg x1 z1 x2 x3 x4, robust
ivregress 2sls y x1 x2 x3 x4 (x1= z1 z2), robust

常用检验

在做完回归后进行输入命令:

异方差检验

estat hettest
假如prob > chi2 的值小于0.05 则检验通过

多重共线性检验

estat vif
假如整体的vif小于10则通过

自相关检验

estat dwatson
一般DW值在2附近则通过(也可以用DW表对照自己判断)

格兰杰因果检验

存在滞后项时使用
先下载格兰杰因果检验程序gcause
ssc install gcause
检验x对y的因果关系,以下命令为滞后1、2期,显示其AIC、BIC的取值,一般的检验到滞后三期为止,之后进行y对x的检验,命令类似,不予贴出:
gcause y x,lags(1)
estat ic
gcause y x,lags(2)
estat ic

稳健性检验

通常是通过改变工具变量或是使用不同的计量方法,如果回归结果类似,则说明结果具有稳健性

内生性检验

通常意味着变量之间相互影响,可以考虑改变工具变量或是使用Durbin-Wu-Hausman 方法进行检验

代码为:

estat endogenous

输出结果示例:

python无截距回归 stata如何做无截距项的回归_稳健性


原假设为“变量是外生的”,若p值较大则接受原假设。这里可采用较大的p值以求结果的可靠性。