金融经济 | Stata在毕业论文中的数据处理应用

利益相关:我们是英国文文校园,一群热心的学姐学长帮你解答有关英国留学学习生活的疑难杂症!!这个问题邀请了谢菲尔德经济博士Bo马住回答!

Tips & 心得感悟体会 Stata作为款简易上手的数据处理软件,在我Master dissertation和我的PhD学术论文创作中都起着非常重要的作用。配合Stata的help指令可以查看指令的详细说明。如果仍有问题可以在人大经管论坛等网站查询相关资料。希望我的介绍能对大家有所帮助。

首先给大家介绍一下什么是STATA:

Stata软件是现今较为流行的统计计量分析软件,具有强大的数据处理分析功能。Stata是有StataCorp在1985年研制开发成功之后面试的,由statistics和data两个单词的音节缩写而成,到现在已经有34年的历史了。虽然现在最新的版本为2018年刚推出的Stata15,但是鉴于15的版本还没有得到广泛的推广和使用,所以此次介绍的Stata功能主要是通过Stata14来实现的。作为一个处理数据的应用统计软件,Stata被广泛的应用于经济学、金融学、社会学、心理学等等一系列学科的研究,功能十分强大。与其他统计软件相比,Stata具有以下的明显优势:

(1)Stata操作较为简单,方便使用者掌握(相比于R和Matlab);

(2)Stata是一个开放的软件系统,可以安装很多外来的使用code指令;

(3)Stata具有强大的数据分析功能,适合于观察值数量众多的数据(相较于Spss);

(4)Stata具有强大的图形制作功能。

Stata14在安装数主要有四种版本,包括:Small(小型版),IC(标准版),SE(特殊版)和MP(多处理器版)。用户可以在安装过程中自主进行选择,一般而言,SE版已经能实现Stata的所有功能,但MP版本运算速度更快,更适合于样本量极大的数据。因此,我建议同学们更多地使用MP版本。英国各大学校基本上都会提供Stata的使用,比如我所在的谢大就会提供Stata15的SE版本。如果学校没有提供的话,在人大经管论坛上搜索也会得到一些用户分享的Stata下载连接。

那么怎么用好STATA这把屠龙宝刀???

▲ Stata14(MP) 界面

从上图可以看出,Stata与其他操作软件一样,具有正常的标题栏、菜单栏、工具栏和状态栏。在这里我着重介绍一下菜单栏,因为它是用户进行采单操作的主要媒介和工具。菜单栏主要包括File、Edit、Data、Graphics、Statistics、User、Window、Help共八个子菜单。因为Stata主要是通过code指令进行操作,所以这里只简要介绍一下各个菜单的功能。

(1)File的下拉菜单包括打开、保存、查看文件、导入和导出数据等功能。

(2)Edit的下拉菜单包括数据的复制、粘贴等有关数据管理和设置的功能。

(3)Data的下拉菜单包括数据的描述、编辑、浏览、增加或删除变量、文件合并等方面的内容。

(4)Graphics主要是用来作图的菜单,作图种类主要包括散点图、线图、柱状图、饼图等各种图形。

(5)Statistics主要是用来进行各种统计和计量分析的菜单,主要包括线性回归(linear)模型分析、时间序列(time-series)分析、面板(panel)数据分析等方面的内容。

(6)User主要是用来构建用户自己的菜单,主要包括有关数据、图表和统计分析等方面的设置和操作。

(7)Window主要是用于对显示界面的操作,主要包括对Review、Results、Variables、Command四大窗口的操作。

从图中我们也可以发现Stata最主要的部分是由命令回顾窗口(Review)、结果窗口(Results)、变量窗口(Variables)和命令输入窗口(Command)。我会简单的介绍一下这四个窗口。

(1) Review:用来临时性存储已经执行过的命令语句的窗口。这些执行过的命令语句主要包括两种:一种是直接从命令窗口(Command)中输入的命令,另一种是通过窗口菜单操作转化而成的命令。Review窗口可以临时性存储自Stata本次运行到结束的所有命令,若Stata中途或最终被关闭,则所有的命令语句会自动消失。Stata运行过程中,若需要重复使用显示在Review窗口中的命令,只需要做左键单击命令该命令将会重新显示在Command命令输入窗口中,供用户进行修改和执行(双击会直接运行)。

(2) Results:用来显示命令执行结果的窗口。若是命令执行的结果过长会在命令窗口的地段出现‘more’,此时只需按下空格或者回车就可以继续浏览下面的内容(想彻底取消‘more’可以输入set more off);如果想停止命令运行,只需要an‘q’键或者单机工具栏中的

图标就可以停止。

(3) Variables:用来显示变量名称和类型的窗口。双击某个变量名称其就可以显示在Command命令窗口中。

(4)Command:用户进行指令操作的主要实现场所。只要将相关命令输入,然后点击回车即可运行。

毕业论文中会经常使用的功能

1. Stata指令语法

Stata的语法十分的简单和灵活。一个命令便构成了一条可执行的语句,在stata command中输入后敲回车键就可以运行了。Stata的命令可以大体上分成4类:help命令;针对memory的命令;关系(逻辑)运算符;处理和分析数据的命令。

(1)help十分简单。比如想了解某个指令(例如regress)的用法,可以在command中输入‘help regress’后回车,这是stata会提供关于‘regress’指令的详细说明并配以例子。

(2)memory有清空命令clear和设置memory大小的set memory命令。Memory有一个默认的大小,但如果数据文件太大必须重设memory的大小。通过‘help memory’如下图我们可得知不同版本的stata14的memory范围。

▲ Memory设置的大小范围

(3)关系运算符:==(等于),!=,~=(不等于),>(大于),=(大于或等于),<=(小于或等于)。

逻辑运算符:&(与),|(或),~(非)

(4) 处理分析数据的命令

Stata的指令众多,下面我会简单的介绍一下基本指令,可能对大家的dissertation会有所帮助。

① rename old_varname new_varname

改变变量名,old_varname是原变量名, new_varname是新变量名。

② generate newvar=exp

生成新变量,newvar是生成的新变量,exp是优先右边梁生成新变量的逻辑或算术表达式。例如 gen age2=age*age (生成新变量age2等于age的平方)

③ replace oldvar=exp

对现有变量重新赋值,oldvar为现有的变量,根据表达式exp重新赋值。例如replace income=. if income<=0(若income非正,令其取缺失值)。

④ drop varlist

去掉varlist指定的变量,drop _all(去掉全部变量)

⑤ keep varlist

保留varlist指定的变量,其余变量去掉。

⑥ sort varlist

变量排序,将全部观察量按指定的变量升序排列,varlist中可以有不止一个变量。

⑦ regress y x1 x2 x2

常用线性回归分析。以y为被解释变量,x1 x2 x3未解释变量做线性回归;regress后第一个变量为被解释变量。

Stata还有众多的指令语法,在大家使用的过程中可以使用help指令配合学习。

2. Do file文件

除了在Stata 的Command命令窗口中输入指令外,如果想永久存储输入的命令方便以后进一步使用或者修改,这个时候就需要使用do-file文件了。

Do file文件的打开在Window的Do-file Editor中如下:

▲ Do-file的打开路径

打开一个新的do file文件会呈现如下图,在这个文件中我们也可以输入我们想在Command中输入的分析数据命令指令,并且使用后可以作为一个后缀名为.do的文件长期保存。

▲ Do-file文件