一 标签的认识
标签(label):为了让用户更加清楚地了解数据的来源、变量的含义、观测值的解释等相关内容,stata 可以为数据、变量、观测值添加标签。
分类:
数据集标签
命令: label data "test"
在这个命令语句中,label data
是为数据库添加标签的命令语句,"test"
代表所要添加的标签的内容。
label data ""
(给数据加标签""
,其实就是删除标签)
变量标签
命令:label variable varname "test"
label variable
是为变量添加标签的命令语句, varname
代表所要添加标签的变量名称,"test"
代表所要添加的标签的内容。
值标签
对于数值型的分类变量,单纯通过数值很难判断其含义,例如用 0 和 1 区分性别,但是很难区
分0是代表男性还是女性,这时如果给数值添加标签,就方便用户理解。
1 先定义一个标签
label define lblname
(标签规则名字) # "label"
规则
Eg. label define
house 2005“old” 2010“ok” 2016“new” (添加一个标签规则,规则名叫house规则是2005的值,标签为“old” ...)
2 给变量附上标签
label value
year house (给变量year,附上标签house )
二 排序
为了处理数据的方便,有时需要对数据进行排序处理,排序的命令有主要有两个:sort
命令和 gsort
命令。
升序: sort
gsort
sort
gsort
降序: gsort-
三 变量重命名
rename 函数
eg. rename x1 qqq
四 添加变量
建立新的变量:generate
generate 函数
即:generate 新变量名=值或表达式 if语句 in语句
eg. generate a=0
eg. generate m="2005年的房子" if year==2005
eg. generate m2=100 in 1/10
更改已有的变量:replace
replace函数
Nopromote:当原变量是整数int时,replace默认改成浮点式;如果添加nopromote,则仍然为整数(四舍五入后保留)
eg. replace year=10.8,nopromote
eg. replace year=10.8
egen命令
egen函数
egen表示对generate的拓展 :extensions to generate
它有一系列自己的函数:包括求综合、最大值、最小值、中位数等等。
可以在help中查看常用函数:
egen newvar=max(a),新变量newvar等于变量a的最大值
egen newvar=mean(a),新变量newvar等于变量a的平均值
egen newvar=min(a),新变量newvar等于变量a的最小值
egen newvar=median(a),新变量newvar等于变量a的中值
egen newvar=sd(a),新变量newvar等于变量a的标准差
egen newvar=total(a),新变量newvar等于a变量的求和
egen newvar=pc(a),新变量newvar等于变量a的标准化加总后的百分比
eg. egen minprice=mean(price)