四、基本数据管理
操纵日期和缺失值
熟悉数据类型的转换
变量的创建和重编码
数据集的排序、合并与取子集
选入和丢弃变量
1、创建新变量
变量名
2、变量的重编码(跟现有重新赋值) —— 逻辑运算符
3、变量的重命名
fix(leadership)调用一个交互式的编辑器,再单击重命名。
4、缺失值
is.na()函数检测缺失值是否存在。此位置是则显示TRUE,不是缺失值的位置则为FALSE 。
处理缺失值的两点要求:1是不可比较,不能用比较运算符;2不把无限的或者不可能出现的数值标记成缺失值。
5、日期值
日期值通常以字符串的形式输入到R,但是日期有很多种形式,如果想转化为数值形式存储的日期变量。可用as.Date(x, "input_format")执行,其中x是字符型数据,input_format则给出了用于读入日期的适当格式。
日期格式 | ||
%d | 数字表示的日期(0~31) | 01~31 |
%a | 缩写的星期名 | Mon |
%A | 非缩写星期名 | Monday |
%m | 月份(00~12) | 00~12 |
%b | 缩写的月份 | Jan |
%B | 非缩写月份 | January |
%y | 两位数的年份 | 07 |
%Y | 四位数的年份 | 2007 |
mm/dd/yyyy —— %m/%d/%y
Sys.Date() 返回当天的日期
date() 返回当前的日期和时间
difftime() 来计算时间间隔,并以星期、天、时、分、秒来表示。
format(x,format="output_format") 来输出指定格式的日期值
as.character() 可将日期值转换为字符型
6、类型转换
判断依据函数(输出T F) | 转换相应类型函数 |
is.numeric() | as.numeric() |
is.character() | as.character() |
is.vector() | as.vector() |
is.matrix() | as.matrix() |
is.data.frame() | as.data.frame() |
is.factor() | as.factor() |
is.logical() | as.logical() |
7、数据排序
order()函数对一个数据框进行排序,默认升序,在排序变量的前边加一个减号则降序。
8、数据集的合并(加列(变量)和行(观测)的方法)
向数据框添加列:函数merge()是两个数据框是通过一个或多个共有变量进行联结;
向数据框添加行:函数rbind()是纵合并两个数据框(数据集)。
9、数据集取子集(对变量和观测进行保留或删除的若干方法)
选入(保留)变量:dataframe[rowindices, column indices];将行下标留空(,)表示默认选择所有行。
剔除(丢弃)变量:先拆解,再丢弃变量(在某一列的下标之前加一个减号(–)就会剔除那一列)。
选入观测
subset()函数from:to。在这里,表示了数据框中变量from到变量to包含的所有变量。
随机抽样:sample()函数能够让你从数据集中(有放回或无放回地)抽取大小为n的一n个随机样本。
R存储缺失值和日期值的方法
如何确定一个对象的数据类型
及如何将它转换为其他类型
简单的公式创建了新变量并重编码了现有变量
如何对数据进行排序和对变量进行重命名
如何对数据和其他数据集进行横向合并(添加变量)和纵向合并(添加观测)
如何保留或丢弃变
如何基于一系列的准则选取观