目录

获取路径

数据类型 

向量

向量索引

矩阵

查找、定义矩阵行列名称

矩阵索引

列表

数据框

常用运算与函数

基本运算

向量相关函数

数据框和矩阵相关的函数

字符函数

随机分布函数

循环结构,向量化编程,泛函式编程

for循环

while循环

条件结构

函数构建

数据操作-数据导入导出、批量导入(暨tidyverse包)

数据整理

新建变量

过滤行

分组汇总

数据合并

列的分裂与合并

长宽数据转换

统计学


获取路径

getwd()#获取当前工作目录
setwd("C:/rtext")#设置当前工作目录
getwd()
file.choose()#获取(查找)某一文件路径

ls()#列出当前环境对象
rm(a)#移除某一对象

数据类型 

R 语言中的最基本数据类型主要有三种:数字,逻辑,文本

is.numeric(123)#判断是否为数字型

is.character("123")#判断是否为文本型

is.logical(TRUE)#判断是否为逻辑型



as.numeric('123')#将对象转化为数字型

as.logical(2.1)##将对象转化为逻辑型

a = 5

is.na(a)

as.numeric('asuka')

is.na(as.numeric('asuka'))

is.infinite(a)

 按对象类型来分是以下6种:向量(vector),列表(list),矩阵(matrix),数组(array),因子(factor),数据框(data.frame)

向量

#向量的生成
b <- 1:5
d <- c(1:5)
e <- c(3,5,4)
f <- c(b,e)
v6 <- seq(from=2,to=9,by=3)#构造一个从2开始,到9结束,步长为3的向量
v7 <- seq(2,9,3)#v6的简写

#向量的命名
names(v6)
v9 <- c("a","b","c")
names(v6) <- v9 #将v9中的字符串命名到v6各个元素
names(v6)

#向量的长度
length(v6)

向量索引

#根据向量元素的位置进行索引
v8 <- c(1,2,3,4)
v8[1]   #提取v8第一个元素值
v8[1,2] #提取v8第一二个元素值
xy = v8[c(1,2)]
xy[-1] #显示除第一个元素外的所有元素 

#根据向量元素名称进行索引
x <- c(11,22,33,44)
names(x) <- c('a','b','c','d')
x[c("c")]

矩阵

矩阵的创建:matrix(data, nrow=a, ncol = b, byrow=FALSE,dimnames)

默认byrow=F,即按列排序;

nrow为矩阵的行数目,ncol为矩阵的列数目,这两个只需要设置其中一个即可;

dimnames可以为矩阵设置行名称与列名称。

m1 <- matrix(1:6) #默认byrow=F,即按列排序
m1 <- matrix(1:6,nrow=2,byrow=F)#按列排列
m1 <- matrix(1:6,nrow=2,byrow=T)#按行排列

> m1 <- matrix(1:6,nrow=2,byrow=T,dimnames = list(c('one','two'),c('cha','math','eng')))
> m1
    cha math eng
one   1    2   3
two   4    5   6

查找、定义矩阵行列名称

#显示m1的行名称
colnames(m1)

#定义m1的行名称
colnames(m1) <- c('a','su','ka')
colnames(m1) <- list(c('a','su','ka'))

dim(m1)  #返回m1的行列维度
ncol(m1) #返回m1的行数
nrow(m1) #返回m1的列数

矩阵索引

#利用行列数进行索引
m1[1,2]                          #返回向量,返回m1第一行第二列的元素
m1[1,]                           #返回向量,m1第一行的向量
m1[,2]                           #返回向量,返回第二列向量
m1[1:2,2:3]                      #返回矩阵,返回矩阵m1第一到二行、第二到三列
m1[c(1,2),c(2,3)]                #返回矩阵,返回矩阵m1第一二行、第二三列
   
#利用行列名称进行索引
m1[,"su"]                        #返回向量,取出列名称为"su"的列
m1['one',]                       #返回向量
m1[c('one'),c('a','ka')]         #返回矩阵

as.vector(m1)                    #转换成向量(按列)

列表

v1<-1:5
m1 <- matrix(1:6,nrow=2,byrow=T,dimnames = list(c('one','two'),c('cha','math','eng')))
l1 <- list(com1 = v1,com2 = m1)#生成两个成分所构成的列表(list(成分名称=成分的值,成分名称=成分的值))

> l1
> l1
$com1
[1] 1 2 3 4 5

$com2
    cha math eng
one   1    2   3
two   4    5   6

列表索引

> l1$com1        #返回名称为com1的向量
[1] 1 2 3 4 5

> l1[['com2']]   #返回名称为com2的矩阵
    cha math eng
one   1    2   3
two   4    5   6

> l1[[2]]        #返回l1的第二个元素,即l1 <- list(com1 = v1,com2 = m1)中的com2
    cha math eng
one   1    2   3
two   4    5   6

> l1['com1']     #返回列表
$com1
[1] 1 2 3 4 5

> l1[2]          #返回列表
$com2
    cha math eng
one   1    2   3
two   4    5   6

新建成分与释放列表

#新建成分
l1$com3 <- 3:6 #新建成分,现在l1有com1、2、3,,3个成分了
> l1
$com1
[1] 1 2 3 4 5

$com2
    cha math eng
one   1    2   3
two   4    5   6

$com3
[1] 3 4 5 6

#释放列表
unlist(l1)

数据框

是特殊的列表,跟矩阵对比,矩阵只能容纳一种类型的数据,而数据框跟列表一样可以容纳多种类型的数据

#数据框的建立
> df1 <- data.frame(c1 = 2:5,c2 = LETTERS[2:5])#构造一个第一列为c1,第二列为c2的数据框,data.frame(名称=值,)
> df1
  c1 c2
1  2  B
2  3  C
3  4  D
4  5  E

#维度信息
dim(df1)#返回df1的行列维度
ncol(df1)#列数
nrow(df1)#行数

#行列名称
dimnames(df1)
rownames(df1)                                       #返回数据框行名称
colnames(df1)                                       #返回数据框列名称
rownames(df1) <- c('11','22','33','44')             #重新定义df1的行名称
rownames(df1)
> df1
   c1 c2
11  2  B
22  3  C
33  4  D
44  5  E

数据框索引

#利用元素位置进行索引
> df1[1:2,2]                                          #返回向量
[1] "B" "C"

> df1[,2]                                             #返回向量
[1] "B" "C" "D" "E"

> df1[1,]                                             #返回数据框
   c1 c2
11  2  B


#利用行列名称进行索引
> df1[,"c2"]                                          #返回向量
[1] "B" "C" "D" "E"

> df1['11',]                                          #返回数据框
   c1 c2
11  2  B

> df1[[2]]                                            #返回向量
[1] "B" "C" "D" "E"

> df1$c1                                              #返回向量
[1] 2 3 4 5

> df1[2]                                              #返回数据框,没有加逗号,指向的是数据框基本构成单元——列
   c2
11  B
22  C
33  D
44  E

> df1['c1']                                           #返回数据框
   c1
11  2
22  3
33  4
44  5

新建列

> df1$c3 <- 1:4
> df1
   c1 c2 c3
11  2  B  1
22  3  C  2
33  4  D  3
44  5  E  4

> df1$c2 <- 5:8   #对列进行修改
> df1
   c1 c2 c3
11  2  5  1
22  3  6  2
33  4  7  3
44  5  8  4

常用运算与函数

 

基本运算

> c(1:4)/c(2:5)             	#向量相同位置元素之间做运算
[1] 0.5000000 0.6666667 0.7500000 0.8000000
> c(1:6)/c(2:5)             	#循环扩展(2:5→2 3 4 5 2 3)
[1] 0.5000000 0.6666667 0.7500000 0.8000000 2.5000000 2.0000000
> exp(1)                    	#自然常数为底的幂运算
[1] 2.718282
> log(x=25,base=5)	            #5为底25的对数
[1] 2
> sqrt(4)	                    #开平方
[1] 2
> abs(-56)	                    #绝对值
[1] 56
> sign(-5.6)	                #符号函数,参数为正,返回1,参数为负返回-1
[1] -1
> round(3.45679,2)	            #保留指定位小数,四舍五入
[1] 3.46
> signif(3.245,2)	            #保留指定位有效数字
[1] 3.2
> ceiling(3.2)	                #天花板 向上取
[1] 4
> floor(3.2)	                #地板 向下取
[1] 3

2 == 3	#是否等于
2 != 3	#是否不相等
2 >= 3  #大于等于
2 <= 3  #小于等于

> 2 %in% 2:5	#2是否包含于右边的向量
[1] TRUE
> (2>3) & (2 %in% 2:5)             	#与
[1] FALSE
> (2>3) | (2 %in% 2:5)             	#或
[1] TRUE
> !(2 %in% 2:5)                    	#非
[1] FALSE

向量相关函数

v2 <-c(3,2,7,4,6,8,11,21)

> max(v2)	    #最大值
[1] 21
> cummax(v2)	#累积最大值,第n个元素代表前n个元素的最大值
[1]  3  3  7  7  7  8 11 21
> min(v2)	    #最小值
[1] 2
> cummin(v2)	#累积最小值,第n个元素代表前n个元素的最小值
[1] 3 2 2 2 2 2 2 2

sum(v2)	    #求和
cumsum(v2)	#累积求和

prod(v2)	#乘积
cumprod(v2)	#累积乘积

mean(v2)	#均值
median(v2)	#中位数
sd(v2)	    #标准差
var(v2)	    #方差


> rev(v2)	#向量逆转
[1] 21 11  8  6  4  7  2  3

sort(v2)	#向量重排,按从小到大

> v5 <- rep(v2,times=2)
> table(v5)	    #向量元素频数统计
v5
 2  3  4  6  7  8 11 21 
 2  2  2  2  2  2  2  2 
> unique(v5)	#向量的取值水平,重复出现的元素只保留一个
[1]  3  2  7  4  6  8 11 21

索引函数

> v5
 [1]  3  2  7  4  6  8 11 21  3  2  7  4  6  8 11 21
> which(v5==7)	#返回向量v5中等于7的元素的位置
[1]  3 11
> which.max(v5)	#寻找向量最大值第一次出现的位置
[1] 8
> which.min(v5)	#寻找向量最小值第一次出现的位置
[1] 2
> intersect(1:5,4:7)	#交集,1:5和2:4这两个向量的交集
[1] 4 5
> setdiff(1:5,4:7)	#差集
[1] 1 2 3
> union(1:5,4:7)	#并集
[1] 1 2 3 4 5 6 7

数据框和矩阵相关的函数

#构造数据框
> dfs <- data.frame(a=1:5,b=3:7,d=letters[1:5])
> dfs
  a b d
1 1 3 a
2 2 4 b
3 3 5 c
4 4 6 d
5 5 7 e

#行列的合并
> df1 <- dfs[1:3,]   #取dfs前三行作为数据框df1
> df1
  a b d
1 1 3 a
2 2 4 b
3 3 5 c
> df2 <- dfs[3:5,]   #取dfs第三至第五行作为数据框df2
> df2
  a b d
3 3 5 c
4 4 6 d
5 5 7 e
> rbind(df1,df2)     #行合并,要求列数、列名称相同
   a b d
1  1 3 a
2  2 4 b
3  3 5 c
31 3 5 c
4  4 6 d
5  5 7 e
> cbind(df1,df2)     #列合并,要求行数相同
  a b d a b d
1 1 3 a 3 5 c
2 2 4 b 4 6 d
3 3 5 c 5 7 e

#行列运算
colMeans(dfs[,1:2])    #计算列的均值
colSums(dfs[,1:2])     #计算列的和
rowMeans(dfs[,1:2])    #计算各行的均值
rowSums(dfs[,1:2])     #计算各行的和
#apply(x,margin,function)→(作用的对象,作用的维度(1对应行,2对应列),所要使用的函数)
apply(dfs[,1:2],2,sd)#求第一二列各自的标准差

#对象结构信息
str(dfs)#告诉你对象基本信息,维度、变量、数据类型...
summary(dfs)#返回数据框一些描述性统计的指标,最大最小值、中位数...
View(dfs)#显示数据框
head(dfs,n=2)#返回数据框头两行,默认n=6
tail(dfs,n=2)#返回数据框尾两行

#矩阵的运算
m3 <- matrix(c(5,7,3,4),ncol = 2,byrow=T)
m4 <- matrix(c(5,7,3,4,8,9),ncol = 3,byrow=T)
> t(m3)#矩阵转置
     [,1] [,2]
[1,]    5    3
[2,]    7    4
> m3 %*% m4      #矩阵相乘,要求左列数=右行数
     [,1] [,2] [,3]
[1,]   53   91   78
[2,]   31   53   45
> solve(m3)      #矩阵求逆,m3 %*% x = E,x=?
     [,1] [,2]
[1,]   -4    7
[2,]    3   -5
> solve(m3,m4)   #m3 %*% x = m4,x=?
     [,1] [,2] [,3]
[1,]    8   28   51
[2,]   -5  -19  -36

字符函数

#连接成字符向量
> paste(1:5,collapse = "+")#在每两个向量之间插入“+”,连接成一个字符串
[1] "1+2+3+4+5"
> paste(letters[1:5],collapse = "-")
[1] "a-b-c-d-e"
> paste(1:5,letters[1:8],sep = '~')#两个向量对应元素进行连接
[1] "1~a" "2~b" "3~c" "4~d" "5~e" "1~f" "2~g" "3~h"
> paste0(1:5,letters[1:8])#两个向量对应元素紧密连接
[1] "1a" "2b" "3c" "4d" "5e" "1f" "2g" "3h"

> month.name       #包含12个月的向量
 [1] "January"   "February"  "March"     "April"     "May"       "June"      "July"      "August"    "September"
[10] "October"   "November"  "December" 
> nchar(month.name)#字符向量每个元素的字符长度
 [1] 7 8 5 5 3 4 4 6 9 7 8 8
> toupper(month.name)#全部转大写
 [1] "JANUARY"   "FEBRUARY"  "MARCH"     "APRIL"     "MAY"       "JUNE"      "JULY"      "AUGUST"    "SEPTEMBER"
[10] "OCTOBER"   "NOVEMBER"  "DECEMBER" 
> tolower(month.name)#全部转小写
 [1] "january"   "february"  "march"     "april"     "may"       "june"      "july"      "august"    "september"
[10] "october"   "november"  "december" 

#字符索引

> grep("Ju",month.name)#含有某个字符的元素的索引,寻找包含字符的元素的所在位置
[1] 6 7

#字符替换

> gsub("e","000",month.name)#替换字符,在字符向量month.name中找到字符e,替换成000
 [1] "January"         "F000bruary"      "March"           "April"           "May"             "Jun000"         
 [7] "July"            "August"          "S000pt000mb000r" "Octob000r"       "Nov000mb000r"    "D000c000mb000r"

随机分布函数

随机抽样函数
> sample(1:20,12,replace = T)#随机抽样,在1:20范围内随机抽取12个,replace=T代表有放回,默认为无放回
 [1] 19  9 20 18 13 10 20 11 10  1 20 13
> #由于是随机抽样,所以每次随机结果都不一样,若要保持相同结果,可以用set.seed(任意数字)来固定第一次的结果)
> 
> set.seed(1)
> sample(1:20,5)#需先运行上一代码才有固定效果
[1]  4  7  1  2 13
> 
> rnorm(10,mean = 1,sd = 2)#r代表生成随机数,norm代表分布,生成10个均值为1,标准差为2的随机数
 [1]  4.1905616  1.6590155 -0.6409368  1.9748581  2.4766494  2.1515627  0.3892232  4.0235623  1.7796865 -0.2424812
> pnorm(1,mean = 1,sd = 2)#p代表累计概率,均值为1标准差为2的分布下,在1处的累计概率为0.5
[1] 0.5
> qnorm(0.5,mean = 1,sd = 2)#q代表分位数,
[1] 1
> dnorm(1,mean = 1,sd = 2)#d代表概率密度,x=1时的概率密度
[1] 0.1994711
> pnorm(1.96,0,1)
[1] 0.9750021
> pnorm(1.645,0,1)
[1] 0.9500151
> 
> plot(x=seq(-5,7,length=1000),y=dnorm(seq(-5,7,length=1000),mean=1,sd=2),type="l",ylim=c(0,0.25))
> #seq(-5,7,length=1000)表示从-5到7之间取1000个随机数
> abline(h=0,v=1)#加入水平线,x=1的竖直线

循环结构,向量化编程,泛函式编程

for循环

for(循环变量 in 循环空间(一般为向量)){语法}

{}内为每次从向量空间中取出一个值后所要进行的操作

> for (x in c(-2,3,0,4)){
+     y=abs(x)
+     z=y^3
+     print(z)
+     print("------")}
[1] 8
[1] "------"
[1] 27
[1] "------"
[1] 0
[1] "------"
[1] 64
[1] "------"

while循环

while(执行循环的条件){满足条件时执行的操作}

> v1 <- 1:5
> i <- 1
> while(i <= length(v1)){
+   print(i)
+   
+   print(sum(v1[1:i]))
+   i = i+1
+   
+   print(i)
+   print("####")
+ }
[1] 1
[1] 1
[1] 2
[1] "####"
[1] 2
[1] 3
[1] 3
[1] "####"
[1] 3
[1] 6
[1] 4
[1] "####"
[1] 4
[1] 10
[1] 5
[1] "####"
[1] 5
[1] 15
[1] 6
[1] "####"

分别用for循环和while循环求数据框df每一行的和

for循环
> df <- data.frame(c1 = 2:5,c2 = 4:7,c3 = -19:-16)
> df
  c1 c2  c3
1  2  4 -19
2  3  5 -18
3  4  6 -17
4  5  7 -16
> 
> for(i in 1:nrow(df)){print(sum(df[i,]))}
[1] -13
[1] -10
[1] -7
[1] -4
> rowSums(df)#同上
[1] -13 -10  -7  -4
>
while循环
> j=1
> while(j <= nrow(df)){
+   print(sum(df[j,]))
+   j=j+1
+ }
[1] -13
[1] -10
[1] -7
[1] -4

跳过循环与终止循环

next:跳过这一次循环直接进入下一次循环
> for(i in 1:nrow(df)){
+   if(i==3){next}
+   print(sum(df[i,]))
+ }#跳过i=3时的循环
[1] -13
[1] -10
[1] -4


break:终止循环
> for(i in 1:nrow(df)){
+   if(i==3){break}
+   print(sum(df[i,]))
+ }#i=3时,终止循环
[1] -13
[1] -10

条件结构

函数构建

数据操作-数据导入导出、批量导入(暨tidyverse包)

数据整理

新建变量

过滤行

分组汇总

数据合并

列的分裂与合并

长宽数据转换

统计学