文章目录

  • 数据转换之dplyr包
  • 1. 对单表格的操作
  • 2. dplyr包的统计函数
  • 3. 链式操作符 ——“%>% ”
  • 4. 对双表格的操作
  • 5.数据集的集合运算


数据转换之dplyr包

dplyr包不仅可以对单个表格进行操作,也可以对双表格进行操作。 (使用R中的iris数据集做演示)

install.packages("dplyr")
library(dplyr)
# 列出该包的函数
ls("package:dplyr")

因为dplyr包有很多函数,为了防止dplyr包中的函数名与其他函数产生冲突,使用时前面加上“包名::”

1. 对单表格的操作

# 过滤函数  选出 Sepal.Length>7 的行
dplyr::filter(iris,Sepal.Length>7)

#去除重复  
# rbind是行合并     iris[1:10, ]是前10行,iris[1:15, ]是前15行   最终结果是只有前15行
dplyr::distinct(rbind(iris[1:10, ] , iris[1:15, ])) 

#slice是切片的意思,可以用于取出数据任意行
dplyr::slice(iris,10:15) 

#随机取样10行
dplyr::sample_n(iris,10) 
#按比例随机取样  0.1是比例
dplyr::sample_frac(iris,0.1) 


 #按照iris中的花萼长度Sepal.Length进行排序  
dplyr::arrange(iris,Sepal.Length)
#降序
dplyr::arrange(iris,desc(Sepal.Length)) 


#添加新的变量new,其值是Sepal.Length+Petal.Length
dplyr::mutate(iris,new=Sepal.Length+Petal.Length)




# 根据Species进行分组
> dplyr::group_by(iris,Species)
# A tibble: 150 × 5
# Groups:   Species [3]
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          <dbl>       <dbl>        <dbl>       <dbl> <fct>  
 1          5.1         3.5          1.4         0.2 setosa 
 2          4.9         3            1.4         0.2 setosa 
 3          4.7         3.2          1.3         0.2 setosa 
 4          4.6         3.1          1.5         0.2 setosa 
 5          5           3.6          1.4         0.2 setosa 
 6          5.4         3.9          1.7         0.4 setosa 
 7          4.6         3.4          1.4         0.3 setosa 
 8          5           3.4          1.5         0.2 setosa 
 9          4.4         2.9          1.4         0.2 setosa 
10          4.9         3.1          1.5         0.1 setosa 
# … with 140 more rows
# ℹ Use `print(n = ...)` to see more rows
select函数:dplyr包中的数据框取子集功能,比R自带的subset函数更加强大。

sympy库R语言 r语言里library_并集



2. dplyr包的统计函数

> summarise(iris,avg=mean(Sepal.Length))
       avg
1 5.843333
> summarise(iris,sum=sum(Sepal.Length))
    sum
1 876.5



3. 链式操作符 ——“%>% ”

它的功能是用于实现将一个函数的输出传递给下一个函数,作为下一个函数的输入。
在RStudio中可以使用ctrl+shift+M快捷键输出来。

#输出mtcars中的第10到20行
head(mtcars,20) %>% tail(10) 

对iris数据集先进行分组,再求平均,最后排序
> iris %>% group_by(Species)
# A tibble: 150 × 5
# Groups:   Species [3]
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          <dbl>       <dbl>        <dbl>       <dbl> <fct>  
 1          5.1         3.5          1.4         0.2 setosa 
 2          4.9         3            1.4         0.2 setosa 
 3          4.7         3.2          1.3         0.2 setosa 
 4          4.6         3.1          1.5         0.2 setosa 
 5          5           3.6          1.4         0.2 setosa 
 6          5.4         3.9          1.7         0.4 setosa 
 7          4.6         3.4          1.4         0.3 setosa 
 8          5           3.4          1.5         0.2 setosa 
 9          4.4         2.9          1.4         0.2 setosa 
10          4.9         3.1          1.5         0.1 setosa 
# … with 140 more rows
# ℹ Use `print(n = ...)` to see more rows
> iris %>% group_by(Species) %>% summarise(avg=mean(Sepal.Width))
# A tibble: 3 × 2
  Species      avg
  <fct>      <dbl>
1 setosa      3.43
2 versicolor  2.77
3 virginica   2.97
> iris %>% group_by(Species) %>% summarise(avg=mean(Sepal.Width)) %>%arrange(avg) 
# A tibble: 3 × 2
  Species      avg
  <fct>      <dbl>
1 versicolor  2.77
2 virginica   2.97
3 setosa      3.43



4. 对双表格的操作

sympy库R语言 r语言里library_sympy库R语言_02

1)左连接 (以左表为基表)

dplyr::left_join(a,b,by=“x1”)

sympy库R语言 r语言里library_数据集_03

2)右连接 (以右表为基表)

dplyr::right_join(a,b,by=“x1”)

sympy库R语言 r语言里library_sympy库R语言_04

3)内连接:取x1的交集
dplyr::inner_join(a,b,by=“x1”)

sympy库R语言 r语言里library_开发语言_05

4)全连接:取x1的并集

sympy库R语言 r语言里library_sympy库R语言_06

5)半连接:a与b的交集,把b中有的,a中没有的(即x3列)去掉

dplyr::semi_join(a,b,by=“x1”)

sympy库R语言 r语言里library_sympy库R语言_07

6)反连接:a与b的补集,保留a中有,而b中没有的观测
dplyr::anti_join(a,b,by=“x1”)

sympy库R语言 r语言里library_开发语言_08



5.数据集的集合运算

# 前20行
first <- slice(mtcars,1:20)  
# 第10~30行
second <- slice(mtcars,10:30)  

1)取数据集交集:intersect(first,second)  
2)取数据集并集:dplyr::union_all(first,second)  
3)取非冗余的数据集并集:  dplyr::union(first,second)  
4)取first的补集:setdiff(first,second)