R语言实例小练习——ggplot2使用
文章目录
- R语言实例小练习——ggplot2使用
- 前言
- 一、R语言是什么?
- 二、使用步骤
- 1.数据处理
- 2.缺失值
- 3.画图
- 4.效果图
- 三、小结
前言
这几天由于专业的需要,在学习一门新的数据分析编程语言——R语言。做完后发现其实实现并不难,本文主要是实现了一个简单的数据分析实例,仅供大家做个参考。
提示:以下是本篇文章正文内容,下面案例可供参考
一、R语言是什么?
学习之前呢我们先了解一下什么是R语言。R语言是一种用于统计分析,图形表示的编程语言,简单来说就是利用它我们可以将数据集转化成一幅图形,让我们可以直观的看到数据的变化情况。
二、使用步骤
1.数据处理
获取数据后进行数据清洗,错误的直接去除,无误的(没有数据的,为0的)用平均值填充。这些可以参考其他文章怎么做的,本实例这里实现的是直接把缺失值删除了。
2.缺失值
这里我直接把缺失值去掉了!主要是把表格处理一下。
1.导入包:library(lattice);library(MASS);library(nnet);library(mice);library(DMwR)
2.查看缺失值:md.pattern(要处理的数据集);
3.查看含有缺失值的样本数量:sum(complete.cases(要处理的数据集));
4.直接删除缺失值:mydata1(新数据集名)<-na.omit(要处理的数据集)
5.再次查看缺失值:md.pattern(新数据集名)
代码:
library(lattice)
library(MASS)
library(nnet)
library(mice)
md.pattern(mydata)
sum(complete.cases(mydata))
mydata1<-na.omit(mydata)
md.pattern(mydata1)
出现这两个效果图说明缺失值已经成功去除了。
3.画图
这里用的是ggplot2包,如果你的里面没有,那就在里面安装一下。还有xlsx包也是需要下载,下载xlsx包的流程可以在网上查阅,这里就不在赘述了,要注意一点,下载xlsx包需要有java环境。
代码:
install.packages("tidyverse")
library(tidyverse)
#> Loading tidyverse: ggplot2
#> Loading tidyverse: tibble
#> Loading tidyverse: tidyr
#> Loading tidyverse: readr
#> Loading tidyverse: purrr
#> Loading tidyverse: dplyr
#> Conflicts with tidy packages
---------------------------------------------
#> filter(): dplyr, stats
#> lag(): dplyr, stats
安装好了以后我们开始画图
代码:
library(tidyverse)
library(xlsx)
workbook<-"E://Rlanguage//例子//Data//na.xlsx" #读取表格
mydata1<-read.xlsx(workbook,"sheetIndex"=1,encoding = 'UTF-8') #给表格赋予变量
mydata1 #查看表格内容
ggplot(data = mydata1) + geom_point(mapping = aes(x = 最低价格, y = 最高价格,color = 品种))+labs(title = "蔬菜分布图")+theme(plot.title = element_text(hjust=0.5)) #散点图画法
ggplot(data = mydata1) + geom_boxplot(mapping = aes(x = 最低价格, y = 最高价格,color = 品种))+labs(title = "蔬菜分布图")+theme(plot.title = element_text(hjust=0.5)) #箱型图画法
p <- ggplot(data = mydata1, mapping = aes(x = '品种', y = 平均价格, fill = 品种)) + geom_bar(stat = 'identity', position = 'stack', width = 1)
p + coord_polar(theta = 'y') #饼状图画法
4.效果图
三、小结
总结一下,本实例主要是画了三种图,ggplot2还有好多图型可以实现,大家可以继续实现一下。R语言的学习并不难,主要是熟记语言的编写以及使用,本实例用到的数据集是某省的蔬菜市场的数据集,大家也可以进行更改,把自己想用的数据集加进来看看形成的是什么样的结果。