我们既往已经讲过使用ggplot绘制箱型图,今天我们来聊聊ggplot绘制小提琴图,小提琴图在SCI论文中非常常见,特别是基因类的文章。
小提琴图其实可以算是箱型图的变种(等于:箱型图+核密度图),箱型图展示了数值和分位,小提琴图则是在这个基础上增加不同方位的密度,使得数据一目了然。
这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数。
我们今天来说说怎么使用R语言绘制小提琴图,继续使用我们的汽车销售数据,数据可以在公众号回复汽车销售即可获得数据,首先我们导入R包和数据
library(foreign)
library(ggplot2)
bc <- read.spss("E:/r/test/tree_car.sav",
use.value.labels=F, to.data.frame=T)
names(bc)
我们来看下数据,car就是汽车售价,age是年龄,gender是性别,inccat是收入,这里分成4个等级,ed是教育程度,这里分为5个等级,marital表示是否结婚.我们处理一下数据,把分类变量转换成因子,然后加上一个标签。
bc$ed<-factor(bc$ed,levels=c(1:5),labels=c("小学","初中","高中","大学","博士"))
bc$inccat<-factor(bc$inccat,levels=c(1:4),labels=c("低收入","中低收入","中等收入","富裕"))
bc$gender<-ifelse(bc$gender=="m",1,0)
bc$gender<-factor(bc$gender,levels = c(0,1),labels=c("女性","男性"))
bc$marital<-factor(bc$marital,levels = c(0,1),labels=c("未婚","已婚"))
下面开始作图,假如我们想知道收入水平和买车价格的关系,我们先做一张简单的图
p <- ggplot(bc, aes(inccat, car))##先做基础画布
p + geom_violin()
可以给它们加宽,显得美观一点
p + geom_violin(scale = "width")
按类别加入颜色
p + geom_violin(aes(fill = inccat),scale = "width")
加入分位数,按分位数显示
p + geom_violin(aes(fill = inccat),scale = "width",draw_quantiles = c(0.25, 0.5, 0.75))
加入散点表示数据分布
p + geom_violin(aes(fill = inccat),scale = "width")+geom_jitter(width = 0.1)
加入箱型图
p + geom_violin(aes(fill = inccat),scale = "width")+geom_boxplot(width = 0.1)