函数基本结构- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
输入数据类型
向量:
sum, mean, sd, range, median, sort, order
矩阵或数据框:
cbind, rbind
数字矩阵:
heatmap
e.g 回归分析lm()
state <- as.data.frame(state.x77[, c("Murder","Population", "Illiteracy", "Income", "Frost")])
fit <- lm(Murder ~)
选项参数
1.输入控制部分
2.输出控制部分
3.调节部分
常用选项
file: 一个文件
data: 一般要输入一个数据框
x: 表示单独的一个对象,一般都是向量,也可是矩阵或者列表
x和y:函数需要两个输入变量
x, y, z: 函数需要三个输入变量
formula: 公式
na.rm: 删除缺失值
调节参数
常用参数
color 选项和明显用来控制颜色
select与选择有关
font 与字体有关
font.axis 就是坐标轴的字体
lty 是line type
lwd 是line width
method 是软件算法
自定义函数 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
函数名称
函数命令与功能相关,可以是字母和数字的组合,但必须是字母开头
函数声明
myfun <- function(选项参数){
函数体
}
常用函数 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
数学统计
概率函数
d 概率密度函数
p 分布函数
q 分布函数的反函数
r 产生相同分布的随机数
在函数面前加,如
其他概率分布函数
其他
set.seed(233) #设定随机种子
runif(num) #随机生成num个0-1之间的数字
runif(num, min=1, max = 100) #随机生成1~100的随机数
描述性统计
描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
summary() #对一个数据集进行详细统计,最小值,最大值,四分位数,数值型变量均值等
fivenum() #返回基本的五个统计量
Hmisic::discribe()
pastecs::state.desc()
psych::discribe() #trim可去除极端值
psych::discribe.by() #可根据分组计算
aggregate() #对数据用指定的分组信息进行统计
doBy::summaryby() #对多个分组的多个统计值进行计算
频数统计
频数(Frequency),又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。按分组依次排列的频数构成频数数列,用来说明各组标志值对全体标志值所起作用的强度。
split() #分组
cut() #对连续的数据分割
table() #进行频数的统计
prop.table() #计算频率值
xtabs() #根据不同的需要写成多种公式
margin.table() #边际频数,单独按照行或者列处理
addmargins() #将边际的和添加到频数表中
e.g
with(data = Arthritis(table(Treatment, Improved)))
xtabs(~Treatment + Improved, data = Arthritis)