上一讲通过三个简单的例子体验了一下如何在R中写函数,下面来详细学习有关R语言中函数的知识。
Functions in R
主要分三个部分来讲解函数:
- 编写函数所需的基础知识
- 相关语法作用域
- R语言作用域的规则
编写函数所需的基础知识
R语言通过function()
指令来命名和创建函数。首先要给函数赋值,也就是命名,然后在小括号中写入参数,最后再大括号中写入函数要执行的语句,其基本语法是:
f <- function(<arguments>){
## Do something interesting
}
同时在R中,你可以将函数作为参数传递给其他函数,即嵌套。
函数的返回值是函数执行部分中的最后一行表达式。
编写函数的过程中我们可以设置和命名参数,这些参数可以代表数值、矩阵、数据框或逻辑值等等。同时也可以设置一些具有缺省值(默认值)的参数。
- 形式参数(formal arguments)
形式参数是包含在函数定义里的参数。
formals()
会将一个函数作为输入(input),并返回函数所有的形式参数组成的列表。
在R中,不是所有命令都用到所用的形式参数。加入一个函数中设置了10个参数,但我们往往并不需要指定每个参数的值是啥,所以函数可以缺失某些参数。当没有明确赋值是,它的取值就是缺省值(默认值,default value)
- 匹配参数(argument matching)
可以根据位置或名称来匹配函数参数,这是编写和调用函数的关键。
以计算数据标准差的函数sd()
为例。
> data <- rnorm(100) ## 取100个符合正态分布的随机数
> sd(x = data) ## 给参数赋值 求标准差
[1] 1.035329
> sd(data) ## 给参数默认赋值
[1] 1.035329
> sd(data, na.rm = FALSE)
[1] 1.035329
> sd(na.rm = FALSE, data) ## 调换参数位置后结果不变
[1] 1.035329
以上所有表达式都是等价的,但是最好不要调换参数位置。
如果函数中参数较多,那么最好使用位置匹配。
比如lm()
函数(把数据拟合到线性模型),它的参数列表这么长:
> args(lm)
function (formula, data, subset, weights, na.action, method = "qr",
model = TRUE, x = FALSE, y = FALSE, qr = TRUE, singular.ok = TRUE,
contrasts = NULL, offset, ...)
NULL
前五个参数都没有缺省值,依次是,公式、数据、子集、权重等。这里使用者必须要指定他们的值。
lm(y ~ x, mydata, 1:100, model = FALSE)
大多数情况下,我们不知道参数的具体位置,所以在命令行中,命名参数来匹配最安全。
The order of operations when given an argument is:
- Check for exact match for a named argument
- Check for a partial match
- Check for a positional match
- 惰性求值(Lazy Evaluation)
惰性求值是R语言的一个关键特性,也是许多编程语言常用的模型。仅在使用函数参数时对其求值。
第一个例子:
> f <- function(a, b) {
+ a^2
+ }
> f(2)
[1] 4
这里定义函数f,有两个参数,但返回值仅仅是a的平方。所以当运行f(2)时,和b无关,所以系统自动跳过,不会报错。
第二个例子:
> f <- function(a, b) {
+ print(a)
+ print(b)
+ }
> f(45)
[1] 45
Error in print(b): argument "b" is missing, with no default
这里同样定义f有两个参数,但返回值是a和b,所以当输入f(45)时,因为第二个位置上缺少b的赋值,所以会报错。这里就是用了惰性求值,即,仅在使用这个参数的时候进行求值,在这之前的程序都是有效的并可以执行,直至运行到出错的部分。
- 特殊参数
...
...
参数是一种特殊的参数,表明一些可以传递给另一个函数的参数。常用于当你需要扩展另一个函数,而你又不想复制原函数的整个参数列表时。
如下例,你希望修改plot()
函数中的个别参数,而其他参数保持不变,将其应用于一个新定义的函数中myplot()
:
myplot <- function(x, y, type = "l", ...) {
plot(x, y, type = type, ...) ## Pass '...' to 'plot' function
}
在泛型函数(generic function)中,...
还有另一种用法,它的作用是根据数据类型使用合适的方法
泛型函数是一个函数族,其中的每个函数都有相似的功能,但是适用于某个特定的类。
> mean
function (x, ...)
UseMethod("mean")
<bytecode: 0x5d5e3e8>
<environment: namespace:base>
还有一种情况下,...
参数必须使用:
那就是,当传递到函数的参数数量不能事先确定的时候。
比如paste()
函数,他的作用是将一连串字符串连接起来,然后新建一个字符串或向量,所以无法预知参数个数:
> args(paste)
function (..., sep = " ", collapse = NULL)
NULL
还有cat()
函数,它的功能是和paste
相似,也是连接字符串。
> args(cat)
function (..., file = "", sep = " ", fill = FALSE, labels = NULL,
append = FALSE)
NULL
使用...
函数的一个注意事项:
就是任何出现在...
之后的参数列表必须明确的给出名称。而且不能够部分匹配或位置匹配
举例:
> paste("a","b",sep = ":")
[1] "a:b"
不能位置匹配或部分匹配:
> paste("a","b",":")
[1] "a b :"
> paste("a","b",se = ":")
[1] "a b :"
参考资料:
1. 视频课程 R Programming by Johns Hopkins University:https://www.coursera.org/learn/r-programming/home/welcome
2. 讲义 Programming for Data Science :https://bookdown.org/rdpeng/rprogdatascience/R