R语言是心理与统计学界中最受欢迎的编程语言之一。相比商业统计软件,R语言免费、开源、扩展性强;而相比其他开源编程语言,R的基本操作相对简单,统计与作图模块完善,适合进行统计分析工作。
然而,R语言并非没有劣势。首先,R程序包的覆盖范围没有那么完美,在有些情况下可能会面临“无R包可用”的情况。第二,R是一种脚本语言,而且许多底层运算模式没有针对运算速度做出太多优化。因此,R的运行速度相对较慢,尤其在进行数据量较大的循环运算时,运行时间可能会达到编译语言的数十倍。 R的短处恰恰是其他编程语言的长处。例如,Python作为应用范围最广的脚本语言之一,在许多领域有更多的程序包支持;而C++作为一种编译语言,在进行复杂运算时有明显的速度优势。幸好,R语言中提供了与Python和C++的协作程序包。利用这些程序包,我们可以把R处理起来较为困难的部分在另一种程序中运行,之后将运行结果反馈给R,在R中进行下一步分析。当然,为了完成这一任务,对参与协作的另一种语言也需要有一些基础的了解。Python和C++入门知识超出了本文的范围,对Python和C++还比较陌生的读者可以在网上找一些相关的基础资料。
下面,我们会在两种典型心理学使用场景中介绍R与Python、C++连接的程序包。
R与Python的协作:reticulate
基本信息
reticulate是一个连接R与Python的程序包(官方网站如下)。
https://rstudio.github.io/reticulate/
我们可以使用这一程序包调用Python模块的功能。reticulate的安装方式和其他CRAN程序包一样,可以直接通过install.packages命令来安装:
install.packages("reticulate")
同时,为了调用Python模块,我们还需要在计算机中装好Python和需要的模块,并将Python程序所在目录放在PATH中。 之后,就可以采用reticulate的import功能来导入模块,并使用“$”符号代替“.”进行Python的面向对象编程。 (ps. 这个包的名称来自于东南亚的一种蟒蛇网纹蟒 reticulated python,估计当时作者为了找一个r开头的蛇的名字也是费了些心思……) 应用示例
我曾经遇到过的一个使用场景是这样:在一个皮肤电研究中,我需要从acq文件里读取皮肤电信号的源数据,并进行一些后续处理。然而,我只找到了一个可以读取acq文件的Python包:bioread。因此,我需要借助Python中的bioread包(如下)将数据读入,之后用R进行下一步处理。
https://pypi.org/project/bioread/
使用的代码如下(事先需要安装Python和bioread包):
library(reticulate)bioread "bioread") acqfile $read_file(acqfile # 查看acq文件对象信息# AcqKnowledge file (rev 132): 4 channels, 2000.0 samples/secacqfile$channels # 查看acq文件中的通道# [[1]]# Channel EDA filtered, differentiated: 123787 samples, 2000.0 samples/sec, loaded: True# # [[2]]# Channel EKG - ERS100C: 61893 samples, 1000.0 samples/sec, loaded: True# # [[3]]# Channel RESP - RSP100C: 241 samples, 3.90625 samples/sec, loaded: True# # [[4]]# Channel EDA - GSR100C: 123787 samples, 2000.0 samples/sec, loaded: Trueacqdata1 $channels[[1]]str(acqdata1)# num [1:123787(1d)] -101 -101 -101 -101 -101 ...#可以看到,从Python对象中提取的acqdata1已经是一个R向量了。#因此,之后都可以直接使用R语言对其进行分析#例如:mean(acqdata1)# [1] -110.7604
需要注意的是,只有Python中一些特定种类的对象可以被转换成R语言变量。reticulate官网上给出的对照表如下:
因此,对于一些Python模块中自行定义的对象,需要提取出上述种类的子数据才能继续用R做处理。(例如,在上述示例中,acqfile是一个AcqKnowledge file对象,不能直接使用R语言进行处理;但acqfile$channels[[1]]$data就是一个常规的数组了,可以直接转化成R中的向量。)
R与C++的协作:Rcpp
基本信息
Rcpp是最受欢迎的R语言扩展包之一(官方网站如下)。
http://www.rcpp.org/
我们可以使用这一程序包在R中调用C++函数。Rcpp同样可以直接通过install.packages命令来安装:
install.packages("Rcpp")
同时,我们还需要安装C++编译器。
对于windows用户,直接安装Rtools即可。
https://cran.r-project.org/bin/windows/Rtools/index.html
要注意的是,使用Rcpp通常需要我们自己写出一个符合Rcpp要求的C++函数,对编程知识的要求相比reticulate要高一些。 应用示例
我遇到过的Rcpp使用场景是这样:我需要做一个心理模型的模拟,其中包含数亿次量级的迭代计算。这一工作可以使用R函数实现,但需要的运行时间太长,超出了接受范围。因此,我将这一函数使用Rcpp重写。示例代码如下(为简明起见,这里使用了一个非常简单的迭代函数):
*add_one_zh.cpp*
#include using namespace Rcpp;//在函数开始之前的部分,(#include ,using namespace Rcpp;,//[[Rcpp::export]])//是C++和Rcpp需要的一些头文件。//如果在RStudio中创建新C++文件,RStudio会自动生成这些头文件。//[[Rcpp::export]]NumericVector add_one(int time) {//这个函数会计算一个向量,其中第一个元素是0,之后每个元素相对上一个元素增加1//注意:C++中的注释开头是“//”//C++中,所有变量的类型和函数返回值的类型都需要主动声明 (例如NumericVector)。//每一句代码要以分号结束//而且数组序号从0开始//NumericVector是Rcpp中的一种数据类型。//使用这种类型,可以保证函数返回值可以被转化成R向量。NumericVector x(time+1); x(0) = 0; for(int i = 1; i <= time; i++){ x(i) = x(i-1) + 1; } return x;}
*R程序*
library(Rcpp)sourceCpp("add_one_zh.cpp") #将Rcpp函数导入R中t1add_one(100000000) # 运行Rcpp函数t2t2-t1 # 计算运行时间# Time difference of 1.545115 secs#相同功能的R函数add_one_slow x){ y "integer", y[1] = 0 for(i in 1:x+1){ y[i] y[i- } return(y)}t1add_one_slow(100000000) # 运行Rcpp函数t2t2-t1 # 计算运行时间# Time difference of 18.90944 secs
从运行时间可以看出,本例中实现相同功能的C++函数比R函数快了十倍有余。
结语
本文对R语言中连接Python和C++的两个程序包reticulate和Rcpp做了简单介绍。利用Python和C++的优势,我们可以扩展R程序可以应用的程序包,加快R语言的运行速度。
以上介绍方法只是R语言扩展方式中的很小一个部分,还有许多其他的功能等待大家发现。感兴趣的朋友可以参考上述程序包官网上的手册和相关指导文件。祝大家写代码愉快!
本文涉及代码
https://github.com/Sciurus365/RPyCpp
其他资料
Advanced R中Rcpp相关的章节:
http://adv-r.had.co.nz/Rcpp.html
另一本Rcpp的参考书籍:Rcpp for everyone
https://teuder.github.io/rcpp4everyone_en/
作者信息
:崔竞蒙 Radboud University行为科学硕士研究生 排版
: 李昊 往期精选
- 大话Python第2期——基础入门2
- 大话Python第1期——Python基础入门
- 用R进行多层中介的完整流程:从数据预处理到置信区间的生成
- R语言和Jspsych编写本地和在线心理学实验和问卷教程
- R-studio 中少为人知的秘技
- ...