第二章开始就是正式、深入了解R语言的知识点,首先开始了解的是向量相关的知识,牢记三大要点,贯穿始终:
循环补齐、筛选、向量化。
1.添加、删除向量
增加向量主要用插入法,利用向量索引,去达到增加的目的,如下例所示:
> x<-c(1:4)
> x
[1] 1 2 3 4
> x<-(1:2,5,3:4)
> x<-c(x[1:2],5,x[3:4])
> x
[1] 1 2 5 3 4
删除向量主要利用负数的下标,负数后面跟哪个下标就代表删除向量中第几个元素
> x
[1] 1 2 5 3 4
> x[-5]
[1] 1 2 5 3
2.获取向量长度与循环补齐
利用length()函数获取向量长度:
> x<-c(12,14,13,22,67,39,15)
> length(x)
[1] 7
Tips:利用length()函数获取向量中某个值第一次出现的索引值(位置)
代码,定义函数:
first1<-function(x){
for(i in 1:length(x)){
if (x[i]==15) break #循环排查,直到第一次出现向量值为15,结束排查
}
return(i)
}
运行结果:
> first1<-function(x){
+ for(i in 1:length(x)){
+ if (x[i]==15) break #循环排查,直到第一次出现向量值为15,结束排查
+ }
+ return(i)
+ }
> first1(x)
[1] 7
循环补齐:就是较短的向量会被循环补齐
> x
[1] 12 14 13 22 67 39 15
> y<-c(1:3)
> y
[1] 1 2 3
> x+y
[1] 13 16 16 23 69 42 16
Warning message:
In x + y : longer object length is not a multiple of shorter object length
会有警告提示,但是仍然算出了结果,因为y<-c(1,2,3)为了匹配x中的7个向量,被自动补齐为y<-c(1,2,3,1,2,3,1)与x中对应的1到7个元素相加。
循环补齐对矩阵同样适用,因为矩阵从广义来说也是向量的一种,只是多了行数和列数的属性。
> x<-matrix(1:6,nrow=3)
> x
[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6
> x+1:4
[,1] [,2]
[1,] 2 8
[2,] 4 6
[3,] 6 8
Warning message:
In x + 1:4 :
longer object length is not a multiple of shorter object length
上述例子很好说明了这一点,1:4被自动循环补齐为,因为矩阵是按列排序,再次强调
[,1] [,2]
[1,] 1 4
[2,] 2 1
[3,] 3 2
所以,x中对应6个元素,与上述矩阵6个元素对应相加,得出结果。
3.运算符优先级
运算符优先级从高到低,按照如下顺序排列:注意,冒号优先级高于加减乘除,括号高于冒号
:: ::: access variables in a namespace (作用域限定符)
$ @ component / slot extraction(提取)
[ [[ indexing(括号)
^ exponentiation (right to left)(幂)
- + unary minus and plus(一元加减)
: sequence operator(顺序运算符)
%any% special operators (including %% and %/%)
* / multiply, divide(乘除)
+ - (binary) add, subtract(加减)
< > <= >= == != ordering and comparison(比较排序)
! negation(非)
& && and(且)
| || or (或)
~ as in formulae(公式中用)
-> ->> rightwards assignment(右替换左)
<- <<- assignment (right to left)(左替换右)
= assignment (right to left)(相等)
? help (unary and binary)
4.每章案例1—寻找连续出现1的游程
首先,本案例中,游程是指一串连续的数字中,出现连续两个及以上数字的情况,本案例特指出现连续1的游程,并且要求返回索引值。
findruns<-function(x,k){ #函数findruns有两个变量x,k,x指向向量,k指向游程的长度
n<-length(x) #n指向向量的长度
runs<-NULL #runs最初赋值为空
for(i in 1:(n-k+1)){
if(all(x[i:(i+k-1)]==1)) runs<-c(runs,i)#这里的变量i指定从第一个向量开始,到最后一个组不成游程的值为止(这里的n-k+1就是最后一个组不成游程的值,请好好体会一下)
}
return(runs)
}
x<-c(1,0,0,1,1,1,1,1,0,1,1)
findruns(x,3)
输出结果:
> findruns<-function(x,k){ #函数findruns有两个变量x,k,x指向向量,k指向游程的长度
+ n<-length(x) #n指向向量的长度
+ runs<-NULL #runs最初赋值为空
+ for(i in 1:(n-k+1)){
+ if(all(x[i:(i+k-1)]==1)) runs<-c(runs,i)
+ }
+ return(runs)
+ }
> x<-c(1,0,0,1,1,1,1,1,0,1,1)
> findruns(x,3)
[1] 4 5 6
本案例同样经典,理解这个案例就会知道如何编写函数,all()函数要求向量中每一个值都必须为1,以及为什么遍历循环只到最后一个组不成游程的值。
5.每章案例2—预测离散值时间序列
这个案例首先数据集是离散数据,0或者1,1代表有雨,0代表没有雨。x代表全量由0,1组成的数据集,k代表指定的最近天数,如果k=1的次数≥k/2,默认预测值为1,否则为0。
preda<-function(x,k){
n<-length(x) #n指向向量的长度
k2<-k/2 #k2指向最近k期一半长度
pred<-vector(length=n-k) #预测值长度必须比全量向量长度少一个k值,否则就不存在预测了
for (i in 1:(n-k)){
if(sum(x[i:(i+(k-1))])>=k2)pred[i]<-1 else pred[i]<-0 #i到i+k-1恰好一个k值长,超过半数,当前预测值指向下雨,从而得到一个由预测值组成的长度为n-k向量
}
return(means(abs(pred-x[(k+1):n]))) #用预测值去减实际值,求出平均误差,误差范围[-1,1]之间,越接近0,误差越小
}
6.向量化运算符
1,向量输入,向量输出
意思很简单,对向量进行操作,输出的结果也是向量
2.向量输入,矩阵输出
主要介绍sapply()函数,一个实例帮助理解:
z12<-function(z) return(c(z,z^2))
sapply(1:8,z12)
输出结果:
> z12<-function(z) return(c(z,z^2))
> sapply(1:8,z12)
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,] 1 2 3 4 5 6 7 8
[2,] 1 4 9 16 25 36 49 64
>
这里sapply()函数的作用是对1:8的每个元素,使用函数function(),返回结果是元素的平方
sapply(a,b),对对象a,调用函数b,返回结果由函数b决定
注:这里返回结果是矩阵,并且返回结果是 按行排序的!另一个lapply()函数,功能相似,但lapply()函数只针对列表
3.NA(缺失值)与NULL(空值)
(1)调用函数时,跳过缺失值的方法
例:mean(x,na.rm =T) 利用na.rm =T就可以剔除缺失值(na.rm 意思 na.remove)
(2)空值的用法
最典型的用法是在循环中创建向量,上面的每章案例1用的就是这个方法,不了解的请回看。NULL也不会被计数。
7.筛选
(1)使用subset()函数进行筛选
subset()进行筛选时会自动剔除缺失值NA
> x<-c(6,1:3,NA,12)
> subset(x,x>5) #第一个是向量,第二个是筛选条件
[1] 6 12
(2)使用which()函数返回索引的位置
一个经典的例子阐述which()函数的用法,返回数据集中第一个1出现的位置
first1<-function(x){
for(i in 1:length(x)){
if(x[i]==1) break
}
return(i)
}
x<-c(2:5,1,3:6)
first1(x)
输出结果:
> first1<-function(x){
+ for(i in 1:length(x)){
+ if(x[i]==1) break
+ }
+ return(i)
+ }
> x<-c(2:5,1,3:6)
> first1(x)
[1] 5
8.熟悉ifelse()函数
ifelse(b,u,v)
b指对操作对象运用某个函数,符合条件的返回u,不符合条件的返回v
9.每章案例3—度量相关性
这里案例如果有统计学背景,会帮助理解,当然,没有统计学背景也很好理解。这个案例将前面几个函数的运用串联起来
案例简述:有两个时间序列x和y,代表每小时收集的气温和气压的测量值,定义x和y的相关性为他们同时上升和下降次数占总观测数的比例,看清题目很重要,这是你编程思路的基础(实际的工作中根本没有题目,只有业务问题,要把业务问题梳理成可以解决的题目是我们要做的),首先是要算出x和y上升和下降的次数,另外要算出它们同时上升和下降的次数,最后算出这些同步次数占总观测数的比例,先上代码:
findud<-function(v)
{vud<-v[-1]-v[-length(v)] #这行代码巧妙实现了后一个值减前一个值,利用-号
return(ifelse(vud>0,1,-1)) #上升趋势返回1,下降趋势返回-1
}
udcorr<-function(x,y){
ud<-lapply(list(x,y),findud)#利用lapply()函数求出由x和y的上升、下降行成的向量
return(mean(ud[[1]]==ud[[2]]))#默认将列表均分为两列,找出第一列和第二列趋势相同的值,相同默认返回true(即1),最后求出均值
}
x<-c(5,12,13,3,6,0,1,15,16,8,88)
y<-c(4,2,3,23,6,10,11,12,6,3,2)
udcorr(x,y)
输出结果:
findud<-function(v){
+ vud<-v[-1]-v[-length(v)] #这行代码巧妙实现了后一个值减前一个值,利用-号
+ return(ifelse(vud>0,1,-1)) #上升趋势返回1,下降趋势返回-1
+ }
> udcorr<-function(x,y){
+ ud<-lapply(list(x,y),findud)#利用lapply()函数求出由x和y的上升、下降行成的向量
+ return(mean(ud[[1]]==ud[[2]]))#默认将列表均分为两列,找出第一列和第二列趋势相同的值,相同默认返回true(即1),最后求出均值
+ }
> x<-c(5,12,13,3,6,0,1,15,16,8,88)
> y<-c(4,2,3,23,6,10,11,12,6,3,2)
> udcorr(x,y)
[1] 0.4
本例中,x和y在10次中同时上升3次,得到相关性应为4/10=0.4,代码输出结果一致。当编程技巧提高时,上述代码可以简化
findud<-function(v){
vud<-v[-1]-v[-length(v)] #这行代码巧妙实现了后一个值减前一个值,利用-号
return(ifelse(vud>0,1,-1)) #上升趋势返回1,下降趋势返回-1
}
udcorr<-function(x,y) mean(sign(diff(x))==sign(diff(y))) #diff()函数代表滞后,即后面的值减前面的值,滞后1期就是后一个减前一个,滞后2期是第3个减第1个,第4个减第2个
如果这些案例完全理解,相信会对向量有比较深刻的印象!
第二章向量学习笔记到此结束,下章矩阵和数组再见!