tidyr包:reshape2的替代者,功能更纯粹 tidyr包的应用tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能;gather和spread函数将数据在长格式和宽格式之间相互转化,应用在比如稀疏矩阵和稠密矩阵之间的转化;separate和union方法提供了数据分组拆分、合并的功能,应用在nominal数据的转化上R将整洁数据定义为:每个变量的数据
tidytext是R语言的文本分析包,一般数据会整理为dataframe,每行都是由docid-word-freq组成。有一本R语言的文本挖掘书《TextminingwithR》,知识体系挺完整的,该书主力分析工具是R语言的tidytext包。Python中也有一个tidytext库,是对R语言版本的python实现,大家可以了解下文本分析新的数据组织形式,会有一种耳目一新的感觉。Python版只
原创
2020-12-30 22:52:38
458阅读
注: 本文是R语言sf包的核心开发者和维护者——来自德国明斯特大学的地理信息学教授:
Edzer Pebesma 的一篇关于sf包的简介,发表于2018年7月的R语言期刊,主要讲述了sf的定位、功能、开发现状及现存问题和今后展望,sf包是一个非常了不起的工具,在R语言中引入了空间数量分析领域通用的标准规范(simple feature),结合tidyverse工具箱组合
转载
2023-06-30 18:38:28
307阅读
作者:丁点helper 前面的文章提到,R语言是一门针对『对象』的语言,这里说的对象,最主要的就是数据。R可以创建、读取、处理多种类型的数据。今天先讲一些基本概念。R语言中的数据类型稍微接触过统计的同学应该很熟悉下图所示的变量类型,R中的多种数据类型可以满足各类变量的表达,我们逐一讲解: 1. 数值型(numeric):数据的内容为数字。上图中,定量变量和定性变量都可以用数值
转载
2023-09-12 17:20:07
56阅读
文章目录1. 仅知道函数的部分名称,想列出全部2. 列出全部有tab字段的函数,或者访问3. 自动补全4. 更改小数点位数5. 显示错误信息6. 升级R,但不想重装packages?7. 卸载已安装的packages8. library()的逆向操作9. 得到加载package的列表10. 读取Excel数据两种方法补充:读取pdf文件11. 在对原数据进行了删除处理,但是希望调出原数据12.
转载
2023-07-21 18:29:31
126阅读
Mosaic plot常常用来展示Categorical data(分类数据)(关于不同的数据类别,参照连接更严谨英文比较好的朋友可以看[1]),mosaic plot 强大的地方在于它能够很好的展示出2个或者多个分类型变量(categorical variable)的关系. 它也可以定义为用图像的方式展示分类型数据。当变量是类别变量时,且数目多于三个的时候,可使用马赛克图。马赛克图中,嵌套矩阵面
转载
2023-06-25 16:13:16
312阅读
(注明:以下文章均在Linux操作系统下执行)一、R语言简介R语言是用于统计分析,图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发。R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程。R语言允许与以C,C ++,.Net,Python或FORTRAN语言编写的过程集
转载
2023-07-23 20:22:52
234阅读
Linux系统用户在使用R语言连接SQL数据库时,需要安装其他的扩展包,那么我们该使用ODBC方式进行安装还是使用DBI方式进行安装呢?今天小编就给大家分析下这两种安装方式的区别吧。数据分析经常需要从外部获得数据。很多情况下数据存放在关系型数据库中。一般我们可以用SQL来提取需要的数据,存为文本再由R来读入。这种方式结合了数据库的储存能力和R的分析能力,速度也非常快。但是如果要形成一套可重复性的自
在既往文章中,我们已经介绍了R语言计算人年及可信区间的计算。但是计算的是总的人年发病率的比较情况,假如我们想知道分层发病率的情况呢?拿既往乳腺癌的数据为例子,我们已经知道了有淋巴结肿大和没有淋巴结肿大患者总的生存率的比较,但是如果我们想了解在每个年龄段有淋巴结肿大和没有淋巴结肿大患者生存率有无区别?如下图 我们以R语言survival包演示泊松回归年龄分层发病率统计,继续使用我们的乳腺癌数据(公众
转载
2023-08-30 19:55:00
118阅读
R语言和集算器吸引人的地方之一在于,它们的代码风格都比较敏捷,用简短的代码就可以实现丰富的功能。比如都可以写出”Vector Computing”表达式,对判断语句都进行了简化,都可以把基础函数扩展成高级函数,都支持泛型。其中向量化计算的特点是用函数和运算符处理批量数据,避免循环语句。这将带来2个优点:使程序员可以轻松掌握,降低学习成本;方便实现计算,提高性能。下面用几个例子来比较一下R和集算器在
转载
2023-08-18 13:01:45
114阅读
回归分析是科学研究中十分重要的数据分析工具。随着现代统计技术发展,回归分析方法得到了极大改进。混合效应模型(Mixed effect model),或称多水平模型(Multilevel model)/分层模型(Hierarchical Model)/嵌套模型(Nested Model),无疑是现代回归分析中应用最为广泛的统计模型,代表了现代回归分析主流发展方向。混合效应模型形式灵活可以应对现代科学
转载
2023-07-11 09:45:08
145阅读
下面录入文法文件,运行ANTLRWorks点击“File– New”菜单新建文法文件,在新文件中将前面的文法录入。(我的网站中有本书所有示例源代码,但我建议您还是手工录入一遍。这样您会有更好的学习效果。)录入文法后点击“File – Save” 菜单文件名为“E.g”。然后点击“Generate–GenerateCode”,如果ANTLRWorks提示“The grammar has been s
转载
2023-12-25 13:47:17
37阅读
温故而知新6.函数6.5 自定义函数基本使用> ce2fa <- function(ce){
+ fa <- 1.8 * ce + 32
+ return(fa)
+ }
> ce2fa(0)
[1] 32
> ce2fa(0:10)
[1] 32.0 33.8 35.6 37.4 39.2 41.0 42.8 44.6 46.4 48.2 50.0
>
转载
2023-08-23 14:20:17
0阅读
R 语言作为我工作使用的第一门语言(有点初恋女友的感觉,羞涩), 所以颇有感情,也是它让我认识到了很多勤奋好学又独立的优秀的妹纸们(可惜她们都不是我的女票,泪崩),但是在现在 python 如日中天,连 kaggle 上的数据科学家们八成,甚至是九成都在使用 python 了,所以不能怪哥移情别恋,是现实太残酷。目前个人觉得是 Rstudio 公司撑起了 R 的商业应用,虽然微软爸爸也之前也
转载
2023-08-22 23:39:08
66阅读
文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。一、jiebaR包简介jiebaR 是中文分词的R语言版本,支持最大概率法(Maximum Probabili
原创
2022-05-21 11:46:00
410阅读
1 replicationrep 函数能把输入的参数重复数次。另一个相关函数replicate 则能调用表达式数次。大多数情况下它们基本相等,只有当使用随机数时才会出现不同。现在,假定生成均匀分布随机数的runif 函数不是矢量化的,那么rep 函数每次都将重复相同的随机数,而replicate 每次的结果都不相同(由于历史的原因,其参数顺序竟然是从后到前的,这有点烦人):rep(runif(1)
转载
2023-07-09 17:00:04
217阅读
R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言特点 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个
转载
2023-07-25 19:51:49
110阅读
在R语言中,因子(factor)表示的是一个符号、一个编号或者一个等级,即,一个点。例如,人的个数可以是1,2,3,4......那么因子就包括,1,2,3,4.....还有统计量的水平的时候用到的高、中、低,也是因子,因为他是一个点。与之区别的向量,是一个连续性的值,例如,数值中有1,1.1,1.2......可以作为数值来计算,而因子则不可以。如果用我自己的理解,简单通俗来讲:因子是一个点,向
转载
2023-06-21 22:48:48
201阅读
文章目录一、数据调用与预处理二、一元线性回归分析三、多元线性回归分析(一)解释变量的多重共线性检测(二)多元回归1. 多元最小二乘回归2. 逐步回归(三)回归诊断四、模型评价-常用的准则统计量 一、数据调用与预处理本文使用的数据为R语言自带数据集“iris”。iris数据集包含5个变量: 数值变量:Sepal.Length, Sepal.Width, Petal.Length, Petal.Wi
转载
2023-07-18 11:44:04
12阅读
主要作用:可重现一样的结果R语言中set.seed()作用是设定生成随机数的种子,目的是为了让结果具有重复性,重现结果。不设定种子不行吗?当然可以,但是结果就不能复现。如:x<-rnorm(3) #随机生成3个随机数
结果:1.4197419 -0.7460519 0.3603622
x<-rnorm(3) #再来一遍,生成的3个随机数又不一样了
结果:1.0796213 0.55
转载
2023-06-19 16:17:51
173阅读