1. R语言介绍

R是一种为统计计算和绘图而生的语言和环境,是一套开元的数据分析解决方案,最主要特点是:

1)开源

2)几乎任何类型的数据分析工作用R可以完成

2.R基本概念

用R来处理数据,首先需要了解数据结构,数据结构说白了就是用于存储数据的结构。R总共是5中数据结构:向量、矩阵、数组、数据框、列表。这5个包含范围逐渐扩大,如多个向量可以组成矩阵。

1)向量

存储数值、字符、逻辑型的一维数组,使用函数c()可以创建。

注意:单个向量中的数据必须拥有相同的类型或模式,不同向量中无法混杂不同模式的数据。如:

R语言基本数据结构是 r语言的数据结构有哪些_数据结构


R语言基本数据结构是 r语言的数据结构有哪些_数据_02


2)矩阵

矩阵是二维数组,每个元素拥有相同模式,也就说每列数据模式相同。创建矩阵函数matrix()。

R语言基本数据结构是 r语言的数据结构有哪些_R_03


3)数组

数组为数可以大于2维,使用array()创建。

R语言基本数据结构是 r语言的数据结构有哪些_数据结构_04


4)数据框

数据框是R中最常用到的数据结构,不同的列可以包含不同类型的数据,但是同一列的数据格式必须唯一。

数据框通过data.frame()创建。

R语言基本数据结构是 r语言的数据结构有哪些_数组_05


访问数据框中某列数据,使用符号美元符号,如dim$dim1。

这样比较麻烦,可以使用attach(dim),即可将数据框添加到R的搜索路径中,然后就可以直接使用列名获取该列数据。如下图:

R语言基本数据结构是 r语言的数据结构有哪些_数据结构_06


一种好习惯当不用dim数据框市,将路径从R中移除,即ditach(),虽然移除该路径并不一定必要。

注意:若两个数据框名称相同,都加入到路径中,则原始数据具有优先权。

R语言基本数据结构是 r语言的数据结构有哪些_数组_07


为了避免此情况,可以使用with指定具体数据框。

R语言基本数据结构是 r语言的数据结构有哪些_数据结构_08


5)因子

类别变量和有序变量在R中成为因子,类别变量和有序变量都是分类变量,不同的是一个有顺序一个无顺序,类别仅仅是分类,并无顺序之分,如足球鞋、篮球鞋等,有序变量有顺序之分,如:青年、少年等。

函数factor()以一个整数向量的形式存储类别值。使用该方法可以在以后做机器学习时,对一些字符型数据进行向量化。

1、对于无序型分类变量

若小A、小B、小C、小D无序

R语言基本数据结构是 r语言的数据结构有哪些_R语言基本数据结构是_09


2、对于有序型分类变量

若小A、小B、小C、小D有序

R语言基本数据结构是 r语言的数据结构有哪些_数据_10


6)列表

列表是R中最复杂的一种数据结构,列表的各个元素(item)的数据类型可以不同,每个 元素的长度可以不同,是R中最灵活的数据类型。使用list()来创建列表。


R语言基本数据结构是 r语言的数据结构有哪些_数据结构_11