第二章 了解数据基础

目录

  • 2-1 数据基础
  • 2-2 数值变量的特征和可视化
  • 2-3 分类变量的特征和可视化
  • 2-4 小结

2-1 数据基础

数据的基础知识:

  • 观测(observation)
  • 变量(variable)
  • 数据矩阵(data matrix)

以下是一个“数据矩阵”:

R语言如何个数据分类 r语言对数据进行分类_R

变量的类型:

数值型(quantitative):通常对应于定量分析,数值型变量可以进行加减乘除求平均等运算。

  • 连续型:可以在给定的区间取任意的数值,在这个区间里的数值是无限的。例如:1-10
  • 离散型:在给定数据集合内取值,集合内的数据是有限的。例如:集合{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}内的数据只有10个。

分类变量(qualitative):通常对应于定性分析,对于分类变量而言,它的取值空间是有限的,不能进行运算。

  • 无序分类变量:它们是不可比较的。例如:有三种水果,苹果,香蕉,梨子,因为是不同的三种类别,所以两者之间无法比较。
  • 有序分类变量:它们的顺序是有意义的。例如:年级,大一、大二、大三,虽然对这种类型的变量进行数学运算是没有意义的,但大二比大一的年级高,它们的顺序是有意义的。

在考虑变量的关系时,一定要注意将对象的类型考虑进去。因为对不同类型的变量之间的关系进行分析时,需要用到不同的可视化方法。

变量间的关系(对应不同的可视化方法和统计分析方法):

  • 两个数值变量
  • 两个分类变量
  • 一个数值变量,一个分类变量

2-2 数据变量的特征和可视化

数据变量的特征

1. 数据集中趋势的测量(measures of center)

  • 均值(mean)
  • 中位数(median)
  • 众数(mode)

例如,以下是一个变量的多次观测记录:

R语言如何个数据分类 r语言对数据进行分类_R语言如何个数据分类_02

均值 = (1 +  9 + 2 + 8 + 3 + 9 + 4 + 5 + 7 + 6)/10 = 5.4

中位数 = 排序后位于正中间的一个数 或 位于正中间的两个数的均值

众数 = 记录种出现次数最多的数 = 9

2. 数据分散趋势的测量(measures of spread)

  • 值域(range: max-min)
  • 方差(variance)
  • 标准差(standard variance)
  • 四分位距(interquartile range)

使用上面的例子:

R语言如何个数据分类 r语言对数据进行分类_类变量_03

值域 = 最大值 – 最小值

方差:

R语言如何个数据分类 r语言对数据进行分类_R_04

标准差 = 方差开方

四分位距会在后面结合图,进行介绍。

在RStudio中的操作:

R语言如何个数据分类 r语言对数据进行分类_中位数_05

3. 稳健统计量(robust statistics)

  • 稳健统计量:中位数、四分位距(受极端值的影响小)
  • 不是稳健统计量:均值、标准差、值域(受极端值的影响大)

变量的可视化

1. 一个变量的可视化(数值变量)

  • 柱状图(histogram)、点图(dot plot)(可以观察一个这一个变量值的分布情况)

R语言如何个数据分类 r语言对数据进行分类_类变量_06

  • 箱图(box plot)(中位数、分位点、极端值)

R语言如何个数据分类 r语言对数据进行分类_数据_07

注意:在实际中,箱图大多数是“竖着”显示的。

2. 两个变量的关系

  • 散点图(scatter plot):两个变量关系的方向、形状、强度、极端值

R语言如何个数据分类 r语言对数据进行分类_类变量_08

2-3 分类变量的特征和可视化

分类变量的特征:

  • 频率

分类变量的可视化

1. 一个分类变量的可视化

  • 频率表(frequency table)、条形图(bar plot)

R语言如何个数据分类 r语言对数据进行分类_R_09

2. 两个分类变量的关系

  • 关联表(contingency table)、相对频率表(relative frequencies)

R语言如何个数据分类 r语言对数据进行分类_数据_10

R语言如何个数据分类 r语言对数据进行分类_R语言如何个数据分类_11

  • 分段条形图、相对频率分段条形图

R语言如何个数据分类 r语言对数据进行分类_R语言如何个数据分类_12

  • 马赛克图(mosaic plot)

 

R语言如何个数据分类 r语言对数据进行分类_类变量_13

3. 一个分类变量和一个数值变量的关系

  • 并排箱图(side-by-side box plot)

R语言如何个数据分类 r语言对数据进行分类_R语言如何个数据分类_14

2-4 小结

R语言如何个数据分类 r语言对数据进行分类_中位数_15