第二章 了解数据基础
目录
- 2-1 数据基础
- 2-2 数值变量的特征和可视化
- 2-3 分类变量的特征和可视化
- 2-4 小结
2-1 数据基础
数据的基础知识:
- 观测(observation)
- 变量(variable)
- 数据矩阵(data matrix)
以下是一个“数据矩阵”:
变量的类型:
数值型(quantitative):通常对应于定量分析,数值型变量可以进行加减乘除求平均等运算。
- 连续型:可以在给定的区间取任意的数值,在这个区间里的数值是无限的。例如:1-10
- 离散型:在给定数据集合内取值,集合内的数据是有限的。例如:集合{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}内的数据只有10个。
分类变量(qualitative):通常对应于定性分析,对于分类变量而言,它的取值空间是有限的,不能进行运算。
- 无序分类变量:它们是不可比较的。例如:有三种水果,苹果,香蕉,梨子,因为是不同的三种类别,所以两者之间无法比较。
- 有序分类变量:它们的顺序是有意义的。例如:年级,大一、大二、大三,虽然对这种类型的变量进行数学运算是没有意义的,但大二比大一的年级高,它们的顺序是有意义的。
在考虑变量的关系时,一定要注意将对象的类型考虑进去。因为对不同类型的变量之间的关系进行分析时,需要用到不同的可视化方法。
变量间的关系(对应不同的可视化方法和统计分析方法):
- 两个数值变量
- 两个分类变量
- 一个数值变量,一个分类变量
2-2 数据变量的特征和可视化
数据变量的特征
1. 数据集中趋势的测量(measures of center)
- 均值(mean)
- 中位数(median)
- 众数(mode)
例如,以下是一个变量的多次观测记录:
均值 = (1 + 9 + 2 + 8 + 3 + 9 + 4 + 5 + 7 + 6)/10 = 5.4
中位数 = 排序后位于正中间的一个数 或 位于正中间的两个数的均值
众数 = 记录种出现次数最多的数 = 9
2. 数据分散趋势的测量(measures of spread)
- 值域(range: max-min)
- 方差(variance)
- 标准差(standard variance)
- 四分位距(interquartile range)
使用上面的例子:
值域 = 最大值 – 最小值
方差:
标准差 = 方差开方
四分位距会在后面结合图,进行介绍。
在RStudio中的操作:
3. 稳健统计量(robust statistics)
- 是稳健统计量:中位数、四分位距(受极端值的影响小)
- 不是稳健统计量:均值、标准差、值域(受极端值的影响大)
变量的可视化
1. 一个变量的可视化(数值变量)
- 柱状图(histogram)、点图(dot plot)(可以观察一个这一个变量值的分布情况)
- 箱图(box plot)(中位数、分位点、极端值)
注意:在实际中,箱图大多数是“竖着”显示的。
2. 两个变量的关系
- 散点图(scatter plot):两个变量关系的方向、形状、强度、极端值
2-3 分类变量的特征和可视化
分类变量的特征:
- 频率
分类变量的可视化
1. 一个分类变量的可视化
- 频率表(frequency table)、条形图(bar plot)
2. 两个分类变量的关系
- 关联表(contingency table)、相对频率表(relative frequencies)
- 分段条形图、相对频率分段条形图
- 马赛克图(mosaic plot)
3. 一个分类变量和一个数值变量的关系
- 并排箱图(side-by-side box plot)