平均数和变异性量数是用于描述数据分布特征的关键,但变量之间的关系如何描述?
或者说当一个变量发生变化的时候,另一个变量如何变化?
这就涉及到相关系数的计算。
相关系数(correlation coefficient):是反映两个事物(变量)之间线性关系的数值性指标。
相关关系的类型和相应的变量之间的关系
变量X | 变量Y | 相关关系的类型 | 数值 | 例子 |
X值增大 | Y值增大 | 直接的或正向的 | (0,1) | 存的钱越多,利息就越多 |
X值降低 | Y值降低 | 直接的或正向的 | (0,1) | 存的钱越少,利息就越少 |
X值增大 | Y值降低 | 间接的或负向的 | (-1,0) | 运动越多,体重就越轻 |
X值降低 | Y值增大 | 间接的或负向的 | (-1,0) | 运动越少,体重就越重 |
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
0.8-1.0 | 极强相关 |
0.6-0.8 | 强相关 |
0.4-0.6 | 中等程度相关 |
0.2-0.4 | 弱相关 |
0.0-0.2 | 极弱相关或无相关 |
皮尔逊相关(pearson product-momentcorrelation):也称为积差相关(或积矩相关)是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。
皮尔逊相关是一种线性相关系数,是用来反映两个变量线性相关程度的统计量。
n 是样本规模
X 是变量X的具体数值
Y 是变量Y的具体数值
XY 是每一个X值与相应的Y值的乘积
X2 是X值的平方
Y2 是Y值的平方
如计算下面这组数据
| X值 | Y值 | X2 | Y2 | XY |
| 2 | 3 | 4 | 9 | 6 |
| 4 | 2 | 16 | 4 | 8 |
| 5 | 6 | 25 | 36 | 30 |
| 6 | 5 | 36 | 25 | 30 |
| 4 | 3 | 16 | 9 | 12 |
| 7 | 6 | 49 | 36 | 42 |
| 8 | 5 | 64 | 25 | 40 |
| 5 | 4 | 25 | 16 | 20 |
| 6 | 4 | 36 | 16 | 24 |
| 7 | 5 | 49 | 25 | 35 |
合计 | 54 | 43 | 320 | 201 | 247 |
套公式为
n=10
(10×247-54×43) / ((10×320-542 )(10×201-432)) = 0.692
皮尔逊相关系数的适用范围
- 两个变量间有线性关系
- 变量是连续变量
- 变量均符合正态分布,且二元分布也符合正态分布
- 两变量独立
相关仅表示两个或更多变量之间存在关联关系,相关和因果关系无关。