1 偏差与方差
- 偏差(bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
- 方差(variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
- 方差公式
- Var(x)
=E((x−E(x))2)
=E(x2−2xE(x)+(E(x))2)
=E(x2)−2E(x)E(x)+(E(x))2
=E(x2)−2(E(x))2+(E(x))2
=E(x2)−(E(x))2
其实两个公式是等价的 - 样本方差公式:
- 式中:
- 是样本的均值
- 标准差(就是方差的平方根)
标准差公式: - 样本标准差公式:
- 为什么使用标准差?
与方差相比,使用标准差来表示数据点的离散程度有3个好处: - 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
- 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
- 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。
2 协方差和相关系数
- 1先贴一个链接 = =
https://www.zhihu.com/question/20852004 - 2 协方差covariance
- 定义
- 两个随机变量的协方差被定义为:
- Cov(x,y)=E( (x−E(x) (y−E(y) )
因此方差是一种特殊的协方差。当x=y时:Cov(x,y)=Var(x)=Var(y)。 - 直观理解
协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 - 协方差矩阵(必定是一个方阵)
- 2 相关系数
- 相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
- 性质
- 1、有界性
相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。 - 2、统计意义
值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。
3 PCA主元分析法
- 这个链接很好
http://blog.codinglabs.org/articles/pca-tutorial.html
4 DataFrame实现
主要是 DataFrame.corr()和DataFrame.corrwith()两个函数