1 偏差与方差

  • 偏差(bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
  • 方差(variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
  • 样本子选择偏差 样本偏差怎么计算_方差

  • 方差公式
  • 样本子选择偏差 样本偏差怎么计算_方差_02

  • Var(x)
    =E((x−E(x))2)
    =E(x2−2xE(x)+(E(x))2)
    =E(x2)−2E(x)E(x)+(E(x))2
    =E(x2)−2(E(x))2+(E(x))2
    =E(x2)−(E(x))2
    其实两个公式是等价的
  • 样本方差公式:
  • 样本子选择偏差 样本偏差怎么计算_算法_03

  • 式中:
  • 样本子选择偏差 样本偏差怎么计算_样本子选择偏差_04

  • 是样本的均值
  • 标准差(就是方差的平方根)
    标准差公式:
  • 样本子选择偏差 样本偏差怎么计算_协方差_05

  • 样本标准差公式:
  • 样本子选择偏差 样本偏差怎么计算_方差_06

  • 为什么使用标准差?
    与方差相比,使用标准差来表示数据点的离散程度有3个好处:
  • 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
  • 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
  • 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

2 协方差和相关系数

  • 1先贴一个链接 = =
    https://www.zhihu.com/question/20852004
  • 2 协方差covariance
  • 定义
  • 两个随机变量的协方差被定义为:
  • 样本子选择偏差 样本偏差怎么计算_算法_07

  • Cov(x,y)=E( (x−E(x) (y−E(y) )
    因此方差是一种特殊的协方差。当x=y时:Cov(x,y)=Var(x)=Var(y)。
  • 直观理解
    协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。  如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值
  • 协方差矩阵(必定是一个方阵)
  • 样本子选择偏差 样本偏差怎么计算_标准差_08

  • 2 相关系数
  • 相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
  • 样本子选择偏差 样本偏差怎么计算_方差_09


  • 样本子选择偏差 样本偏差怎么计算_算法_10

  • 性质
  • 1、有界性
    相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。
  • 2、统计意义
    值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

3 PCA主元分析法

  • 这个链接很好
    http://blog.codinglabs.org/articles/pca-tutorial.html

4 DataFrame实现

主要是 DataFrame.corr()和DataFrame.corrwith()两个函数