1. 平均数
1.1 算术平均数
公式:
适用范围:离群值较少,数据偏移量较小,无极大极小值。
1.2 几何平均数
公式:
适用范围:相对于算术平均对离群值不敏感,适用于序列值均为正数(不考虑正负性)。常用于金融领域(如计算投资组合年化收益率)。
1.3 调和平均数
公式:
适用范围:对离群值极度不敏感,数据中可包含负值。
数量关系:调和平均
几何平均
算数平均
python实现:
data
2. 分位数
定义:分位数指的就是连续分布函数中的一个点,这个点对应概率p。若概率0<p<1,随机变量X或它的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数。
常用的有中位数,25%分位数,75%分位数。
Python中,numpy包的quantile函数可实现分位数计算。
python实现:
data
3. 离散程度
3.1 方差(
)
定义:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
公式(随机变量形式):
样本方差公式:
至于为什么是n-1而不是n,贴一条知乎回答供参考:
为什么样本方差(sample variance)的分母是 n-1?www.zhihu.com
3.2 标准差(
)
定义:标准差即为方差的开方,同样反应数据离散程度。样本标准差通常用
来表示。
上图为标准正太分布的概率密度函数图,从上图可知,有68.2%的点分布在离均值1个标准差之内的范围里,而仅有0.2%的点分布在3个标准差之外。
3.3 标准误(SE)
标准误差,也称标准误,是描述对应的样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度。对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。
公式:
,s表示样本标准差,n表示样本数量。
python实现:
data
4. 分布情况
4.1 偏度
偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。
公式:
图片来源:百度百科
如上图从上到下,分别为偏度>0,偏度=0和偏度<0。
偏度>0被称为右偏,偏度<0被称为左偏。
4.2 峰度
峰度(Kurtosis),是描述总体中所有取值分布形态陡缓程度的统计量。直观看来,峰度反映了峰部的尖度。
公式:
标准正态分布的峰度为3。
python实现:
mu
显示的结果中,峰度在0左右,因为python中峰度计算直接减了3,方便样本风度和标准正态分布的峰度比较。