Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助!
相信大家在平时的统计分析中,一定会用到数组偏度以及峰度的计算,那么什么是偏度?什么是峰度呢?
偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。——来自百度百科
峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。——来自百度百科
咱们直接来看公式吧:
偏度 = 三阶中心距 / 标准差的三次方
峰度 = (四阶中心矩 / 方差的平方)- 3
好了,知道了偏度与峰度的定义以及计算公式,我们直接上代码:
方法1:通过pandas计算偏度与峰度
首先我们构建一个array数组,然后把它转为Serise数据格式
a = np.array([3,6,3,9,10,12,36,3])
s1 = pd.Series(a)
print(s1)
我们打印一下结果看看:
0 3
1 6
2 3
3 9
4 10
5 12
6 36
7 3
dtype: int32
下面我们计算偏度和峰度,pandas使用起来特别方便如下所示:
print(s1.skew(),s1.kurt(),s1.kurtosis())
我们看看结果,第一个数是偏度,第二个数和第三个数都是峰度(两者的结果是一样的)
2.2834315607184914 5.684904087149228 5.684904087149228
2.通过stats计算偏度与峰度
from scipy import stats
print(stats.skew(a),stats.kurtosis(a))
我们来看一下结果,第一个数是偏度,第二个数是峰度
1.8308182642189486 2.0404305176901083
咦,怎么两种方法算出来的结果不一样呢?
我们看一下两种方法所求的标准差:
print(s1.std()) ## (除以n-1) 无偏 pandas方法
print(stats.tstd(s1)) ## (除以n-1) 无偏 stats方法
print(np.std(s1)) ## (除以n) 有偏 numpy方法
print(np.std(s1,ddof=1)) ## (除以n-1) 无偏 numpy方法
我们看看结果:
10.977249200050075
10.977249200050075
10.268276388956425
10.977249200050075
我们发现,第1,2,4结果是一样的,第3个结果与其他的不一样,其实这里的不同就体现在标准差的计算中,也就是无偏与有偏的区别。
使用Pandas计算峰度与偏度是无偏的,而使用Stats计算偏度与峰度是有偏的,这就导致计算出的结果不一致。
3.自己通过代码来实现计算偏度与峰度
first_central_moment = (sum(a - np.mean(a)))/len(a) ##一阶中心矩
Third_central_moment = (sum((a - np.mean(a))**3))/len(a) ##三阶中心矩
Four_central_moment = (sum((a - np.mean(a))**4))/len(a) ##四阶中心矩
skew = Third_central_moment/(np.std(a)**3) ##skew
kurt = (Four_central_moment/(np.var(a))**2) - 3 ##kurt
我们来打印一下结果,第一项是偏度,第二项是峰度:
1.8308182642189486 2.0404305176901083
这个结果是和stats计算出来的结果一样的!结果都是有偏的
其实方差就是二阶中心矩,让我们来看看不同方法的计算结果:
s1.var() #pandas方法
np.var(a,ddof=1) #numpy方法
stats.tvar(a) #stats方法
(sum((a - np.mean(a))**2))/(len(a)-1) #自定义二阶中心矩计算方法
我们打印一下结果:
发现他们的结果是一样的,并且结果都是无偏结果。
以下代码计算的应该都是无偏的结果,我们打印一下:
first_central_moment = (sum(a - np.mean(a)))/(len(a)-1) ##一阶中心矩
Third_central_moment = (sum((a - np.mean(a))**3))/(len(a)-1) ##三阶中心矩
Four_central_moment = (sum((a - np.mean(a))**4))/(len(a)-1) ##四阶中心矩
skew = Third_central_moment/(np.std(a,ddof=1)**3) ##skew
kurt = (Four_central_moment/(np.var(a,ddof=1))**2) - 3 ##kurt
print(skew,kurt)
1.7125736705388683 1.4103767029788452
发现还是和pandas计算的结果不一样,原因我还在寻找。。。
附上两篇优秀的文章:
有偏估计和无偏估计 python pandas库和stats库计算偏度和峰度(附程序)
今天的文章就分享到这里啦!