数据的描述维度:

数据的维度主要用集中趋势、离散程度、分布形态三块表示。

一、集中趋势

1.算数平均值

2.加权算数平均值

注:算数平均值是特殊的加权算数平均值,其每个权重均为1;同时如果数据样本中出现极大值、极小值时,再计算平均值,其实际的意义可能就会打折扣,如我们经常说的被平均了。

3.几何平均值
不同维度的特征加权融合 python实现 不同维度数据加权_统计学
示例:制造企业使用几何平均数识别产线上的隐形损耗

4.众数:出现次数最多的数

注:如果一个样本 集中有两个众数,可以考虑它们是否来自于两个不同的样本集。众数表明数据真实的聚集情况

5.中位数

中位数,不受数据集合中个别极端值的影响,表现稳定。在数据集合的数据分布有较大偏斜时,能够保持对数据集合特征的代表性。

二、数据的离散程度

1.极差
不同维度的特征加权融合 python实现 不同维度数据加权_偏态与峰态_02
2.平均偏差
不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_03
代表了所有数值与平均值的平均偏差距离。

3.总体的方差和标准差
不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_04

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_05

u为均值,含有N个数据的数据集合
不同维度的特征加权融合 python实现 不同维度数据加权_统计学_06
4.样本的方差和标准差
不同维度的特征加权融合 python实现 不同维度数据加权_数据_07

不同维度的特征加权融合 python实现 不同维度数据加权_数据_08

注:在消除负数时,可以使用绝对值或者平方等形式进行。

无偏估计:
不同维度的特征加权融合 python实现 不同维度数据加权_偏态与峰态_09
假设样本均值为
不同维度的特征加权融合 python实现 不同维度数据加权_数据_10

不同维度的特征加权融合 python实现 不同维度数据加权_数据_11

不同维度的特征加权融合 python实现 不同维度数据加权_数据_12

不同维度的特征加权融合 python实现 不同维度数据加权_统计学_13

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_14

不同维度的特征加权融合 python实现 不同维度数据加权_偏态与峰态_15

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_16

如果从总体中多次抽取容量为n的样本,并分别计算分母为n的样本方差
不同维度的特征加权融合 python实现 不同维度数据加权_偏态与峰态_17

不同维度的特征加权融合 python实现 不同维度数据加权_数据_18

分母为n-1的样本方差
不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_19

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_20

不同维度的特征加权融合 python实现 不同维度数据加权_数据_21

可以得出分母为n-1的样本方差是总体方差的无偏估计。

样本标准差
不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_22

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_23

不同维度的特征加权融合 python实现 不同维度数据加权_统计学_24

5.分类数据:异众比率

指非众数组的频数占总频数的比例 ,
不同维度的特征加权融合 python实现 不同维度数据加权_偏态与峰态_25

不同维度的特征加权融合 python实现 不同维度数据加权_统计学_26

异众比率主要用于衡量众数对一组数据代表成都。异众比例越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;反之亦然。

6.标准分数

变量值与其平均数的离差除以标准差后的值成为标准分数standard score ,也成为标准化值
不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_27
标准分数给出了一组数据中各数值的相对位置。再对变量标准化处理时常用到。

上述公式时一组线性变换公式(其他公式再其他有介绍),经过上述变换后该组数据变为平均数为0,标准差为1的一组数据。
不同维度的特征加权融合 python实现 不同维度数据加权_统计学_28
有些时候,可以统计对应的离群点

7.针对不对称的数据可以采用切比雪夫不等式
不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_29
8.变异系数 coefficient of variation

一般对一组数据分析离散型,可先分析平均数,再看标准差,再看离散系数(变异系数)。逐层分析,如果前者指标数据比较接近,可以递进分析。

方差和标准差虽然能够表示数据集合中每个值距离算数均值的平均偏离距离,但是这个距离的大小程度却不能很好的体现。因此用变异系数表述
不同维度的特征加权融合 python实现 不同维度数据加权_统计学_30

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_31

变异系数,是不带有单位的。因此他可以衡量同类事物的离散程度,还可以说明不同类型事务的相对离散程度。在标准差相同或者标准差较小时,可以用变异系数衡量一下离散程度。

9.四分位极差
不同维度的特征加权融合 python实现 不同维度数据加权_偏态与峰态_32
这个极差包含整个数据集合50%的数据值。

三、数据的分布形态:偏态与峰态

数据分布是否是对称,偏斜程度以及分布的扁平程度的,这就要分析数据分布形状的偏态与峰态。

1.偏态及测度 偏态系数 coefficient skewness (sk)
不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_33
如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,则表明是非对称分布。如果偏态系数大于1,或小于-1,则称为高度偏态分布;若果偏态系数再0.51或者-1-0.5之间,被认为中等偏态分布;偏态系统越接近0,偏斜程度就越低。
不同维度的特征加权融合 python实现 不同维度数据加权_数据_34
2.峰态及其测度 峰态系数 coefficient of kurtosis (k)

峰态通常是与标准正态分布相比较而言。如果一组数据服从标准正太分布,则峰态系数的值等于0;若果峰态的值明显不等于0,则表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。
不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_35

不同维度的特征加权融合 python实现 不同维度数据加权_集中程度_36

不同维度的特征加权融合 python实现 不同维度数据加权_离散程度_37