数值特征的描述:

  1. 水平(集中趋势或位置度量) 全部数据的数值大小
  2. 差异 离散程度
  3. 分布的形状 数据分布的偏度和峰度

3.1 描述水平的统计量

  • 反映数值大小的统计量:平均数,分位数,众数

3.1.1 平均数

简单平均数

R语言四分位图 r语言求四分位数_R语言四分位图


加权平均数

R语言四分位图 r语言求四分位数_数据_02


mean(x,trim=0,na.rm=FALSE,…):求平均数。x为向量,trim取值在0~0.5之间用于修整平均数,比如trim=0.1表示算平均数前删前后10%的数据

3.1.2 分位数

分位数:从小到大排序后,某个位置上的数值
常用:中位数、四分位数、百分位数

  • 中位数 median()

R语言四分位图 r语言求四分位数_标准差_03

  • 四分位数:25%和75%位置上的一组数值
    R提供了九种算法,默认算法为type=7,SPSS算法对应R中type=6

位置计算

R语言四分位图 r语言求四分位数_r语言_04


quantile(x,probs,type,…):用于计算x的分位数。probs为分位数向量,type指定方法,默认=7

quantile(example3_1$分数,probs=c(0.25,0.75),type=6)
  • 百分位数
    用99个点将数据分成100份

算法默认type=6

R语言四分位图 r语言求四分位数_R语言四分位图_05


如果位置是整数,百分位数就是该位置对应的数值

如果位置不是整数,百分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值

# 计算30名学生考试分数的百分位数
probs=c(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9),type=6)

3.1.3 众数

数据量大时才有意义,可以有多个
Mode(x,na.rm=FALSE):DescTools包 返回向量x的众数。na.rm默认FALSE,表示不剔除数据中缺失值,若没有众数返回所有观测值

library(DescTools)
Mode(example3_1$分数)

3.2 描述差异的统计量

离散程度大,水平统计量对数据代表性越差
离散程度越小,代表性越好

  • 极差,四分位差,方差,标准差,变异系数

3.2.1 极差和四分位数

极差R:一组数据的最大值与最小值之差
四分位差IQR:上四分位数与下四分位数之差,越小说明中间数据越集中

# 计算30名学生考试分数的极差和四分位差
# 极差
max(example3_1$分数)-min(example3_1$分数);
# 四分位差
IQR(example3_1$分数,type=6)

3.2.2 方差和标准差

平均离差(平均绝对离差):离差绝对值求和后平均,比方差多平方

  • 方差 var()
  • 标准差 sd()

3.2.3 变异系数

变异系数(离散系数):反映一组数据的相对离散程度,消除了数值大小和计量单位对标准差的影响

R语言四分位图 r语言求四分位数_数据分布_06

3.2.4 标准分数

标准分数(z分数,标准化值):用于度量每个数值在改组数据中的相对位置,并判断一组数据是否有离群点。
scale():计算标准分数
round():保留四位小数
as.vector():结果以向量形式输出

  • 向量化处理

    实际上就是把一组数据转化成平均数为0、标准差为1的新数据,将原始数据做了线性变换。

3.3 描述分布形状的统计量

偏度系数,峰度系数:对分布不对称程度和峰值高低的一种度量

3.3.1 偏度系数

偏度系数SK:测度数据分布不对称性的统计量
skewness():计算偏度系数

  • 三种算法
  • 测度数据分布不对称性的统计量
    𝑆𝐾=𝟎为对称分布;
    𝑆𝐾>𝟎为右偏分布;
    𝑆𝐾<𝟎为左偏分布
    𝑆𝐾大于1或小于−1,为高度偏度分布;
    𝑆𝐾在0.5~1或−1~−0.5之间,为是中等偏度分布;
    𝑆𝐾越接近0,偏斜程度就越低

3.3.2 峰度系数

峰度系数:测度数据分布峰值高低的统计量
kurtosis():计算峰度系数

  • 三种算法
  • 峰度通常与标准正态分布相比较而言
    K>0为尖峰分布,数据分布峰值高于标准正态分布
    K<0为扁平分布,数据分布峰值低于标准正态分布

3.4 数据的综合描述

stat.desc():pastecs包
describe():psych包

> library(pastecs)
> round(stat.desc(example3_9),4)
             纳塔利娅.帕杰林娜   郭文珺 卓格巴德拉赫.蒙赫珠勒
nbr.val                10.0000  10.0000               10.0000
nbr.null                0.0000   0.0000                0.0000
nbr.na                  0.0000   0.0000                0.0000
min                     8.5000   9.4000                8.3000
max                    10.6000  10.8000               10.7000
range                   2.1000   1.4000                2.4000
sum                    98.1000 102.3000               92.6000
median                  9.9000  10.3500                9.2000
mean                    9.8100  10.2300                9.2600
SE.mean                 0.1946   0.1383                0.2237
CI.mean.0.95            0.4403   0.3128                0.5061
var                     0.3788   0.1912                0.5004
std.dev                 0.6154   0.4373                0.7074
coef.var                0.0627   0.0427                0.0764
> library(psych)
> describe(example3_9)
                      vars  n  mean   sd median trimmed  mad min  max range  skew kurtosis   se
纳塔利娅.帕杰林娜        1 10  9.81 0.62   9.90    9.88 0.52 8.5 10.6   2.1 -0.65    -0.45 0.19
郭文珺                   2 10 10.23 0.44  10.35   10.26 0.44 9.4 10.8   1.4 -0.50    -1.04 0.14
卓格巴德拉赫.蒙赫珠勒    3 10  9.26 0.71   9.20    9.20 0.59 8.3 10.7   2.4  0.54    -0.65 0.22
妮诺.萨卢克瓦泽          4 10 10.14 0.55  10.25   10.19 0.59 9.1 10.8   1.7 -0.52    -1.10 0.17
维多利亚.柴卡            5 10  9.80 0.65   9.95    9.86 0.82 8.6 10.5   1.9 -0.42    -1.35 0.21
莱万多夫斯卡.萨贡        6 10  9.73 0.73   9.85    9.81 0.67 8.1 10.7   2.6 -0.79    -0.12 0.23
亚斯娜.舍卡里奇          7 10  9.69 0.36   9.80    9.70 0.30 9.1 10.2   1.1 -0.29    -1.46 0.11
米拉.内万苏              8 10  9.65 0.46   9.75    9.69 0.30 8.7 10.3   1.6 -0.65    -0.66 0.15
  • P91综合描述的例子