百分位是用来定位的。管中窥豹,可见一斑。
如果知道某数在一个有序排列的集合中,处于什么位置,我们就对整个数据集合就有了概念。
比如班里有100个学生,某次考试成绩出来,你拿到了85分,想知道自己处于班里什么水平,有没有挤进前5%。那就把大家的成绩从低到高排列,排到你85分是在第95个,那恭喜,有95%的人都比你低(ps:我理解的是班上有95%不比你高,所以你是95%中的最高值)。也就是说,如果我们知道了某个数据集合的95th percentile=X,那我们就可以知道有95%的数值都比它低(或高)。
95th percentile百分点指的是所给数集中超过其95%的数。它是一个统计学上的概念。对于某个接口,准确统计它的流量时非常有用,它可以取出一些偶然得到的异常值。
95th百分点是统计时所采用的最高值,超过的5%的数据将被舍弃。这样可以将瞬间的毛刺(尖峰)去掉,使统计平均更具真实意义。
例如: 收集的数据为60,45,43,21,56,89,76,32,22,10,12,14,23,35,45,43,23,23,43,23 (20 个点)。将该序列降序排列,其最大值为89。由于20个点中1个点占5%,所以我们舍弃1个最大值89。剩下的最大值76就是我们所说的95th百分点
怎么算?
在实际应用中,数据不会这么凑巧。所以,要计算的话,我们需要先定位到这个百分位数是多少。
公式是:(n为集合里面的数据个数)
Location=(n+1)*percentile
(PS:加1是为了保证c%的数都比该数低?这种情况可能需要排除等于的情况)
例如:
看到了吧。算出来如果是小数的话,要将第9个数和第10个数之间的差值继续分割,进而定位到具体的数值。
怎么用?
经常可以看到百分位数用在KPI考核上。比如客服部门,按档位算奖金。要保证至少一半的人能拿到奖金,而只有2%的人能够拿到最高额的奖金。怎么设计KPI呢?就可以按照通话数量或者投诉率的百分位来设计。将每月接通的电话数从低到高排列,50分位是1200通。也就是有一半的人都能达到。想要奖金,至少达到这个标准。投诉率从高到低排列,98分位为5.44%,那就是说只有2%的人能将投诉率保持在5.44%以下。
表示近似最大值(类似计分时,去掉一批最高分):F(95%) = 98 意思是 95% 的数低于 98(约等于 5% 的数高于 98),也就是近似最大值 = 98。
表示近似最小值(类似计分时,去掉一批最低分):F(5%) = 30 意思是 5% 的数低于 30(约等于 95% 的数高于 30),也就是近似最小值 = 30。
表示中位数:F(50%) = 75 意思是 50% 的数低于 75(约等于 50% 的数高于 75),也就是中位数 = 75。
在计算百分位数的时候有这样几种方法:
(1)最近序数方法(The Nearest Rank method)
(2)在最近序数间线性插值的方法(The Linear Interpolation Between Closest Ranks method)
(3)权重百分位数方法(The Weighted Percentile method)
(4)微软excel表格算法(Microsoft Excel method)
(5)NIST方法(NIST method)