若样本不服从正态分布,可以考虑非参数检验。
MannWhitney U 检验:也被称为Wilcoxon秩和检验,检验评估了两个抽样群体是否可能来自同一群体,并从本质上问;这两个群体在数据方面是否具有相同的形状?
- 无效假设(H0)是两个群体相等;
- 备选假设(H1)是这两个群体不相等。
步骤:两样本混合进行编秩,分别计算两样本的秩和(下图举例)
n1,n2是样本数量,R1,R2是样本秩和,选择较小的U=8作为测试统计量。
正态近似在有些情况下,样本量可能太大,无法用参考表来计算准确的概率分布--在这种情况下,我们可以用正态近似法来代替。由于U是通过将独立的、分布相似的随机样本相加而找到的,所以当样本很大时(通常每组>20个),中心极限定理也适用。等级之和的标准差可以用来生成z统计量,并以这种方式生成显著性数值。如果无效假设为真,U的分布近似于正态分布。
确定一个置信区间,若U在置信区间内,则原假设成立。
K-S 检验:柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test)
例如:
有两组样本 :A:1,2,3,4,5,6,7,8,9,10
B:2,4,6,8,10,11,12,13,14,15
零假设是两种分布相同,拒绝零假设就是两种分布不同
合在一起从小到大排序为:
1,2,2,3,4,4,5,6,6,7,8,8,9,10,10,11,12,13,14,15
第一个数1,A中小于等于1的值有1个,除以样本数10,得0.1
第二个数2,A中小于等于2的值有2个,除以样本数10,得0.2
......
得到A的经验分布函数:
0.1,0.2,0.2,0.3,0.4,0.4,0.5,0.6,0.6,0.7,0.8,0.8,0.9,1,1,1,1,1,1,1
B的经验分布函数:
0.0,0.1,0.1,0.1,0.2,0.2,0.2,0.3,0.3,0.3,0.4,0.4,0.4,0.5,0.5,0.6,0.7,0.8,0.9,1
D值就是这两个经验分布函数的最大差值,这个例子中是0.5。
(python中有个ks函数,输入样本数据,输出D值和p值)
W-W游程检验:
用来检验两独立样本来自的两总体的分布是否存在显著差异。通过分析游程的大小和数量实现游程检验,从而判断两组样本在混合序列中的排列是否为随机的。若两组样本在混合序列中的排列是随机的,则两组样本之间没有显著性差异。
极端反应检验:
从另一角度检验两独立样本所来自的量总体分布是否存在显著性差异。其基本思想是:将一组样本作为控制样本,另一组样本作为实验样本。以控制样本作为对照,检验试验样本相对于控制样本是否出现了极端反应。如实验样本没有出现极端反应,则认为两总体分布无显著差异,相反则认为存在显著差异。