p值是假设检验(显著性检验)做出判断的依据,然而它一直饱受争议。不少人谈到假设检验、谈到p值时,就认为这是一个陷阱,存在误导人们视线的危险。2018年1月22日,美国政治学顶级学术期刊《政治分析》公开宣布:从2018年的第26辑起不再发表基于p值的文章。理由是:“p值本身无法提供支持相关模式或假说之证据。”
其实,早在1983年,《美国公共健康杂志》就要求投稿者删除所有p值,否则就请转投其他杂志;另一刊物《流行病学》在1990创刊之初也公开声明作者在投稿时,若忽略显著性检验将有助于提高稿件被录用的可能性。而早几年前,心理学期刊《基础与应用社会心理学》也开始拒绝刊登使用p值的文章。更有人宣告p值已经死了。
为什么在应用了将近一百年后的今天,p值会陷入这么尴尬的一个境界?我认为原因有两个方面:一是对假设检验的逻辑或p值背后的奥秘,我们还有很多未知,也可以说其理论本身还没有完全成熟;二是在现实中,确实存在着不少滥用、误用、错用假设检验和p值的情况,甚至不排除有人借用p值来实现其不光彩的学术目的。
p值的表面意义是,当原假设为真时,检验统计量出现某不应该值所需的概率;而其实际意义则是,只需多小的概率就能出现拒绝原假设的检验统计值。与此紧密相关的一个概念是α,通常称之为显著性水平,而1-α称之为置信水平。在假设检验中,α是接受或拒绝原假设的概率分界点,即当原假设为真时,若出现某不应该检验统计值所需的概率大于α,就接受原假设;若出现某不应该检验统计值所需的概率小于α,就拒绝原假设。也就是说,如果p
假设检验的一个很重要含义是,α值越小,我们犯第一类错误即拒真错误的风险就越小。也就是说,原假设受到保护的力度就越大。举例来说,要检验某种药品是否有效,原假设是“实验组与对照组没有差异”。若能够拒绝这个原假设,就认为药品有效。药品研发者自然希望药品有效,但药品使用者则不希望把无效的药品认为有效。所以,我们现在面临的问题是,更愿意倾向于把有效的药品认为无效(即倾向于认为两组的差异是偶然性差异),还是更愿意倾向于把无效的药品认为有效(即倾向于认为两组的差异是系统性差异)?若更倾向于前者(如果药品成本昂贵,有副作用),那么α值就要尽量小一些,这样只有更小的p值才能拒绝原假设;若更倾向于后者(如果药品成本低,没有副作用),那么α值就可大一些,这样不是很小的p值就能拒绝原假设。在多数情况下,对于上述的显著性差异,我们宁可信其无而不可信其有(例如在无罪推定原则下,要判一个人有罪必须十分谨慎,必须证据十分充足),所以α值要尽量小。
现在的问题是:(1)p值作为出现某个样本统计值的概率,是不是据此就能知道原假设成立的概率?因为p值只是某样本数据出现的概率,而原假设成立的概率则是模型概率,两者的意义是不一样的。所以,我们真正应该思考的问题是:当pα时),其背后又隐藏着什么样的信息?这里又有这样几个具体的问题:一是p与α之间的距离说明什么?例如,假设α=0.05,现有两个p值分别是0.04和0.03,0.04与0.05的差等同于0.03与0.04的差,都是0.01,这两个0.01所说明的意义是否相同?二是如果两个不同的假设检验具有相同的p值,它们是否说明相同的意义?是否与检验的内容和所依据的分布类型有关?关于这些问题,我们确实还有很多未知。
还有一个问题是,正向检验与反向检验的p值有什么不同意义。例如,假设根据已有记录,某地区人群中某项医学指标呈阳性的比重为30%,呈阴性的比重为70%。现有某种设备,无论对于阳性者还是阴性者,检测准确率均为99%。经对1000名体检者检测,发现呈阳性的比重为35%,呈阴性的比重为65%。试问分别以“呈阳性比重为30%”和“呈阴性比重为70%”作为原假设,在α=0.05的显著性水平下,两个检验统计值所对应的p值所能说明的意义有什么差别?我们认为,“把阳性者错检成阴性”与“把阴性者错检成阳性”的实际影响后果是不一样的。
除了上述理论问题,p值在实际应用中的问题更为严重,使本身不够严密的假设检验雪上加霜。在很多文献中,我们发现同一个统计模型的不同检验项所采用的显著性水平是不同的,有的是0.1,有的是0.05,也有的是0.01。这属于典型的选择性地认定显著性,是对p值的滥用。因为在不同的显著性水平下,不同检验项之间是不匹配的。试想,不在同一个水平上,模型如何成立?意义如何解释?毫无疑问,这样的模型分析结果,只能是漏洞百出,经不起推敲。
其实,我们所看到的文献,都是所谓通过了显著性检验的部分,或者说都是符合研究者意图的部分,而对于那些没有通过检验、不符合研究者意图的研究到底是个什么情况,我们就不得而知了。并且,有研究者发现了这样一个有趣而令人生奇的现象:把已发表文献中的P值形成分布图,发现在0.05附近的p值(即略小于0.05的p值)出现了一个峰值,即p值在0.05附近最为多见。对于这种“存在效应”,我想原因大致有两个方面:一是大家对0.05的显著性水平比较认可(认为0.1太宽松,0.01又太严苛),把p<0.05作为了一种比较公认的判断标准,因而符合p<0.05的研究结果就比较容易得到发表;二是不排除人为因素造成检验结果正好符合p<0.05,例如研究者为了使研究结果符合自身意图,事先通过样本选择、条件控制等手段对实验设计进行了优化,选择性地只报告符合意图的变量,甚至选择性地删除、补充或修改数据,选择性地扩大样本容量等等。显然,这种为了发表文章而人为地达到p<0.05要求的做法,是严重违背实事求是的科学精神和学术道德的,当然也严重损害了假设检验的声誉。2015年,美国《科学》杂志发表了一项由200多个心理学专家共同完成的p值结果重复实验文章,即他们对100项已公开发表的p值研究结果进行了重复实验,发现大约只有39%的结果能够被成功复制,而高达61%的结果无法复制,并且发现p值在0.04-0.05之间的结果最难被复制。这说明很多p值存在问题,也证明了p值恰好在0.05附近形成高峰的现象是不正常现象。
正因为如此,《自然》的子刊《自然人类行为》发表了一篇名为《重新定义统计显著性》的文章(Benjamin, Berger, Johannesson, Nosek, et al., 2017) ,72名研究方法的专家联名建议将统计显著性水平的默认值由0.05改为0.005。如果p值在0.005到0.05之间,建议使用“启示性”这个词;如果p值小于0.005,才能认定为统计显著。最近心理学(Open Science Collaboration,2015) 和经济学 (Camerer et al., 2016)的两次大规模重复实验 表明,如果以0.005作为显著性水平,那么已公开发表文献中p值小于0.005的研究结果可复制的比重是p值在0.005与0.05之间的两倍:心理学是50%比24%,经济学是85%比44%。尽管可复制的比重也不太理想,但将显著性水平提升到0.005,无疑会大大减少假显著性出现的比重,即减少犯“拒真”错误的机会。
总之,p值只是一种参考,哪怕把它的阈值提升到0.001也不能保证不出现假显著性,因为影响检验统计值的不确定性因素实在是太多了。
(已刊登于《中国统计》2019年第6期)