本节书摘来自异步社区出版社《统计会犯错——如何避免数据分析中的统计陷阱》一书中的第1章,第1.2节,作者:【美】Alex Reinhart(亚历克斯·莱因哈特),更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.2 构建置信区间
显著性检验会得到广泛关注,“统计显著”这一词语也成为流行词典的一部分。尤其在生物与社会科学中,研究结果常常用 p值展现出来。但是 p 值不是评价证据权重的唯一方法。置信区间可以回答和 p 值相同的问题,并且它的优势是提供了更多的信息而且可以直接阐明。
一个置信区间包含一个点估计以及这个估计的不确定性。例如,一种新实验药物可以将感冒平均时间缩短为36h,并且对应的95%的置信区间为24~48h(置信区间是平均时间,每个患者感冒的时间有很大的区别)。如果我进行100次相同的药品实验,那么将有95个置信区间包含我们感兴趣的真实值。
置信区间可以将结论中的不确定性定量,而且比不能说明任何效应量的 p 值提供更多的信息。如果想检验这个效应量是否显著区别于零,可以构建一个 95%的置信区间来检验这个区间是否包含零。在这个过程中,我可以额外地知道我的估计有多么精确。如果置信区间太宽,那么我需要收集更多的数据。
例如,如果进行一项临床试验,我可以构建一个预示我的用药量减少15%~25%的置信区间。这个效应是显著的,因为这个区间不包含零,并且可以用我了解的疾病临床知识来评价差别的重要性。当我们使用 p 值时,这一步是非常重要的——当还没有在上下文进行评价时,就不要将统计结果吹嘘为一项重大发现。若这一用量是无害的,则15%~25%的改进是不重要的。不过话说回来,对于像能够引起人体自燃这样的征兆,做出任何改进我可能都会激动。
如果你能以置信区间而不是p值表达你的研究结果,那么你应该这样做7。置信区间回避了大多数与p值有关的细微解释,这使得结果更加清晰。那么为什么置信区间却不是很流行呢?在试验性的心理研究杂志中,97%的研究报告包含显著性检验,但是只有10%曾经报告置信区间,并且其中大多数没有利用置信区间作为他们研究结果的支持证据,而是依赖显著性检验8。甚至久负盛名的《自然》杂志不例外:89%的文章没有任何置信区间和效应量来报告p值,这使得他们的研究结果不能在上下文中得到解释9。一个杂志社的主编说道“p值就像蚊子”,它们无处不在,而且不管我们怎么打,用什么药喷都无法驱逐它们10。
关于置信区间报告很少的原因可能是因为他们区间宽的令人尴尬11。另一个原因是论文同行评审的压力太大,最好像其他学科那样做统计,否则评审者会拒绝你的论文。或者可能是关于 p值的困惑掩盖了置信区间的好处。或者是在统计课程中过度强调假设检验意味着大多数科学家不知道怎么样计算和使用置信区间。
有一段时间杂志主编试图强制报告置信区间。Kenneth Rothman是20世纪80年代中期美国公共健康杂志的副主编,以强硬措辞的信件进行意见回复。
所有关于统计检验以及统计显著性的推断都应该从论文中删除。我要求在删除p值的同时也要删除关于统计显著性的评论。如果你不赞成这一标准,你认为应该自由地进行辩论,或者你根本不理会这些而认为这是我的错误观点,那么请你在别处发表12。
在Rothman作为副主编的3年任期内,那些仅仅报告p值的论文数量急剧下降。在他离职以后,显著性检验复苏,虽然下一任主编也鼓励研究者要报告置信区间。但是尽管报告了置信区间,很少有研究者在论文中讨论它们或者运用它们得出结论,反而仅仅将它们作为显著性检验12。
Rothman还创办了《流行病学》杂志,非常支持统计报告。早期,对显著性检验熟悉的作者会在报告置信区间的同时报告p值,但是10年以后,这些作者的态度就发生了很大的变化,仅仅报告置信区间成为一种常见的实践12。
也许那些有勇气的杂志编辑可以以 Rothman 为榜样,并且在他们的领域中改变统计实践。
[1] 是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率(wiki)。更多讨论参见“统计之都”中相关内容(http://cos.name/2008/12/ p-value-notes/)。
[2] 辑(tautology):是指一些言论,在任何情况下都不可能是错的。说得更严谨一点,套套逻辑不可能被想象为错!举一个例子,假若我说:“四足动物有四只脚。”这怎可能会错呢?句子内的后半部重述了前半部的意思,即使我们花很大工夫也不可能想象到它在怎样的情况下会是错的。在地球上、火星上它不会错,在宇宙任何地方它也不会错。这句话的一般性确实厉害,但内容究竟说了些什么?其实什么也没有说!我们想破脑袋也知道是对的,但不知其内容(转自百度百科,引自张五常《经济解释》神州版卷一第一章第三节《特殊理论与套套逻辑》)。
[3] 我使用二项分布计算出这个结果,在下节中,我还会使用不同的分布,如负二项分布。具体概率分布和计算细节不是本书关注的重点,我们更感兴趣的是如何解释_p_值,而不是如何计算_p_值。