效应量报告的幻象:当统计显著性与实践意义分道扬镳

One-line summary

2015年RPP项目揭示半数显著结果无法复现,效应量平均减半

第一则笔记,记录的是2015年。那时我还在反复修改一篇关于工具变量稳健性的论文。同行评审的意见很尖锐,要求补充效应量及其置信区间的报告,并引用Open Science Collaboration的《可重复性项目》(RPP)。我放下笔,仔细读了那篇发表于《科学》的文章。他们系统性地尝试复制了100项心理学研究,结果是:只有大约39%的复现研究在统计上显著,原始显著的效应量中位数在复现中收缩了约一半。这不是一个模糊的印象,而是一张清晰的断层扫描图:许多曾经被认为稳固的发现,其基础如此稀薄,以至于重复施加一点点测量的压力就塌陷了。最让我脊背发凉的,不是那50%无法复现的比例,而是效应量收缩这个事实。它暗示着一种系统性偏差:最初被发表的,很可能是那些因随机误差而被向上高估了的效应。如果只看p值是否小于0.05,我们只能看到一个“死”或“活”的二值世界;但效应量的萎缩,揭示的是一场缓慢的“脱水”过程,证据的内在重量正在流失。RPP项目本身,就是一次对“发表偏倚”的效应量大小的残酷测量。

第二则笔记,写于一年后。美国统计协会(ASA)发布了关于p值使用的声明,引起了轩然大波。声明强调,科学结论不应仅基于p值是否通过某个阈值,并建议应提供效应量及其置信区间。一时间,期刊的投稿指南纷纷更新,仿佛找到了新的药方。然而,我与几位编委私下交流,他们苦笑着告诉我,收到的稿件确实开始在表格末尾增加一行“效应量(95% CI)”,但评审的焦点和作者的讨论,依然顽固地围绕着“显著”与“不显著”打转。那个置信区间,像一个被礼貌性展示、却无人真正审视的附件。问题在于,我们训练了整整一代研究者去追逐一个二分法的幽灵(p < 0.05),现在突然要求他们去理解和诠释一个连续体(效应量)及其不确定性范围(置信区间),这无异于要求一个人用新的语法去思考。更关键的是,当效应量及其区间被报告出来,我们是否有公认的准则去评估它?一个治疗抑郁症的新方法,效应量d=0.2,95% CI [0.05, 0.35],这算“小”还是“有临床意义”?如果区间下限接近零,但整个区间都在“积极”方向,我们该欢呼还是该警惕?ASA声明打开了门,但我们大多数人还站在门槛上,不知如何迈步。

第三则笔记,是关于“小”这个词的争议。Jacob Cohen在1988年为心理学提出的效应量基准(d=0.2为小,0.5为中,0.8为大)被奉为圭臬,却又被广泛误用。在一次跨学科研讨会上,一位微生物学家拍着桌子说:“在我们领域,一个基因表达量变化20%(对应某种标准化的效应量可能很小)可能就是生死攸关的!你们心理学定义的‘小’,对我们毫无意义。” 另一位经济学家则冷静地指出,在政策评估中,一个效应量仅为0.1的标准差改善,若施加于数百万人并持续数十年,其总福利效应可能是天文数字。我坐在那里意识到,Cohen的初衷是提供一种启发式的参照,却被系统性地异化为判决书。我们开始用“小效应量”来轻描淡写地否定一项研究,却不去追问:这个效应量在具体的研究情境、具体的总体中,究竟意味着什么?成本是多少?可推广的范围有多大?将领域特定的基准不加批判地跨领域套用,本身就是一种“效应量忽视”。问题不在于效应量本身的大小,而在于我们是否建立了连接统计量与现实实质意义的“解释链”,而这根链子,在大多数研究中是缺失的。

第四则笔记,写在最近。一些顶级期刊强制要求报告效应量已有数年,我受委托参与审核某领域一批采用新政策的元分析。表面上看,进步显著:p值独大的情况少了,表格里整齐地排列着Cohen's d, Hedges' g, 风险比及其置信区间。然而,当我们深入审视,新的沉默模式出现了。首先,是“选择性报告效应量”:对于主要假设,报告完整的效应量;对于未如预期显著的探索性分析,效应量则悄然缺席。其次,是“区间宽度失语”:一个效应量估计值为0.3,区间为[-0.1, 0.7]。作者在摘要中强调“积极效应”,在讨论中畅想机制,但对区间跨度过大、包含零值与实质性正值的尴尬事实一语带过。最后,是“基准的魔术”:当效应量不符合传统“中/大”基准时,作者会转而寻求“领域内新基准”或强调其“理论意义”,让“小”效应量摆脱污名化的同时,也规避了对其绝对大小的审慎讨论。政策改变了报告的行为,但并未自动赋予我们校准证据的能力。我们得到了更多数字,但并未必然获得更多智慧。新的仪式建立了,而审查的深度,依然取决于研究者心中那杆常常摇晃的秤。

当效应量报告成为标配,我们是否真的知道自己在衡量什么?我们衡量的,或许只是我们愿意看到、并知道如何言说的那部分不确定性。

效应量报告的幻象:当统计显著性与实践意义分道扬镳 · Soulstrix