效应量报告的幻象：当统计显著性与实践意义分道扬镳

One-line summary

2015年RPP项目揭示半数显著结果无法复现，效应量平均减半

第一则笔记，记录的是2015年。那时我还在反复修改一篇关于工具变量稳健性的论文。同行评审的意见很尖锐，要求补充效应量及其置信区间的报告，并引用Open Science Collaboration的《可重复性项目》(RPP)。我放下笔，仔细读了那篇发表于《科学》的文章。他们系统性地尝试复制了100项心理学研究，结果是：只有大约39%的复现研究在统计上显著，原始显著的效应量中位数在复现中收缩了约一半。这不是一个模糊的印象，而是一张清晰的断层扫描图：许多曾经被认为稳固的发现，其基础如此稀薄，以至于重复施加一点点测量的压力就塌陷了。最让我脊背发凉的，不是那50%无法复现的比例，而是效应量收缩这个事实。它暗示着一种系统性偏差：最初被发表的，很可能是那些因随机误差而被向上高估了的效应。如果只看p值是否小于0.05，我们只能看到一个“死”或“活”的二值世界；但效应量的萎缩，揭示的是一场缓慢的“脱水”过程，证据的内在重量正在流失。RPP项目本身，就是一次对“发表偏倚”的效应量大小的残酷测量。

第二则笔记，写于一年后。美国统计协会（ASA）发布了关于p值使用的声明，引起了轩然大波。声明强调，科学结论不应仅基于p值是否通过某个阈值，并建议应提供效应量及其置信区间。一时间，期刊的投稿指南纷纷更新，仿佛找到了新的药方。然而，我与几位编委私下交流，他们苦笑着告诉我，收到的稿件确实开始在表格末尾增加一行“效应量(95% CI)”，但评审的焦点和作者的讨论，依然顽固地围绕着“显著”与“不显著”打转。那个置信区间，像一个被礼貌性展示、却无人真正审视的附件。问题在于，我们训练了整整一代研究者去追逐一个二分法的幽灵（p < 0.05），现在突然要求他们去理解和诠释一个连续体（效应量）及其不确定性范围（置信区间），这无异于要求一个人用新的语法去思考。更关键的是，当效应量及其区间被报告出来，我们是否有公认的准则去评估它？一个治疗抑郁症的新方法，效应量d=0.2，95% CI [0.05, 0.35]，这算“小”还是“有临床意义”？如果区间下限接近零，但整个区间都在“积极”方向，我们该欢呼还是该警惕？ASA声明打开了门，但我们大多数人还站在门槛上，不知如何迈步。

第三则笔记，是关于“小”这个词的争议。Jacob Cohen在1988年为心理学提出的效应量基准（d=0.2为小，0.5为中，0.8为大）被奉为圭臬，却又被广泛误用。在一次跨学科研讨会上，一位微生物学家拍着桌子说：“在我们领域，一个基因表达量变化20%（对应某种标准化的效应量可能很小）可能就是生死攸关的！你们心理学定义的‘小’，对我们毫无意义。” 另一位经济学家则冷静地指出，在政策评估中，一个效应量仅为0.1的标准差改善，若施加于数百万人并持续数十年，其总福利效应可能是天文数字。我坐在那里意识到，Cohen的初衷是提供一种启发式的参照，却被系统性地异化为判决书。我们开始用“小效应量”来轻描淡写地否定一项研究，却不去追问：这个效应量在具体的研究情境、具体的总体中，究竟意味着什么？成本是多少？可推广的范围有多大？将领域特定的基准不加批判地跨领域套用，本身就是一种“效应量忽视”。问题不在于效应量本身的大小，而在于我们是否建立了连接统计量与现实实质意义的“解释链”，而这根链子，在大多数研究中是缺失的。

第四则笔记，写在最近。一些顶级期刊强制要求报告效应量已有数年，我受委托参与审核某领域一批采用新政策的元分析。表面上看，进步显著：p值独大的情况少了，表格里整齐地排列着Cohen's d, Hedges' g, 风险比及其置信区间。然而，当我们深入审视，新的沉默模式出现了。首先，是“选择性报告效应量”：对于主要假设，报告完整的效应量；对于未如预期显著的探索性分析，效应量则悄然缺席。其次，是“区间宽度失语”：一个效应量估计值为0.3，区间为[-0.1, 0.7]。作者在摘要中强调“积极效应”，在讨论中畅想机制，但对区间跨度过大、包含零值与实质性正值的尴尬事实一语带过。最后，是“基准的魔术”：当效应量不符合传统“中/大”基准时，作者会转而寻求“领域内新基准”或强调其“理论意义”，让“小”效应量摆脱污名化的同时，也规避了对其绝对大小的审慎讨论。政策改变了报告的行为，但并未自动赋予我们校准证据的能力。我们得到了更多数字，但并未必然获得更多智慧。新的仪式建立了，而审查的深度，依然取决于研究者心中那杆常常摇晃的秤。

当效应量报告成为标配，我们是否真的知道自己在衡量什么？我们衡量的，或许只是我们愿意看到、并知道如何言说的那部分不确定性。