如果一半论文是‘假的’,你辛苦引用的文献还靠谱吗?Nature重磅:半数研究不可重复!

张开发
2026/4/9 12:57:29 15 分钟阅读

分享文章

如果一半论文是‘假的’,你辛苦引用的文献还靠谱吗?Nature重磅:半数研究不可重复!
如果有一天你发现一半的科学研究结果可能是“不可重复”的你还会像过去那样相信论文吗发表在《Nature》上的两项大型研究结果表明约50%的已发表研究经不起重复验证。第一项研究——社科领域2026年4月1日一项名为SCORE开放研究与证据信心系统化的项目结果在《Nature》上发表。该项目由865位研究人员耗时7年完成对经济学、教育学、心理学、社会学等领域62本期刊上的3900篇论文进行了复现测试。SCORE从多个维度检验了已发表研究的可信度结论非常直接只有大约一半的研究结果可以被成功复现。以下是最核心的三组数据1.可重复性——从头收集数据、重新做一遍实验能否得到相同结论研究者从2009–2018年间发表的164篇论文中提取了274项宣称有统计学显著正向结果的假设进行独立复制。这是最严苛、最耗时的测试。结果发现在164项研究中只有49%能在统计学意义上被成功重复。2.可重现性——用原始数据、完全相同的分析方法能否得出完全一致的结论在600篇论文中只有145篇提供了足够细节可供重现。而这145篇里仅53%能实现精确匹配。3.稳健性——采用替代但合理的分析方法结论是否依然成立在100篇受检论文中约四分之三通过测试。但仍有2%出现了与原结论完全相反的结果——这被认为“令人担忧”。第二项研究实际上早在2025年4月巴西56个实验室的213位研究人员就从1998–2017年发表的生物医学论文中随机抽样最终对47项实验完成了97次有效重复尝试。他们选取了三种最常用的实验方法细胞代谢检测基因扩增技术动物迷宫行为实验结果是在最严格标准下仅21%的实验可以被成功复现。原始论文报告的效应量平均比重复实验高出60% ——大量已发表结果夸大了真实效果。这么多论文无法复现是造假吗这两篇研究都给出了更复杂的答案并不是单纯的数据造假。首先是很多论文的方法不透明包括数据缺失、代码未公开、实验步骤不完整等导致别人“根本无法复现”。SCORE项目的实证结果清晰地指向一个结论要求共享数据和代码的期刊论文的可重现性显著更高。其次是作者们基于“发表或淘汰”的压力不发论文就没有职业发展于是大家倾向于发表有“显著结果”的文章忽略失败实验甚至是放大效果。实验本身具有不确定性。尤其是在生物医学领域一些实验样本比如小鼠、细胞对环境极其敏感实验的条件与环境难以完全复制有些实验结果天然会波动等。对于期刊而言一些审稿的编辑更关注创新性数据的可验证性并不是重点甚至会要求作者简化部分方法的描述这就导致研究人员在看到论文后无法复现。自动化可信度评分系统对研究人员尤其是正在攻读硕博学位的学生来说最需要改变的一个观念是已发表的论文≠结论一篇论文只是拼图的一块。面对“可重复性危机”科学界并没有停滞不前而是在主动修补自身的漏洞。一套新的研究范式正在逐步成型。推动“开放科学”部分期刊强制研究人员公开原始数据和统计分析代码R / Python / SPSS等进行预注册实验即在实验开始前公开研究问题、方法和统计标准避免出现“结果看起来显著实际是事后调整出来的”等情况。引用新工具判断论文质量这也是SCORE项目要做的。SCORE项目已获得美国国防高级研究计划局DARPA 资助目的不仅仅是揭示一个问题其最终目标是建立自动化置信度评分系统让读者一眼看出某篇论文的可信度。如何实现SCORE项目通过创建约30,000篇论文的数据库交由专家团队进行人为评估再由AI分析专家打分过程开发算法自动完成同样的预测任务团队对其中部分论文进行实际重复实验验证算法的预测准确性。早期的AI模型表现不如随机猜测第二轮比赛中最佳模型准确率提升至68.5%但仍未达到实用标准。SCORE项目负责人、开放科学中心执行主任布莱恩·诺塞克坦言“我们还没达到目标。模型确实接收到了一些信号但要独立使用精度还需要大幅提高。”但这仅仅只是第一步未来随着更先进的AI模型被开发、更丰富的数据被积累科学研究的“信用评分系统”或许终将从愿景变为现实。写在最后科学之所以值得信赖不是因为它从不犯错而是因为它允许被质疑、被检验、被修正。对任何一篇论文保持适度的怀疑不是对科学的不尊重而是对科学最大的尊重。

更多文章