class: center, middle, inverse, title-slide .title[ # 重复研究 ] .subtitle[ ## 社会学研究方法——第12讲 ] .author[ ### 李代 ] .institute[ ### 中国政法大学社会学院 ] .date[ ### 2025-05-15 ] --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 重复研究 ## 重复研究是什么 ## 重复失败的成因 --- # 重复研究是什么 ## 科学(又一次)面对“复制危机” + 不能复制 = 结果可疑 - 2011年心理学家Daryl Bem - 2014年生物学家小保方晴子 - 2016年生物学家韩春雨 - 2018年医学专家Piero Anversa + Ioannidis (2005) 认为在现行的学术出版实践下,大多数得到发表的研究可能都不可复制。 + Begley & Ellis (2012) 指出,医药公司的实验室投入大量资源也只能重复53个关键肿瘤研究中的6个,这类不可重复的情况仅在美国就带来每年280亿美元的损失(Freedman et al.,2015)。 + 2015年,以Nosek为首的大量心理学家[在《科学》期刊上发文指出,2008年在心理学3大顶级期刊发表的100项实验研究中,只有不到半数能得到较好的复制](https://science.sciencemag.org/content/349/6251/aac4716)(Open Science Collaboration 2015)。 --- # 重复研究是什么 ## 什么是重复研究 + “重复研究”/“replication”是一种研究行动 - 按照他人研究声明的步骤重复研究过程,期望得到相同或近似的结果 - 认知基础:因果关系 = 有A必有B <img src="https://tse2-mm.cn.bing.net/th/id/OIP-C.1pJRdQc-fDAXkFTZZxNq9gHaEJ?pid=ImgDet&rs=1" width="40%" style="display: block; margin: auto;" /> + “可重复性” / “replicability” 是研究的一种性质 - 某一研究能被第三方成功复制的可能性 --- # 重复研究是什么 ## 重复研究的类型 + Clemens (2015) 列举了不同学科中几十种重复研究行动的概念,为我们提供了一幅清晰的图景 + Freese & Peterson (2017) 提供的概念框架最适用于社会学的研究实践 - 两个维度:研究过程是否相似、是否使用新数据 - 四个类别:“可验证性”、“稳健性”、“可再现性”、“可推广性” <img src="image/freese1.png" width="80%" style="display: block; margin: auto;" /> --- # 重复研究是什么 ## 重复研究的类型1:可验证性 + 对原有数据进行相似程度较高的重复研究,检验的主要是原研究得出结果的过程中是不是出错了。 + 即便原作者提供了足够的信息让第三方可以复原研究结果,仍然有可能在这一过程里识别出原研究在数据或代码中存在的错误(Herndon et al.,2013;McPherson et al.,2008),从而带来价值。 + 可验证性是重复研究最基础的一层,保证自己的研究可被验证应是学术界的基本共识。学术期刊理应出台合理指导政策、提供实现途径,提高发表研究的透明性,使之可得验证。 + 例如:在github上发表研究所用的代码 <img src="https://res.cloudinary.com/practicaldev/image/fetch/s--Mv2lZxKw--/c_imagga_scale,f_auto,fl_progressive,h_420,q_auto,w_1000/https://thepracticaldev.s3.amazonaws.com/i/a3s1996gbzw2et13nrsn.jpg" width="40%" style="display: block; margin: auto;" /> --- # 重复研究是什么 ## 重复研究的类型2:稳健性 + 对原有数据进行有一定变化的重复研究,检验的主要是原研究结果的稳健性。 + 稳健性的概念读者都不陌生,在同行评议的过程中审稿人往往会提出很多稳健性检验的要求,以判断研究结果不是巧合或者研究者精挑细选出来最有利于自己的结果。 + 如果研究结果对研究者的一些主观决定或外部条件高度敏感,研究结果的可靠性不免大打折扣。 <img src="https://hips.hearstapps.com/esq.h-cdn.co/assets/17/10/1024x512/landscape-1488822455-hughjac.jpg?resize=1200:*" width="60%" style="display: block; margin: auto;" /> --- # 重复研究是什么 ## 重复研究的类型3:可再现性 + 对新数据进行相似程度较高的重复研究,检验的主要是原研究的结果对另一个样本是否成立。 + 这里 Freese & Peterson (2017) 强调新数据应与原数据对应同一个总体。 + 在实验方法中,对再现性进行检验最为容易:重新招募被试、重复原研究的实验设计,观察结果是否有变。 + 对于采用观察数据的研究来说,由于收集数据的周期较长、成本较高,说服读者总体未变更困难。 + 例如,每五年对全国人口进行抽样调查,结果不能重复可能反映的正是总体的变化,社会学可能更倾向于将其归因到可推广性上。这里也存在学科规范的差异:心理学倾向于认为重新招募被试仍然对应着同一个总体,因为他们假设自己研究的是人类行为的本质规律;而社会学对总体的变化更加敏感。 --- # 重复研究是什么 ## 重复研究的类型4:可推广性 + 对新数据进行有一定变化的重复研究,检验的主要是原研究的结果是否能够推广。 + 不言自明的是,如果严格按照科学方法进行抽样,样本反映的也只是其对应的总体情况。但是有些研究者为了彰显自己的贡献,希望把抽样数据反映的情况推广到更大范围的总体上去。 + 例如,对某几个省人口的抽样调查只反映这几个省的情况,但研究者可能会声称由于自己选取的省份较有“典型性”,因而调查结果有“全国代表性”——尽管这并不符合统计学的要求。研究结论到底能不能进行推广,需要由重复研究加以检验。 <img src="https://tse1-mm.cn.bing.net/th/id/OIP-C.oIXgwGQXUEe6dRk6rrqr4wHaE5?pid=ImgDet&rs=1" width="40%" style="display: block; margin: auto;" /> --- # 重复研究是什么 ## 小结:重复研究是什么 + “重复研究”/“replication”是一种研究行动 - 按照他人研究声明的步骤重复研究过程,期望得到相同或近似的结果 - 认知基础:因果关系 = 有A必有B + Freese & Peterson (2017) 提供的概念框架最适用于社会学的研究实践 - 两个维度:研究过程是否相似、是否使用新数据 - 四个类别:“可验证性”、“稳健性”、“可再现性”、“可推广性” --- class: center, middle, inverse <!-- background-image: url("images/cool.png") --> # 重复失败的成因 --- # 重复失败的成因 ## 复制失败的原因 + 有诸多原因可能导致研究不可复制 - 弄虚作假 - 研究者犯了错误 - 研究实施过度向现实妥协,脱离科学方法的要求 - 研究者对研究过程的记录存在缺失、偏差 - 学术出版实践存在弊端 - …… + 因此“学术造假”是“不可复制”的充分不必要条件,不可逆推 --- # 重复失败的成因 ## 技术细节考虑不周 + 原作者没有记录、提供足够充分的信息。 + 原作者进行了手动操作,但操作没有记录下来。例如,如果原作者手动改变了原始数据的某些取值,但是这些操作没有记录、报告给第三方,而提供数据时仅提供了原始数据,则按照原作者提供的数据和代码无法复制研究。 - **不要直接修改数据!** + 如果原作者进行统计分析的算法涉及到伪随机种子,而原作者在写代码的时候没有设定这一参数。如果软件版本变更导致内置伪随机种子序列发生改变,即使原作者也没法重复自己的研究;不把软件版本和种子报告给第三方,第三方也很难重复其研究。对于优化时不一定寻找全局最优的算法——例如主题模型(Roberts et al.,2016),这类问题尤其严重。 + 即便拿到源代码、原数据,也不一定能成功复制研究结果。其中涉及很多技术问题,而非CS专业的人往往意识不到细节的必要性。目前的社会科学生产环境没有考虑到复制研究的需要。 --- # 重复失败的成因 ## 黑p值/p-hacking + 研究者为了得到有统计显著性的结果(p值小于0.05),故意删减数据、调整变量或者重复实验,直到得出满意的结果为止. - p 值是什么? --- # 重复失败的成因 ## 判断真伪 你在进行调查时认为性别因素会对考试成绩产生影响。你随机抽取了男女各20名学生,对考试成绩进行了一个均值的t检验,发现结果显著(t = 2.7, df = 18, p = 0.01)。以下6个问题,请判断正误(没有一个或者全部答案都有可能是对的) 1. 你已经彻底推翻了零假设(总体均值没有差别) 1. 你已经得到了零假设为真的概率 1. 你已经彻底证明了研究假设为真(总体均值存在差异) 1. 你可以推断出研究假设为真的概率 1. 你知道如果拒绝零假设犯错的概率有多大 1. 你的研究发现是可靠的:如果实验重复很多次,99%的时候你都能得到显著的结果。 -- [Gigerenzer (2004)](https://www.researchgate.net/publication/241372934_The_Null_Ritual_What_You_Always_Wanted_to_Know_About_Significance_Testing_but_Were_Afraid_to_Ask) 答对的人: 1. 0/45个学生 1. 4/39个不教统计学的教授或讲师 1. 6/30个教统计学的教授或讲师 --- # 重复失败的成因 ## 根据结果提出假设 + Hypothesizing After the Results are Known,HARKing(Kerr,1998) + 研究者进行多番尝试之后根据有显著性的结果提出研究假设,再把显著性的结果报告出来当作证据。 + 假设检验(Null Hypothesis Statistical Testing, NHST)并非金科玉律,探索性研究同样可能具有重大价值。但有些期刊在评审时过于死板地重视假设检验的形式,对这类不规范的做法有激励效果。 + 问题:作者知道假设检验不对劲,但是不知道同行评议人是不是知道假设检验不对劲 --- # 重复失败的成因 ## 文件抽屉问题 + 即便并不存在相关关系,由于统计抽样的随机性,当抽样次数足够多时必然出现假阳性结果 + 如果学术期刊只发表“显著”的结果,那么会出现过滤效应 + 1个假阳性的结果可能得到发表,19个真阴性结果留在文件抽屉里(Rosenthal,1979) <img src="image/significant2.png" width="100%" style="display: block; margin: auto;" /> --- # 重复失败的成因 ## 不可通约性 + 由于社会语境不同,表面相同的变量在不同社会含义不同。 + 例如:教育程度。由于中国、德国的教育体制大相径庭,即便研究方法不变,使用三国的数据所得的结果可能很不相同。 + 不可通约 `\(\neq\)` 不能比较,只要明确比较的是什么 <img src="https://wenr.wes.org/wp-content/uploads/2016/11/WENR-1116-Country-Profile-Germany-new.png " width="50%" style="display: block; margin: auto;" /> --- # 重复失败的成因 ## 妥协过度 + 抽样调查等重要环节的实施很多时候不够科学 + 一旦抽样方案掺杂了人为因素,抽样调查数据的效力就不再严格地受到数学公理的保护,这时获得的数据就不一定能得到对总体的无偏估计。 + 例如:Watts (2014) 批评 Brand & Xie (2010) - Brand & Xie (2010)选用了两个大型调查数据互为重复研究。 - 在数据a中男性表现明显符合预期,女性趋势符合预期但幅度太小;在数据b女性表现明显符合预期,男性趋势符合预期但幅度太小 - Brand & Xie (2010) 认为两个数据互项补充印证,说明研究结论比较可靠 - Watts (2014) 认为两个数据中的不一致表现互相抵消,说明原文结论过于夸张 --- # 重复失败的成因 ## 小结 + 数据分析涉及很多技术问题,往往遭到忽视 + 个人学术实践/学术界的生产实践都可能导致不可重复的结果 + p值/假设检验有很大问题 + 跨国比较不能随便搞 + 严格抽样才受统计规律的保护 李代,2023,《社会科学定量研究中的“复现危机”与重复研究——提高研究可复现性的创新实践经验及其对中国社会学的启发》,《北大社会学刊》,第1辑。 [点我获取。](lidai.pdf)