从前,有一个星球。最初,它荒芜人烟,满是牛鬼蛇神。不知道从哪一天开始,星球上出现一些极具好奇心又不怕死的人。因为好奇,因为想解答心中那些挥之不去的疑问,他们开始冒天下之大不韪——撕破谎言,搞破坏,提出离经叛道的想法,自己试验和批评这些想法……渐渐地,这群好奇宝宝越来越多,赶跑了一批牛鬼蛇神,把星球建设地强大而富足。这个星球,就是科学星球。
因为科学星球的繁盛,吸引了不少移民。可是很多人都被拒绝了。也有一些人伪装成星球的居民混进去,但是很快就会暴露身份。黑市中开始流传各种消息,出售可以蒙混过关的假证件。其实,在信息公开透明的科学星球,有厚厚的一本移民指南,但是大家都看不懂。在外来移民的呼吁之下,星球发行了一批入场券,帮助大家准备移居。现在,我们来介绍其中备受欢迎的一张:双盲实验。
什么是双盲实验
A blind — or blinded — experiment is an experiment in which information about the test is masked (kept) from the participant, to reduce or eliminate bias, until after a trial outcome is known. If both tester and subject are blinded, the trial is called a double-blind experiment.
– Blind experiment - Wikipedia
双盲是科学方法的一种,目的是避免研究结果受安慰剂效应或观察者偏向所影响。双盲 - 维基百科
在科学实验中,设计良好的实验一般会有两个相互比较的组别:
- 试验组:接受某种待验证的试验(如某种药物治疗)方案
- 对照组:除了待验证的变量以外,其他变量都与实验组相同
双盲试验中:
- 被试者不知道自己属于实验组还是对照组
- 试验者不知道哪一组是试验组,哪一组是对照组
双盲实验为什么重要
双盲实验的设计,目的是尽量规避人的认知偏差。即便在最严谨的科学实验中,研究结果常常会受到诸如安慰剂效应或观察者期望效应的影响。
安慰剂效应(placebo effect),指病人虽然获得无效的治疗,但却“预料”或“相信”治疗有效,而让病患症状得到舒缓的现象。安慰剂效应于1955年由 Henry K. Beecher 提出,亦理解为“非特定效应”(non-specific effects)或受试者期望效应(subject-expectancy effect)。
观察者期望效应是认知偏差的一种。在科学实验中,由于观察者预期某些测试结果,于是无意识地以某种形式操纵了实验步骤,或错误解释实验结果以达至他们希望得到的结论。观察者期望效应能严重歪曲实验结果。
如果科学实验一直受认知偏差的影响,无法突破原有的认知边界,实验结果就无法起到拓展知识、变革现状的作用。从这个意义上讲,双盲实验是保证科学实验结果有效性的一套机制,也是激励科学实验自我优化和革新的一种推动剂。
Edge.org 网站每年都会提出一个 Big question,激发知识界的集体思维碰撞。 2011 的年度问题是 :
What Scientific Concept Would Improve Everybody’s Ccgnitive Toolkit?
进化生物学家,科普作家,「自私的基因」一书作者道金斯的回答是:双盲实验。他认为,如果民众缺乏独立思考的训练,容易被个人观点、偏见、奇闻异事所影响,而不是去寻找确凿的证据。如果掌握双盲实验的原理,即便不去实施真正的双盲实验,也能在以下方面提高个人的独立思考能力和判断:
- 我们不会期望从奇闻异事中得出严肃结论
- 我们将学会评估,一个重要的结论有多大可能性只是产生于偶然
- 我们会知道消除主观偏见有多么困难,而且它并不意味着不诚实或任何形式的静默。它让人们不再迷信权威和个人
- 我们将学会看穿顺势疗法和其他江湖郎中的把戏
- 我们将更全面地学习批判性思维习惯,这不仅将改善我们的认知工具包,而且可能拯救世界
如何用双盲实验改进思维习惯?
阳志平老师在 「好思想,坏思想」系列中一再强调,好思想的首要判断标准是证据。最有力的证据来自设计良好的实验,而双盲实验就是最好的实验设计(之一)。
在区分「事实」和「观点」时,只要拿出双盲实验的标准一对照,就能发现绝大部分的「结论」、「研究」其实经不起推敲,很难判断研究者的认知偏差是否影响了研究结果。比如当看到一个数据时
保健品 X 令 45% 的使用者改善了睡眠质量
我们可以提出「数据五问」:
- 一问关键概念:使用了哪些关键概念,如「使用者」,「改善」,「睡眠质量」,都是如何定义的?
- 二问关键指标:如何定义和衡量,如「改善睡眠质量」?
- 三问效用范围:
时-空-人
三个维度 —— 多长时间范围内有效,是否受地域限制,适用于哪些人群? - 四问数据来源:是一手实验所得,还是二手数据,甚至出处不明?
- 五问实验过程:如何设计的?如何取样的?是否有对照组?是否双盲?结果是否进行了统计检验?是否有类似实验佐证了结果?
补充材料:Simposon’s Paradox
分组和取样是双盲实验中关键的步骤。但是在这些步骤中很容易产生偏差,Simposon’s Paradox 就是其中的一种。
Simpson’s paradox, or the Yule–Simpson effect, is a paradox in probability and statistics, in which a trend appears in different groups of data but disappears or reverses when these groups are combined. It is sometimes given the descriptive title reversal paradox or amalgamation paradox. ——Simpson’s paradox - Wikipedia
当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。——辛普森悖论 - 维基百科,自由的百科全书
比如公司 A 和公司 B 都生产同一类药物。公司 A 的药物,在两组测试中分别得到 70% 和 40% 的有效性,公司 B 的药物则是 80% 和 50%。乍看之下,公司 B 在两轮中都胜出,但是实际上,公司 A 的有效总人数更多。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。
下面两张图片可以更直观地看到分组取样和整体取样对结果的影响: