选择偏误(selection bias)是一个和统计学与流行病学密切相关的基础概念。
先从一个老故事讲起。
二战期间,哥伦比亚大学成立了一个统计小组,其中一个课题是如何给飞机加装装甲。美国军方给小组提供的信息是,在返航的战机中大部分的弹孔出现在机翼和机腹。军方由此要求统计小组给出在这些部位加装装甲所需厚度的具体参数。统计小组拿出了一个让军方意想不到的结论。装甲不应加装在机翼和机腹,相反应当加装在鲜见弹孔的引擎上。原因很简单,那些引擎中弹的战机没能顺利返航。
这个故事常被用来讲解「批判性思维」,这是没有理解到点子上。统计小组之所以能拿出意料之外的精彩方案,是因为他们在拿到数据时,脑子里有根常人不具备的弦响了一下。这根弦就是选择偏误。
好道理大概可以分为两种。一种是知道以后需勤加练习,很久以后终有体悟;另一种很妙,当你知道的那一刻,改变就发生了。选择偏误就是一种属于后者的好道理。《预防医学(第4版)》(人民卫生出版社)中给的定义很准,「由于在选择研究对象方法上的问题,导致研究中入选的研究对象和没有入选的研究对象之间存在系统差异,研究样本不能代表总体,而产生偏倚。」
简单讲,选择偏误是指你手头的数据与你所想获知的真实情景不匹配。例如,你想知道全社会的薪资状况,然后把单位同事的工资全部问了一遍。又或者,你想知道某个明星在大众间的影响力,你去看微博的热搜榜。在第一个例子中,你想知道的是全社会的情况,而你手头的数据只能告诉你本单位的状况。在第二个例子中,你想知道的依然是全社会的情况,而你手头的数据只能告诉你热衷在微博上刷榜的人群状况。
想在生活中应用这个概念,方法有两个。一是,想清楚问题,再找数据(信息)。信息时代让整个社会从人找数据变成了数据找人,其结果是,我们由于被数据淹没而忽视了真实世界的状况。若我们带着问题重新去找数据,得到的将是更精准的世界图景。二是,拿到数据(信息)先看来源。数据分析就好像是人与数据在交流,而交流的第一步是知悉对方来历。当我们了解了数据来源,知道它所包含的人群,对此提出的问题自然就不会超出这个范围,而得出的结论也就更加真切了。