讲给医学生的统计学:绪论

这门课不从公式开始,也不从定义开始。我们从一个你将来一定会遇到的临床场景开始。

假设你是一名妇科医生。你所在地区乳腺癌的患病率为1%。你手上有一种乳腺X线筛查工具,它的灵敏度是90%,即一个真正患病的人有90%的概率被检出阳性;与此同时,它的假阳性率是9%,即一个完全健康的人仍有9%的概率被误检为阳性。现在,一位40岁的女性来找你做筛查,结果显示阳性。

她真正患有乳腺癌的概率是多少?四个选项:A大约90%,B大约81%,C大约50%,D大约10%。请你凭直觉选一个。

我在课堂上做过这个测试。绝大多数同学选了A或B,也就是90%和81%。选C的有一部分人,觉得差不多五五开。选B的呢?整堂课没有一个人。

但答案就是D,大约10%。

你可能觉得这不可能。灵敏度都90%了,结果又是阳性,怎么真正患病的概率才10%?把它拆开来算就清楚了。假设有1000名女性来做筛查。按照1%的患病率,其中有10人真正患病,990人健康。10个患病者中有9人被检出阳性(灵敏度90%)。990个健康者中有89人被误检为阳性(假阳性率9%)。检出阳性的总人数是9加89等于98人。98人中真正有病的只有9个。因此一个阳性女性真正患乳腺癌的概率是9/98,约等于9.2%。换句话说,阳性结果中将近90%是假阳性。

这道题拆开来看,高中数学就能解决。但它和你的直觉完全相反。人的直觉就是不可靠的,不可靠到这种程度。

不只是你。Gerd Gigerenzer是德国马克斯·普朗克研究所的认知心理学家,他在2007年发表的综述(Psychological Science in the Public Interest, 2007;8(2):53–96)中报告了一项研究:在德国继续教育课程中,160名妇科医生被问了完全相同的题目,条件一致(1%患病率、90%灵敏度、9%假阳性率)。只有大约21%的医生选对了,将近80%答错了,而最常见的错误答案也是90%和81%。

想一想这意味着什么。如果你将来拿到一个阳性筛查结果,凭直觉告诉患者「你很可能患癌了」,这个结论大概率是错误的。她真正患癌的概率不到十分之一。这不是你数学差,这是你缺少统计思维。而这种统计思维,恰恰是这门课要培养的核心能力。

陷阱一:相对风险与绝对风险

乳腺癌筛查只是第一个例子。在你将来的日常工作和公共讨论中,类似的统计陷阱到处都是。它们有一个共同特点:所有人都在报告真实的数据和正确的数字,但你却会从中得出完全错误的结论。

假设你看到一个制药公司的宣传语:「我们的药物使心脏病风险降低了50%!」50%是一个很大的数字,对吧?

他报告的是相对风险降低(Relative Risk Reduction, RRR)。安慰剂组的发病率是2%,药物组的发病率是1%,相对降低就是(2%−1%)/2% = 50%。数学完全正确。但换一个角度看,绝对风险降低(Absolute Risk Reduction, ARR)只是2%−1% = 1%,一个百分点而已。再进一步算NNT(Number Needed to Treat,需治疗人数):NNT = 1/0.01 = 100,意味着你需要用这个新药治疗100个人,才能额外预防1例心脏病。

制药公司没有撒谎。但如果你只看那个50%,给所有患者都开了这个昂贵的药物,这个医疗决策很可能是不划算的。在整个过程中,所有人都报告了最真实的结果,却可能误导你做出最不明智的判断。

陷阱二:五年生存率的两种偏倚

2007年,时任纽约市长的朱利安尼(Giuliani)在竞选美国总统时播出了一则广播广告:「在美国,前列腺癌五年生存率是82%;在英国社会化医疗体制下只有44%。」言下之意是美国的医疗制度更好。

82%和44%之间的差距看起来巨大。但即便这个差异是真的,它也不能说明美国的治疗水平高于英国。原因至少有两个。

第一个叫做领先时间偏倚(Lead-time Bias)。美国的PSA筛查远比英国普遍,患者更早确诊。然而更早确诊并不等于活得更久,它只是把「知道自己有病」的起点提前了。设想一个人实际从60岁开始就患有前列腺癌。美国的筛查在他61岁时就检出了,从确诊算起他「存活」了五年。英国的检查在他64岁才发现他,从确诊算起他只「存活」了两年。但从患病到死亡的实际时间没有任何改变。他不是多活了,他只是多知道了。而对于很多在筛查之前没有任何症状的癌症,你根本无法确定患者究竟是什么时候开始得的病。

第二个叫做过度诊断偏倚(Overdiagnosis Bias)。筛查做得越普遍,就越容易发现大量惰性肿瘤,即那些生长极其缓慢、终生不会致死的肿瘤。这些人本来就不会死于前列腺癌,但他们全部被计入了「五年生存者」之中,人为地抬高了数字。

那真正有可比性的指标是什么?年龄调整后的前列腺癌死亡率。当时美英两国的这一指标几乎相同:美国约每十万人15.8例,英国约17.9例。换了指标之后差距几乎消失。这个例子告诉你:选用的指标不同、分析的角度不同,得到的结论可能截然相反。

陷阱三:Simpson悖论

1973年,加州大学伯克利分校研究生院被起诉性别歧视。在12763份申请中,男性录取率为44.5%,女性只有30.4%,差了14个百分点。统计学家Peter Bickel受邀调查。

他做了一件很简单的事:把每个系单独拎出来看。结果六个最大的系中,有四个系的女性录取率反而高于男性。A系男性62%、女性82%,女性高出20个百分点;B系男性63%、女性68%,还是女性高。

那为什么合并之后男性录取率反而更高呢?因为女性倾向于申请竞争激烈、录取率低的系(如C系,593名女性申请,总录取率仅34%),男性倾向于申请录取率高的系(如A系,825名男性申请,总录取率超过60%)。合并数据后,低录取率系中女性占多数、高录取率系中男性占多数,就制造了男性更容易被录取的假象。

这就是Simpson悖论:一个混杂变量(在这里是系的选择)掩盖了真实关系,甚至让你看到完全相反的结论。Bickel等人将这一分析发表在1975年的《Science》上(187(4175):398–404),判例最终认定学校不存在系统性歧视。如果你将来做数据分析,请记住这个教训:合并数据之前,必须先排除混杂因素。

陷阱四:虚假相关

2012年,《新英格兰医学杂志》刊发了一篇短文(Messerli, NEJM, 2012;367(16):1562–1564)。心血管病学家Franz Messerli分析了23个国家的数据,发现各国人均巧克力消费量与诺贝尔奖获得者数量之间存在强正相关,Pearson相关系数r = 0.791,P < 0.0001。散点图上几乎是完美的线性关系,瑞士排名第一。

吃巧克力能拿诺贝尔奖吗?当然不是。这篇论文是NEJM有意刊发的教学讽刺。Messerli在利益声明中写道他本人每天食用巧克力,主要但不限于Lindt的黑巧克力品种。

真正的问题在于:巧克力消费量和诺贝尔奖数量都与第三个变量高度相关,即国家的经济发展水平。经济发达的国家消费能力高,巧克力卖得多;经济发达的国家科研投入大,几十年后结出诺贝尔奖的果实(这里还存在滞后效应,可能是30年前的GDP水平决定了今天的获奖人数)。两个变量的高度相关实际上是由共同的混杂因素造成的伪关联。

相关关系不等于因果关系。即使P值再小、相关系数再高,也不能证明因果。鸡叫和太阳升起高度相关,但太阳不是鸡叫起来的。这个概念你在后面的课程中会一再遇到。

陷阱五:患病率决定阳性预测值

最后一个陷阱把我们带回开头的贝叶斯思维,但换了一个你更可能遇到的场景。假设你在门诊,有患者拿着一个阳性的抗原快检结果来问你:「医生,我感染了吗?这个测试准确率99%!」你该怎么回答他?

答案取决于一个他可能根本没想到的因素:当前的疾病流行阶段。

如果处于疫情高峰期,患病率10%。1000人中100人感染、900人未感染。99个真阳性加上约9个假阳性,共108个阳性结果中99个是真的,PPV ≈ 91.7%。阳性几乎就是确诊。

但如果处于疫情低谷期,患病率降至0.1%呢?1000人中只有1人感染。1个真阳性加上约10个假阳性,共11个阳性中只有1个是真的,PPV ≈ 9.1%。阳性结果中90%是假的。

同一个试剂盒,同样标注着「准确率99%」,只因为流行阶段不同,阳性结果的含义就天差地别。这也是罕见病特别难以筛查的核心原因:即使检测方法的灵敏度和特异度都很高,在极低的患病率下,假阳性信号依然远多于真信号。这背后的原理叫做贝叶斯思维,也正是开头乳腺癌筛查题所依据的推理方式。

两种统计思维:频率学派与贝叶斯学派

既然提到了贝叶斯思维,你有必要了解统计学中两种最根本的思维方式:频率学派(Frequentist)和贝叶斯学派(Bayesian)。它们对「概率」的理解方式是根本不同的。很多课本会把这个差异表述为对数据理解的不同,但往深处想一步,它实际上是一个世界观的问题。

频率学派认为世界的规律是不可知的,你只能通过观察现象来逐步了解规律。比如扔硬币,你扔100次,大约50次正面50次反面;扔1000次,数据上下浮动但逐渐稳定。于是你推导出正面和反面出现的概率各约50%。之所以叫「频率学派」,是因为它通过实验中观测到的频率来推测事件发生的概率。

贝叶斯学派的起点不同。它认为你对世界可以有一个先验的预设或判断。比如你先假设正面朝上的概率是1/3、反面是2/3,然后做实验。做了3次,出现1次正面、2次反面,和预设吻合,于是你更加确信。但如果接下来连续出现3次正面呢?你就需要修正预设,上调正面出现的概率。随着实验数据不断累积,你的估计会逐渐逼近真实值。

两种思维方式各有优缺。频率学派计算相对简单,入门课程几乎都以它为基础。贝叶斯学派更复杂,但它有一种独特的优雅:它承认你对世界的认识永远不完美,同时提供了一套通过不断积累证据来改进认识的方法。这门课基本讲频率学派的内容,偶尔接触贝叶斯思想。在你的职业生涯中你会发现,当代统计学家很少只归属某一个学派,两种方法经常在同一个项目中共同使用。

五个陷阱背后的教训

回顾前面讲过的五个问题:乳腺癌筛查中的阳性预测值、药物广告中50%的相对风险降低、前列腺癌五年生存率中的偏倚、巧克力与诺贝尔奖的虚假相关、COVID快检中患病率对PPV的决定性影响。这些不是偶然的个例,而是缺乏统计素养所导致的系统性后果。好消息是,学完这门课,你能避开其中的大部分。

Windish等人2007年发表在JAMA上的研究(298(9):1010–1022)调查了277名美国内科住院医师的统计学知识,平均分仅41.4%。87.4%的人能正确说出双盲法的目的,但能正确理解Kaplan-Meier生存曲线的仅有10.5%。更让人不安的是,资深住院医师的得分反而低于低年资住院医师,说明统计知识在缺乏强化的情况下会迅速衰退。然而95%的受访者都认为统计学对临床实践很重要。

因此,这门课的目标不是让你成为统计学家,而是让你具备三种能力。第一是读懂论文中的统计结果:你将来读的临床论文,核心呈现全是OR值、HR值、生存曲线、置信区间这些东西。第二是与患者正确沟通风险:如果你不懂贝叶斯思维,你可能会告诉一个只有10%概率患病的人说她很可能患癌。第三是识别虚假或误导性的证据:那个50%的药物广告完全没有撒谎,但它的呈现方式可能引导你做出错误决策。

请把这门课看成一门临床素养课,而不是一门数学课。

你将面对的新挑战

在你漫长的职业生涯中,有一些趋势性的挑战正在发生。

疾病谱正在从急性传染病向慢性病转变。慢性病之间往往存在复杂的交互作用,比如高血压、高血脂、高血糖之间有明确的因果关联,这种多因素交互是过去单一病因时代你不曾遇到的分析挑战。学科交叉在加深:群体药代动力学、代谢组学建模、虚拟细胞仿真等方向要求你同时理解微观分子层面和宏观人群层面的分析。组学革命带来了高维数据问题:GWAS需要同时检测数百万个遗传变异位点,显著性阈值必须严格到P < 5×10⁻⁸。真实世界数据(电子手环、24小时血糖监测仪、电子健康记录)正在改变临床数据的形态。截至2025年,美国FDA已批准超过1300个AI/ML医疗器械,但仅约5%经过前瞻性验证。可重复性危机(选择性报告、学术造假)正在污染学术共同体的成果池,如果这些有问题的成果被AI用作训练数据再给你做临床决策建议,后果不堪设想。

这些挑战不是遥远的未来,而是你正在步入的现实。


这门课到底学什么

统计学与医学统计学的定义

韦氏词典将统计学定义为一门关于数据的收集、分析、解读和呈现的科学(a science dealing with the collection, analysis, interpretation, and presentation of masses of data)。核心研究对象是数据。课本上对医学统计学的定义更具体:以概率论和数理统计学为基本原理,研究生物医学领域中数据的收集、整理、分析与解释,揭示因果联系、探索客观规律的学科。

Statistics这个词有一段有趣的词源。它源自拉丁语statisticum collegium(国会)和意大利语statista(政治家),最初的含义是「治国术」,即通过对人口、土地和财富的定量描述来为统治者提供管理依据。从几千年前巴比伦的人口普查到今天的临床数据库,统计学对人的理解始终是切片式的:每个人在数据中被还原为一组可测量的特征值。你的年龄是一个数字,你的血型是一个分类,你的身高体重是一组测量数据。

统计工作的四个步骤

第一步是研究设计,分为专业设计与统计设计两部分。专业设计是指建立假设、确定研究对象和观察指标,这部分由你的领域知识(domain knowledge)决定。我在做生物统计咨询时经常遇到这样的情况:临床医生带着一个方向来找我,说想做一个统计分析,但问他具体的科学问题是什么、对象和指标是什么,他自己还没想清楚。统计工具是有边界的:面对一个明确的问题,我有若干种方法帮你解决;但如果问题本身没有提好,再精良的工具也无济于事。真正的好问题来自临床实践的一线观察。你在临床中用标准化指南治疗患者,发现有些人效果特别好、有些人效果特别差,把这种观察提炼出来并给出一个假设,才是专业设计的核心。统计设计则包括抽样方法的选择、样本量的估算以及随机分配方案的制定。

第二步是资料收集。基本要求是准确、及时、完整、规范。这四个字看起来空泛,但在实际操作中极其关键。我在纽约哥伦比亚大学医学中心工作时,曾收到一套癌症登记中心的数据,发现不少患者的BMI值超过了100。BMI是系统根据身高体重自动算的,正常人不可能超过100,说明原始数据有严重错误。追溯录入流程后发现,按规定数据应当每天录入上传,但负责的人大约一周才报一次。一周积压之后很多患者已出院,身高信息查不到了,录入人员便随手填了个数字。结果整个数据库中与身高体重相关的字段几乎全部不可用。你要记住:资料收集越原始、越及时、越完整,你后续分析就越省力、越可靠。

第三步是资料整理,即对数据进行系统化、条理化的处理,包括质量审核和分组归类。

第四步是资料分析,也是这门课的核心。资料分析分为两大支柱:统计描述和统计推断。统计描述是用图、表和指标来呈现数据,比如报告你们班男生的平均身高、中位数、标准差,或者画一张身高分布图。统计推断则是在描述的基础上做判断和预测,比如判断「你们班男生是否真的比女生高」,解决这类问题的方法就是假设检验。

先描述、后推断,这个顺序其实符合你认识任何事物的规律:先了解它是什么样的,再预测它会怎样变化。在统计学的历史上也是如此:人类在四千年前就开始做描述性的计数了,但统计推断的思想直到17世纪才真正诞生。

研究设计的类型

研究设计分为实验性研究和观察性研究两大类。

实验性研究包括动物实验、临床对照试验和随机对照试验(Randomized Controlled Trial, RCT)。其中证据价值最高的是RCT。值得注意的是,RCT是临床试验的一种特殊形式。广义的临床对照试验不要求严格的随机化,分组可以基于患者自身的意愿:年轻人倾向于激进的手术治疗,老年人可能选择保守方案,你不能强制一个不愿手术的老人上手术台。这种基于意愿的分组可能受到求生意志、心理状态等因素的干扰,证据强度较弱。RCT要求分组完全由随机数决定,不受任何人的意愿左右,因此能够最大程度地消除混杂偏倚,提供因果推断的最高等级证据。

观察性研究则是研究者仅观察和记录,不对受试者施加任何干预,包括横断面研究、病例对照研究和队列研究。

反事实推理:所有实验设计的思想根基

所有临床研究的深层思维基础,是试图建立因果关系。而因果推断最理想的思想框架叫做反事实推理(Counterfactual Reasoning)。

设想你是一个患者,面前有一种新药。最理想的实验是什么?在这个宇宙中,你吃了药、活了;同时在一个一模一样的平行宇宙中,同一个你没有吃药、死了。如果你能同时观察到这两个结果,就能确凿地知道这个药有效。

这是最强的因果证据,但在现实中做不到。你只能选择吃或者不吃,选了一条路就走不了另一条。先不吃药、过几天再吃行不行?也不行,因为时间变了、病情变了,你永远回不到原来那个时刻。

那怎么办?虽然世界上没有两个「你」,但有两群彼此非常相似的人。让一群人吃药、另一群人不吃药。两群人内部各有差异,但差异可以相互抵消。一组有个A型血70岁的人,另一组有个B型血70岁的人,在年龄上就平衡了;反过来也有类似的配对在血型上取得平衡。当样本量足够大时,两群人之间的各种基线特征趋于均衡,从每群人中抽象出的「代表性的人」,就近似于那个平行宇宙中的「你」。

因此,所有的实验设计本质上都是在不同程度地模拟那个平行宇宙。同卵双胞胎研究(两人遗传背景几乎完全一致,其中一个患病另一个未患病)是天然的高度逼近。我以前参与过一个关于神经母细胞瘤的研究,就是在同卵双胞胎中一个孩子得了这种肿瘤而另一个没有,配对极其罕见但科学价值极高。眼科研究中一只眼做手术、另一只不做的自身对照设计也是一种逼近。你将来评判一个实验设计的优劣,核心标准就是它在多大程度上能模拟那个理想的平行宇宙情境。

课程路线图

本章(绪论)阐述统计学的意义和基本概念。第二至第四章讲描述性统计,你将学会用图、表和指标来翻译数据。第五至第六章讲概率与分布,你将理解为什么阳性筛查结果不等于确诊。第七至第九章讲假设检验(t检验、卡方检验、方差分析),你将学会判断两组或多组之间是否存在差别。第十至第十二章讲相关与回归,你将理解危险因素和预测模型,以线性回归为主。

成绩构成为:出勤10%、作业20%、期末70%。


统计学的语言:基本概念

接下来的这些概念看起来简单,但它们会贯穿这门课的始终。学数学时流传过一个段子:小学的时候数学都学得很好,后来上了高中低头捡了一下橡皮,从此数学就跟自己没了缘分。这一节就是那块橡皮所在的位置。

变量与变量值

统计学的研究对象是数据,而数据的载体是变量。变量(variable)指的是研究对象某项特征的观察和测量项目。什么东西构成变量,取决于你的研究关注什么。统计学从词源上就带有「治国术」的烙印,它对人的认识是切片式的:每个人虽然独一无二,但在统计分析中只呈现为若干可被量化的特征。年龄、性别、血型、是否患病、身高、体重、各种临床指标,这些都是变量。你去医院的时候,医生不会问你最喜欢玩什么游戏,因为那不是他需要测量的变量。

变量值则是变量的具体测得值。「年龄」是变量,某人今年7岁、另一人37岁,这里的7和37就是变量值。变量是项目,变量值是项目下的具体数据。

三种资料类型

根据变量值的性质,数据可分为三类。

计量资料(定量资料)的特点是数值大小能够衡量水平的高低,通常有单位,包括连续型和离散型两种。身高、血压、红细胞计数都属此类。关于某个变量究竟算连续型还是离散型,取决于你的研究精度。面对全人群时,年龄在0到100岁之间是连续变量;但如果你专门研究12到18岁青少年的神经发育,按整岁分组来观察每个年龄段的特征,那年龄就被当作离散变量来处理。

计数资料(定性资料)是按性质或特征进行分类计数的,各类之间互不相容且没有顺序。最常见的例子是血型(A、B、AB、O)和性别。关于「性别」这个变量需要补充说明:英文中有sex和gender两个词,gender涉及社会认同层面的多元身份,而在医学研究中我们通常讨论的是sex at birth(出生时的生物学性别),即男女两类,属于二分类变量。

等级资料(有序资料)介于两者之间。各组之间有程度上的递进关系,但相邻等级之间的间距不一定相等,属于半定量的测量方式。例如癌症分期(I、II、III、IV期)、疗效评价(无效、好转、显效、痊愈),以及各类心理量表的评分(如1分代表「非常不同意」、5分代表「非常同意」)。

在一张临床数据表中,你往往会同时看到多种类型的变量:年龄是计量的,性别是计数的,痰涂片结果(阴性、可疑、一个加号、两个加号)是等级的。那你做统计分析时该怎么选方法呢?记住一个核心原则:根据因变量(Y,即你想要预测或解释的那个变量)的类型来选择对应的统计方法。

变量间的转换

计量资料可以转化为等级资料,等级资料可以进一步转化为计数资料。例如一组成年人的具体血压值是计量资料;将其划分为低血压、正常、轻度高血压、中度、重度五个等级就变成了等级资料;再简化为「正常」和「异常」两类则变成了计数资料。

反过来行不行呢?如果你只知道一个人的血压是「正常」还是「异常」,能还原出他的具体血压值吗?不能。计量资料的信息含量最高,计数资料最低。转换只能从高信息密度向低信息密度进行,过程中伴随着不可逆的信息损失。因此在建模和分析中,能不转化就不转化。

但你在实际工作中为什么仍然经常需要转化呢?因为临床决策本身是非此即彼的。你不可能对患者说「你有60%的概率需要吃这个药」,你只能决定开或不开、切或不切。决策本身的信息密度不得不低,因此从连续数据到二元决策的过程中,某种程度的信息压缩是必然的。

反向转化(从等级到计量的赋值)并非完全不可行,但需要非常谨慎。例如将Likert量表中的「强烈不同意」赋值为0、「不同意」为1、「中立」为2、「同意」为3、「强烈同意」为4,将其作为数值型变量分析。这种做法背后有一个隐含假设:相邻等级之间的间距是相等的,即「中立」的感受恰好是「同意」的一半。如果等距假设不成立,直接赋值就不合适,需要改用哑变量(dummy variable)的方式处理,即把一个三等级的变量拆解成两个二分类变量。这个技术细节会在后面讲逻辑回归时详细展开。

同质与变异

同质(homogeneity)指的是你纳入研究的观察对象符合统一的纳排条件,在性质上大致相同。例如「研究2024年重庆市7岁男孩的生长发育」,同质条件就是2024年、重庆市、7岁、男性。

变异(variation)则指同质对象在某个变量上的测量值存在波动。那些7岁男孩的身高肯定各不相同。这种波动由已知和未知的多种因素共同造成。

没有变异就没有统计学。正因为存在个体差异,才需要统计方法来透过偶然的波动发现本质的规律。

总体与样本

总体(population)指的是同质研究对象的全体及其变量值的集合,分为有限总体和无限总体。在传统统计学中,总体通常被认为是不可穷尽的。但现代生活中出现了一种特例:如果某个APP想了解全部用户的使用习惯,它的后台拥有所有用户的数据,此时总体可以被完全测量,统计推断几乎没有用武之地。不过在医学中,至少到目前为止,你不会遇到这种情况。

样本(sample)是从总体中抽取的一部分个体及其实测值的集合。你需要抽样的原因很现实:总体太大无法全覆盖、条件受限做不到、或者实验本身存在潜在损害性。

这里需要和你建立一个重要的符号约定。凡是总体的参数,用希腊字母表示:总体均数用μ(mu),总体标准差用σ(sigma)。这些值客观存在但不可知。凡是样本的统计量,用英文字母表示:样本均数用x̄,样本标准差用s。这些值可以计算。在后续的学习中,请你务必用字母体系的不同来区分这两类量。

样本的代表性

一个好的样本需要满足三个条件。第一是随机性:总体中每个个体被抽到的机会均等。「随机」不等于「随便」,它要求使用随机数表或计算机来实现。第二是样本含量充足:需要通过科学方法提前算出最小样本量。第三是结构分布一致:样本内部的构成比例要和总体保持一致。比如总体的男女比是135:100,你抽出的样本也应大致维持这个比例。你的样本应该是总体的一个等比例缩小的复刻品。

参数与统计量

总体中的未知真实值称为参数(parameter),用希腊字母表示,是固定但未知的常数。样本中算出来的数值称为统计量(statistic),用英文字母表示,是在参数附近波动的随机变量。

你抽出样本、算出统计量,但统计量本身并不是你的最终目标。你关心的不是「这100个人的平均血压是多少」,而是「所有高血压患者的平均血压大概是多少」。用样本统计量去推断总体参数,这就是统计推断的全部本质。简单说就是用英文字母去推希腊字母。

误差

测量值与真实值之间、样本统计量与总体参数之间的差别,统称为误差。

系统误差来自仪器未校正、测量者偏差、标准不统一等原因,特点是大小恒定、有倾向性、有累加性。好比打靶时你的子弹虽然打成一团但整体偏离了靶心,只要告诉你「往左移一点」就能修正。系统误差可以通过严格的实验设计消除或预防。

随机误差有两个来源:一是随机测量误差,即你重复测量时由偶然因素导致的不一致;二是随机抽样误差,即由于个体变异,样本统计量与总体参数之间不可避免地存在差异。随机误差不可完全消除,但可以减小:增大样本量就行。当样本量无限趋近于总体时,随机误差趋近于零。但因为你的样本永远不等于总体,这个差始终存在。

概率与频率

概率是随机事件发生可能性大小的度量,是一个稳定的数值。频率则是事件在实验中实际出现的比例,具有波动性。你重复实验的次数越多,频率的波动越小,就越接近概率。这正是频率学派的核心思想:通过大量重复观测中的频率来逼近概率这一真值。

小概率原理

在统计学中,发生概率不超过0.05(有时取0.01)的事件被称为小概率事件。小概率原理的表述是:在一次抽样或实验中,我们认为小概率事件不会发生。这是假设检验的逻辑基础。

但它也意味着你做出的每一个判断都存在犯错的风险。0.05就是你愿意为判断错误承担的最大风险。打个比方,你每天出门上班都存在被车撞的可能性,但你知道这个概率极低,所以愿意承担。如果有人告诉你明天出门被车撞的概率是100%,你一定不会出门。

有人可能会问:把犯错风险从5%降到1%,不是更安全吗?确实更安全。但为了降低风险你需要付出更大代价。5%的风险也许只需要100个样本,1%的风险可能需要10000个。好比为了防止出门被车撞你穿上一套全身盔甲,风险确实降了,但你每天早上要多花半小时穿戴。代价和风险之间最终会达成一个平衡点,这个平衡点就是你能做出合理结论的位置。


谁发明了这些工具:统计学的光荣与阴影

四千年的描述性计数

统计的历史可以追溯到将近四千年前。大约公元前3800年,巴比伦人每隔六到七年普查一次人口、牲畜和农产品产量。大约公元前3000年,古埃及人普查劳动力以建造金字塔,并定期进行「牛只计数」来核定税基。同一时期,中国在大禹时代就有农业统计,《书经》中详述了人口和资源数据。古以色列约在公元前1490年进行人口普查以统计兵役人员。波斯帝国在大流士时期建立了跨欧亚非三洲的系统普查制度。古罗马从公元前六世纪起每五年做一次正式普查,登记公民身份和财产。1086年,英国威廉一世的《末日审判书》(Domesday Book)完成了对全英国土地和资产的彻底清查。

四千年的描述性计数,始终没有形成系统理论。古人所做的工作几乎全部属于描述统计的范畴。直到17世纪,概率论的诞生才使统计推断成为可能。

抽样思维的早期萌芽

抽样思想的雏形出现在古希腊。公元前五世纪,修昔底德记载了一种攻城方法:让多名士兵反复清点城墙砖块的数量,取出现最频繁的数值(即众数)来估算云梯所需的高度。12世纪英国皇家造币厂建立了「Pyx试验」制度:从每批银币中随机抽取若干枚放入一个叫做Pyx的盒子中,定期检测银的纯度。这已经具备了用部分样本推断总体质量的基本逻辑。

帕斯卡与费马的通信:概率论的诞生(1654年)

概率论的数学起源可以精确定位到1654年夏天。法国数学家帕斯卡(Pascal)收到赌徒安托万·贡博提出的一个问题后,通过一系列书信与费马(Fermat)展开了讨论。这个问题被称为「分赌注问题」(Problem of Points):如果两个技术相当的赌徒在进行一场需要先赢三轮才能获胜的赌局,赌局被迫中断了,应如何公平分配全部赌注?

以经典设定为例:A和B各下注32枚金币(共64枚),规则是谁先赢三轮谁拿走全部。现在A赢了两轮、B赢了一轮,赌局必须终止。费马用枚举法推理:接下来最多再打两轮,有四种等概率结果(AA、AB、BA、BB),A在前三种情况下都能赢。因此A应得3/4即48枚金币,B得1/4即16枚。帕斯卡用递归的期望值方法得出了相同结论,并将这种递推结构与一种三角形系数排列联系起来。这种排列在中国数学中称为杨辉三角,在西方以帕斯卡的名字命名。

他们从1654年7月29日到10月27日之间的通信奠定了概率论的基础。荷兰学者惠更斯在此基础上于1657年写出了第一本系统的概率教科书,此后雅各布·伯努利和棣莫弗等人一脉相承,整个概率论的理论大厦从这几封信开始搭建。

18至19世纪:正态分布与最小二乘法

拉普拉斯和高斯分别证明了观测误差服从一种左右对称的钟形分布,即正态分布(也称高斯分布)。同一时期,勒让德(1805年)和高斯各自独立发现了最小二乘法,即在含误差的数据中寻找最优估计的标准方法。拉普拉斯还将概率论系统化,为贝叶斯推断奠定了前身。从这个时期起,统计学从仅为国家治理服务的「社会计数」扩展为分析自然科学现象的通用工具。

John Graunt与现代统计学的诞生(1662年)

John Graunt(1620–1674)是一位伦敦布商,没有受过正规数学训练。1662年1月他发表了《关于死亡账目的自然与政治观察》,分析了伦敦各教区从1603年起持续发布的每周死亡记录(Bills of Mortality)。这些记录由被称为「Searchers」的老年妇女编制,她们逐一检查尸体来判定死因。

Graunt从粗糙的原始数据中做出了几项开创性的贡献。他用合理的估计方法推算出伦敦当时人口约38.4万人,远低于民间流传的200万的说法,并用两种交叉验证方法得到了高度一致的结果。他编制了人类历史上第一张生命表的雏形,估算出每100名活产婴儿中约64人能活到6岁、约40人能活到16岁。他发现男女出生比约为14:13(即每100名女婴对应约107到108名男婴),这是人类第一次用数据记录下男婴出生的轻微过剩。他还首次科学记录了城市死亡率高于乡村的现象,后来被称为「城市罚分」(Urban Penalty)。

James Lind:最早的对照临床实验(1747年)

1747年5月20日,苏格兰海军外科医生James Lind(1716–1794)在英吉利海峡的HMS Salisbury号军舰上启动了人类最早的对照临床实验。当时350名水手中已有80人患上坏血病。Lind挑选了12名症状尽可能相似的患者,安置在同一舱室中,保持完全相同的饮食,然后每两人一组分别接受六种治疗:苹果酒、硫酸精(稀硫酸)、醋、海水、两个橙子加一个柠檬、以及一种由大蒜芥末籽等混合的药膏。

六天后结果已非常清楚。吃橙子和柠檬的那组中一人完全康复恢复值勤,另一人是全部12名患者中恢复最好的。其余四组完全无效。当时没有人知道坏血病的真正病因(维生素C到1932年才被发现),但统计式的比较已经证明了柑橘的效果。遗憾的是英国海军直到1795年才正式配发柠檬汁,距实验已48年。每年5月20日被定为国际临床试验日,纪念的就是Lind这次实验。

Pierre Louis:用数字终结千年放血术

Pierre-Charles-Alexandre Louis(1787–1872)是巴黎La Charité医院的内科医生,他发展出了「数值法」(méthode numérique),即系统记录、列表和比较不同患者群体的临床数据。他最有影响力的研究发表于1835年:分析了77名肺炎患者,其中41人在发病后1至4天接受早期放血,36人在5至9天接受晚期放血。早期放血组平均恢复时间虽短约3天,但死亡率达约44%,远高于晚期组的约25%。当时François Broussais的放血学说正盛,仅法国一国在1833年就进口了4200万条水蛭。Louis的工作第一次用数据证明了一件事:权威的经验不如客观的数据。循证医学的最早萌芽可以追溯到他这里。

John Snow:伦敦霍乱调查与「天然实验」(1854年)

1854年8月31日,伦敦Soho区Broad Street附近爆发猛烈霍乱,三天内127人死亡,十天超过500人。John Snow(1813–1858)在地图上逐一标注死亡病例位置,发现高度集中在一处水泵周围。9月7日他向教区委员会提交证据,9月8日水泵把手被拆除。

Snow更重要的贡献是他的「天然实验」(Grand Experiment)。他比较了为同一片区域供水的两家公司的霍乱率:Lambeth公司已于1852年将取水口搬到上游洁净水源,Southwark & Vauxhall公司仍从下游受污染河段取水。七周观察期内,使用下游水的住户霍乱死亡率为每万户315人,使用上游水的仅为37人,相差约8.5倍,而两组住户的社会经济条件几乎完全相同。疫情中心的Lion Brewery啤酒厂员工无一人感染,因为工人有每日啤酒配额且啤酒厂有独立深井。附近的Poland Street济贫院也有独立水井,535名住户中仅5人感染。

Framingham心脏研究(1948年至今)

Framingham心脏研究根据杜鲁门总统1948年签署的《国家心脏法案》启动。原始队列包括5209名28至62岁的居民,每两年接受一次全面体检。1961年,这项研究首次将「risk factor(危险因素)」引入医学词汇。1962年吸烟与心脏病的关联被正式确认。至今已产出超过3000篇同行评审论文。你今天视为常识的「高血压、高胆固醇、吸烟和肥胖是心血管疾病的危险因素」,在上世纪50年代都是全新的发现。

Doll与Hill:半个世纪的英国医生研究(1951–2001年)

Richard Doll和Austin Bradford Hill于1951年10月向英国全部59600名注册医生发出问卷,其中34439名男性医生被持续跟踪了半个世纪。2004年发表的50年终报告显示:1900至1930年出生的持续吸烟男性比终生不吸烟者平均少活约10年。30岁戒烟可挽回几乎全部预期寿命损失;50岁戒烟挽回约6年;60岁仍能挽回约3年。超过50%的持续吸烟者最终死于与吸烟相关的24种疾病。Richard Peto指出一个发人深省的事实:对于持续吸烟者,过去半个世纪全部医学进步带来的寿命延长被吸烟的危害完全抵消了。这项研究从一个大众普遍认为吸烟无害的年代出发,最终凭借统计数据将「吸烟有害健康」从假说变成了公共卫生共识。

Florence Nightingale:数据可视化的先驱

Florence Nightingale(1820–1910)不仅是现代护理学之母,也是一位杰出的统计学家。1854年她抵达克里米亚战争中的斯库塔里军医院后,发现死于院内卫生条件引发的可预防疾病的士兵人数远超战场伤亡。她发明了极坐标面积图(又称玫瑰图),用蓝色代表可预防疾病死亡、红色代表战伤死亡、黑色代表其他原因,面积大小直观反映死亡人数。卫生改革实施后,军医院月死亡率从约42%降至约2%。1858年她成为英国皇家统计学会历史上第一位女性会员,1907年成为第一位获得功绩勋章的女性。

统计学的黑暗起源:优生学

现代统计推断工具的诞生,与一段极其黑暗的历史纠缠在一起。你在这门课中学到的很多方法,最初都是在优生学的旗帜下被发明出来的。了解这段历史,会帮助你更清醒地使用这些工具。

Francis Galton(1822–1911),达尔文的表弟,1883年创造了eugenics这个词,主张对「低等」人种实行绝育、对「高等」人种鼓励繁殖。这套理论完全错误且有害。然而在为它提供数据支持的过程中,Galton发明了回归均值的概念、创造了相关系数(字母r)、做出了二元正态分布和回归直线,还推广了「标准差」和「nature vs. nurture」等术语。

Karl Pearson(1857–1936)继承了Galton的事业,发展了Pearson相关系数、卡方检验和P值框架,1901年创办《Biometrika》,1911年成为UCL首任Galton优生学教授。1925年他创办了《Annals of Eugenics》。在1934年退休致辞中他公开赞赏纳粹德国的种族政策。据统计他69%的论文发表在自己主编的期刊上。

R.A. Fisher(1890–1962)创造了最大似然估计、方差分析(ANOVA)、命名了「方差」这一术语,撰写了《实验设计》并引入了零假设和随机化的概念。但他在1933年继任了UCL的Galton优生学教授,是1950年UNESCO种族声明中仅有的四名拒绝签字的科学家之一。2020年6月,COPSS正式退役了以Fisher命名的统计学奖项。UCL也在同期对优生学历史发表了公开道歉。

William Sealy Gosset(1876–1937)是一个不同的故事。他毕业于牛津大学化学和数学专业,1899年加入都柏林的吉尼斯啤酒厂担任科学酿酒师。评估大麦和啤酒花质量时样本量极其有限(通常只有三到四个批次),远不够使用Pearson的大样本方法。他1908年在《Biometrika》上发表了《均值的可能误差》。由于吉尼斯公司禁止员工署真名发论文,他使用了「Student」这一笔名。Fisher在1925年提供了t分布的完整数学证明。t分布使小样本推断成为可能,是你将来在临床试验中会反复遇到的数学基石。

这段历史带给你五条教训。第一,科学工具不是价值中立的:你将要学习的相关系数、回归、ANOVA和P值,最初都是为优生学服务而生。第二,相关不等于因果,更不等于生物决定论。第三,编辑把关至关重要。第四,科学声望不等于道德权威。第五,弱势群体需要制度性保护:从强制绝育到纽伦堡法典再到伦理审查委员会(IRB),正是这段黑暗历史催生了现代研究伦理。

三个里程碑事件

1948年的链霉素试验是公认的第一个现代随机对照试验。由Austin Bradford Hill设计,纳入107例肺结核患者:55人接受链霉素加卧床休息,52人仅卧床休息。Hill的关键创新是隐蔽的随机分配:用基于随机数表的序列装入编号信封,由中心办公室统一管理。六个月后链霉素组死亡率7.3%(4/55),对照组28.8%(15/52)。

1954年的Salk脊灰疫苗试验是人类历史上最大规模临床试验,约180万名儿童参加。1955年4月12日宣布疫苗安全有效,对麻痹型脊灰有效率80%至90%。据记载,结果公布当天教堂鸣钟,人们在街头相拥而泣。

反应停(Thalidomide)灾难(1957–1961年)中,这种镇静剂在46个国家以37个商品名销售,导致超过10000名婴儿出生缺陷。美国FDA的Frances Oldham Kelsey在19个月中反复拒绝审批,顶住了制药公司约50次上门施压。这场灾难直接催生了1962年的Kefauver-Harris修正案,要求制药商必须同时证明药物的安全性和有效性,并首次要求临床试验获得知情同意。

这三个事件有一个共同启示:科学的统计设计不仅是方法论问题,它关乎患者的生命权利。你将来设计或参与临床研究时,请始终记得这一点。

循证医学的诞生

1990年代,McMaster大学的Gordon Guyatt和David Sackett提出了循证医学(Evidence-Based Medicine, EBM),将统计证据置于临床决策的核心。Archie Cochrane更早在《有效性与效率》中指出:由于缺乏系统化的统计综述,许多有效疗法未能推广,而无效甚至有害的疗法却在被广泛使用。1993年成立的Cochrane协作网至今持续产出系统综述和Meta分析,占据证据金字塔的顶端。循证医学的完整定义是最佳研究证据、临床经验和患者价值观三者的结合。

中国先驱:李景均与郭祖超

李景均(C.C. Li, 1912–2003),1940年在康奈尔大学获遗传学与生物统计学博士后返回中国。1946年成为北京大学最年轻的系主任,年仅34岁。1948年出版《群体遗传学导论》。1949年后新政权引入李森科的伪科学,否定孟德尔遗传学。李景均作为主要遗传学教员首当其冲。1950年3月他带家人徒步逃往香港,在《Journal of Heredity》上发表了「遗传学在中国之死」一文。诺贝尔奖得主H.J. Muller为他提供援助。1951年他加入匹兹堡大学生物统计系,工作50余年。1960年当选美国人类遗传学会主席。

郭祖超(1912–1999),上海青浦人,1934年毕业于国立中央大学教育心理系。1943年在潘菽建议下转入医学院公共卫生系,潘菽当时说医学统计学是「一片没有开垦过的处女地」。1947至1948年获WHO资助赴约翰霍普金斯大学学习生物统计学。1948年9月出版《医学与生物统计方法》,约27万字,全部使用中国实际数据,是中国第一部系统介绍医学统计方法的教科书。郭祖超后来在第四军医大学任教30余年,1988年出版了140万字的第三版。他从教超过50年,培养了中国整整一代生物统计学家。


回到开头

还记得开头那道乳腺癌筛查题吗?

学完这门课,你不仅能答对它,还能向患者清楚地解释背后的道理。你能对一个拿到阳性结果的女性说:「先不要紧张。在我们这个地区,像您这样的阳性结果大约十个里只有一个是真正有病的。我们需要做进一步的确认检查。」这才是一个具备统计素养的医生应该给出的回应。

这门课想给你三样东西。第一是工具,掌握从样本到总体的方法论。第二是素养,具备批判性阅读和评估临床证据的能力。第三是伦理,理解统计工具的历史来源和道德重量。你使用的每一个公式、每一种检验方法都有它的出处,其中有些出处是光荣的,有些出处是黑暗的。了解这些,会让你成为一个更清醒的使用者。

统计学是科学的语法。

Statistics: Grammar of Science.

远古巫影:中西文明中的神秘传统分途演化
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×