第三部分 结语

第十九章 足够的统计数字和概率

如果说这一章是一瓶酒或一包泡菜,消费者保护法律将要求贴上一块标签:警告,内含数学!数学和前面所述的致癌化学物一样,对之存有畏惧之心的人非常之多,以致于每一样含有数学的东西上都应贴上警告标签,不管剂量多小。事实上,这里只含非常少的数学,它只能造成一些表面的擦伤, 不会留下任何永久的伤疤。但我们不应该诱使任何人去做任何违背其原则的事,所以,我鼓励任何一位哪怕很少的数学也会使其感到困扰的人跳过这一章,直接去读结尾部分。如果你以后还想回过来试一试,我们还在这里等你。

事实上前面所说的一切有关风险的事情都存在着一个可能的要素——死亡的可能性,跌倒的可能性,核电厂崩溃的可能性,冰淇淋不够引起头皮屑的可能性,等等。每一件不确定的事情都涉及概率,由于没有一件事真正是确定的,所以处处都存在概率。职业赌徒属于我们社会中那些少数能够真正掌握概率并用它谋生的人。业余赌徒是他们的补充,但概率和统计并不那么难以对付,除了那些急切想要达到哲学深度并想究根知底的人以外。任何一个课题都比它表面上难。理解生活并不需要能够使用概率这一工具。

本章的内容已在本章标题上表明——提供足够的有关统计的知识以便从此幸福地生活。本章不需记忆,只需要理解,也不必像小说那样阅读。也许最好的方法是按次序阅读,但即使这样也没什么必要。学习没有什么正确的方法,尽管专业老师总是装腔作势,对你有效的方法就是正确的方法。本书作者一生中大部分时间都是当大学教授,并已逐渐地认识到在教授和学习这一关系中,目的可为手段辩护。如果你能哄骗学生,使其去学他本来不会去学的东西,也许是通过让他认为该科目比实际更加有趣的方法做到的。那么你做了一件好事,而不是犯了罪过。

因此,亲爱的读者,概率和统计数字是迷人的东西。它们不仅有助于理解风险,对于理解测验民意的模拟投票、彩票、报酬更大的打赌形式、以及日常生活中的许多问题也很重要。有一句老生常谈的话,知道得越多越幸福, 它在这个问题上双倍地正确。许多本来很好的格言恰好是假的,而“无知即极乐”则是无懈可击的。

统计数字和概率

概率和统计数字是两个不同的概念。概率是对某事发生的可能性或机会的一种测量,例如骰子将掷成什么样。它是 0 到 1 之间的一个数。0 表示不能,1 表示肯定。当进一步对概率进行定义时,专家们当中发生了一场激烈的论战。所谓的频繁论学派认为最好的定义应以频率为基础。想象一下某事你做了无数次,有关事件发生的次数就是其概率,这种理论有时行得通—— 如果你把一对没有作假的骰子掷 100 万次,你得到 7 的次数将进六分之一。因此概率就是 0.1667,或 1/6。(如果不是这样,你可以断言骰子一定作了假。)但如果你想知道社会党赢得下次总统选举的概率怎么样——选举当然不会举行 100 万次。对于这种事情频繁论定义就行不通了。就由所谓的主观论者接办。主观论者的定义是概率是信息最丰富的人的恰到好处的最佳判

断。这对于骰于是行得通的,信息最丰富的人知道骰子是怎么工作的,因此也知道其可能性。甚至频繁论者的内心深处也不会依赖掷 1000 次骰子来得知

掷骰子游戏中得 7 的概率,他们是计算出来的,和我们其他人一样。通常来说概率是如何定义的并不重要——重要的是它有何用处。但在发明概率的好几个世纪以后,专家仍在为什么是概率而争吵。

每个人对什么是统计数字都有一致意见——被测量或被数过的东西,而到底是什么东西并不重要。中国皇帝的身高可以是一个统计数字,如果还有这样一个人的话;所有中国人的平均身高也是一个统计数字;美国所有叫作戴夫的左撇子的平均收入也是;劳动节周未公路交通事故的死亡人数也可以是。任何定义这样广的东西听起来很空洞,但如果我们试图寻找统计数字之间的关系时,有趣的部分就开始了。叫戴夫的人如果是左撇子,其收入是否较高,或者左撇子如果叫作戴夫,收入是否较高?这是两个不同的问题。或二者都不是?在西南地区是否与众不同?这些就是要求统计学家们干的事。还可能要求统计学家计算叫作戴夫的富裕的友撇子眼睛又小又亮的概率。或者,我们也许会问他们全国联队在过去 11 场职业冠军赛比赛中赢得了 6 场, 美洲联队则赢得了 5 场(到 1989 年),这是否具有统计意义?美洲联队在最近 50 场比赛中赢得了 27 场是否具有统计意义?当问到这样的问题时,概率和统计数字一起出现。

“显著性”一词在统计分析中经常出现,刚才也是。它的意思是观察到的结果也许不只是运气。任何事情的发生如果概率较低,以纯粹的机遇为基础,那么必须涉及更深的东西。概率截止点使得某事变得具有意义,旁观者看在眼里。在生物科学中有一种非正式的一致意见,截止点是二十分之一的比率,即 0.005,因此任何一件随机概率小于二十分之一但总是发生的事情被认为是具有统计显著性。在统计学的非专业人员中,显著性的标准波动很大——好的工程师到处为具有统计显著性的测量范围从千分之一到十分之一的概率辩护。最后,对统计意义的解释取决于与概率毫无关系的条件,如果错误的代价很高,我们就要十分有把握。许多人的标准都可随时调整,取决于估计的重要性。

上面用到“随机”一词,这也要求定义。对这个词甚至令人敬畏的韦氏大词典未节略本第二版也没有什么帮助——它在“随机”一词的定义中两次用到随机一词。较新的兰登书屋未节略本做得稍好一些——努力不在定义中使用该词,但最后的定义都是错误的。说这些并不是要批评这两本优秀词典的作者们,而是要强调这个概念不寻常。每本权威词典都想表达发生的事毫无道理却又随机发生这一思想。也许最好的办法就是把随机用其反义词定义,随机概念是个深奥的数学概念,确实缺乏准确定义。这没有关系,因为我们有时遇到一些显然是随机发生的事,后来却发现它有二个明确的模式。缺乏模式是随机性的特征,但缺乏模式常常既是观察者的功能又是被观察物的特征。聪明人能看到我们其他人看不见的模式,而骗子、超自然物信仰者和观察天象者则看见并不存在的模式。伟大的数学家约翰·冯·纽曼说,“任何一个考虑用算术方法制造随机数字的入当然是处于犯罪状态。”我们的谈论到此为止。

有两大概率法则最为重要。第一是如果我们想知道两个互相独立的事件同时发生的概率,而且我们知道每一独立事件发生的概率,那么同时概率则是把二者概率相乘。如果我把一个 25 美分的硬币扔到空中,那么它正面朝上

的概率是二分之一,扔一个 10 美分的硬币也是如此。如果现在我把 10 美分

和 25 美分的硬币同时抛起来。那它们两个落下来都是正面朝上的概率则是四分之一。乘法法则适用于两件事需要发生的情况。这是一个“和”法则。

第二个法则是加法法则。它在两事件互相排斥时适用,这意味着这两件事不会同时发生。一枚硬币可以正面朝上也可以反面朝上,但它不会二者兼得。一个人的姓可以以字母 W 开头也可以以字母 G 开头,但不会既是前看又是后者,在这些情况下,或甲或乙的概率是每个事件的概率之和,这是一个“或”法则。例如,如果我们掷一对骰子,我们得到 4 的机会是十二分之一,

得 10 的机会也是十二分之一,而得 4 或得 10 的概率则是六分之一。如果二者不是互相排斥。事情就更复杂一些。这两个法则非常重要。

人口和抽样

在统计中经常有必要区分某地全体人口和这一人口中的一个抽样。最常见的一个统计问题是通过取样检验来推断出某地居民的一些特征,然后估计结果的准确性。在每次总统选举中,我们都遇到接二连三的民意测验,这些测验报告说对 1000 名投票人的随机(注意这个词)抽样表明有 5000 万人在大选日会选举候选人 Z。如今老练的民意测验者会补充说该民意测验的误差幅度是±X%,而 X 可以是任何数字。他们也许会说这是抽样误差。

我们通常把全体人口看作一个很大的团体(尽管它下一定大),从中我们取一个较小的样本,小得可以进行研究。我们这样做可以了解某一人口, 譬如在总统选举中。我们可以有一条小机械生产线,并在每 100 件产品中查

看 1 件(当然是随机的),看它是否符合规格,并假定它具有典型意义。这种通过抽样检查猜测某一人口的特性的过程称作推理。仅仅是猜测当然还不够好——还应该有某种表述我们认为我们干得怎样的方法,而这种表述被称作置信区间)当民意测验者说民意测验有着±±X%的误差,他所讲的就是置信区问,没有必要知道置信区间的公式,只需知道它是度量该人口答案的正确范围的方法,概率很高。

所有这些都涉及通过抽样检查了解一国的人口,有时候的工作是利用人口统计数字来了解样本。那么概率就比统计数字更为直接相干。假设我们知道美国人口的 51.3%是女性(的确是,因为我们在每 10 年的人口普查中数人数),并想随机挑选 20 个人组织一个舞会,不管其性别如何。那么我们获得 10 对夫妇的概率是多少?答案是 0.175,稍稍高于六分之一,如果人口中的男性与女性一半对一半,那么概率就会稍高一些。如果对 100 岁以上的人

作同样的试验,在这个年龄层,女性的人数是男性的 5 倍多,那么机会就要小得多,三千分之一。人口比率告诉我们如何计算样本的概率。

人口就像具有某些特征的水库,而抽样则是这一水库中的随机取样。随机性和如何保证随机性是抽样的永久问题。总统选举民意测验的一次最著名的失败(该失败导致发起该民意测验的杂志的倒闭,并在许多年中使民意测验普遍带上了坏名声)是归咎于民意测验是用电话进行的,而在那时电话不像现在这样普及。这一测验选择了人口中的非随机样本,较为富足的人口, 这使民意测验的结果有偏向。使得抽样具有随机性需要异常的谨慎和技巧, 以使得它恰当反映被取样的人向。

假设实验

假设实验是统计学家面对的一个较为困难的工作,也是风险事务中最重要的工作之一。它出现在确定某一种影响是否会引起或治愈疾病,一种新的科学理论是否“正确”,以及我们以何种信心相信结论的时候。在科学理论问题上,存在着更为实际的起作用的标准——当大多数可敬的科学家认为它正确时它就是正确的。

假设 10 个人患有某种疾病,这种疾病被叫作 D, 而一种叫作 C 的试验药物,被建议作为治疗物。应该对这种药物进行测试(在对实验动物进行强制性试验以观察其副作用以后),因此把病人分为 2 个小组,每组 5 人,给其中一个小组用药。为使试验公平起见,给另一个小组,即未用药的参照小组安慰剂(无药效、仅产生心理作用)。没有人知道哪个病人服了哪一种药; 如果医生和病人都未被告知,这就被称作双盲实验,被认为是避免偏向的唯一可靠的方法。有一些被密封的记录,这样我们以后能查到真相。在这种事情中总有一个道德问题,对也许会长期有益于每一个人的知识的寻求与某些病人被剥夺了一种有效的药物的可能性互相对抗。对这个问题没有容易的普遍答案。所作试验的假设是有助于治愈疾病的药物与表示它不能治愈疾病的所谓零假设相比较。该试验被解释为对零假设的测试。假设眼用 C 的小组中有三人恢复了健康,而参照小组有两人恢复了健康,那么我们得到什么结果呢?当然我们得知 D 并不总是一种致命的疾病,因为未受治疗的小组中也有两人痊愈了,但只有几种疾病始终是致命的。问题在于试验的药物是否有助于痊愈。所有的药都对统计数字有影响,使可能性发生偏向,因为尽管很少有疾病总是致命的,也很少有药物是永远有效的。如何解释测试结果呢?

对这种问题的标准程序是划出某种表格来描述具体情形。这种表格叫作偶然性表格。

治疗

治愈人数

死亡人数

接受治疗的人数

3

2

未接受治疗的人数

2

3

治疗结果

挑战是这种表格是否可能来自某种随机机会(测验零假设)。当然它也许是,但概率是多大?显然治愈的病人比未治愈的结果好一些,而治疗事实上是无效的机会有多大呢?甚至更加糟糕,治疗稍稍带来害处的机会有多大呢?

在这种情况下所作的试验叫作费希尔精确实验。(我不喜欢它,会在后面说明原因。)它包含着,如果接受治疗和未接受治疗的病例之间的确没有差别的话,就要求表中分布的或甚至更好的结果的概率是多少。这个测试得出的答案是同额赌注——偶然发生至少如此有利的结果的机会是二分之一—

—因此人们丝毫不应该信任治疗有一些好处的表面证据。前面提到的生物界所使用的粗略估计是,根据这些具体规则计算,表格(或甚至更有利的结果) 可能是偶然出现的概率,应该是不到 0.05,二十分之一的机会,以这种标准, 即使上面的数字是 4 和 1,治疗也不一定是可信的,但若所有接受治疗的人都幸存下来而所有未接受治疗的病人都死了,治疗就可信了。这与许多人的本能相矛盾,本能告诉人们,与不接受治疗有 20%的人幸存相比,能治好 80

%的病人的治疗是非常好的,它也许看起来很好,但使用标准水准,仍无法

通过费希尔精确实验以证明其显著性。

我们较为详细地讨论了这一具体的测试,但假设测试或显著性测试还有其他许多方式,这取决于数据的形式和种类。一位棒球爱好者也许会回顾过去 50 年的棒球历史,看看主要联队的得分数是否与中西部夏天的平均温度有关。他会收集数据,也许会去作所谓的线性回归分析,看一下得分数是否随着温度的升高而增加(或减少)。对这种问题也有一个显著性测试。

与我们的主题更接近,他也许会问空气污染是否对死亡人数有影响。然后他会搜集十几个城市的死亡统计数字,以及空气质量的各种度量,以测试趋势和显著性水平。具体的程序超出我们自我确定的“恰好足够的统计数字” 的法则,但这也是一种线性回归分析,有更多的变量。几个分析家已作过这种分析,它导致了我们在第十六章中使用的结论。如今的统计学家们可以用计算机程序来作这种估计,因此,就连统计学家自己再也不必去弄明白他们在干些什么了。

有时候对一个问题没有可行的既定步骤统计测试,统计学家也许会对假设是否正确或数据是否具有显著性有不同意见。第十二章中的甲醛数据就属于这一类,也许在低水准时不显著,但其程度还不足以阻止管制机构。数据充分时,对显著性的标准测试很好,但如果数据不充分,对数据的解释就变成一种艺术形式。

参数估测

在大多数我们使用概率推理的情况中,有一个所谓的概率分布。这意味着一项测试、一项调查、或不管什么都会带来一系列可能的事件或结果,且每一事件都带有某种概率。通常是划一张图表来展示这种信息。例如,如果我一次掷上四枚硬币,它们全都正面朝上的概率是十六分之一,三个正面朝上、一个反面朝上的机会是四分之一,两个正面朝上、两个反面朝上的概率是八分之三,等等。这就是概率分布,显示了可能发生的情况及其概率。有各种不同的多少比较标准的分布,视具体情况而定。

一旦了解了某一情况的具体统计法则,也就知道了概率分布的特征,那么我们只要知道实际的数字就行了。假设我有一枚重量失衡的硬币,它反面朝上的概率要高于正面朝上(一会儿我们要看一个现实生活中的例子),这样我们也许想知道它反面朝上的实际概率。一旦我们知道其统计法则,我们就能预测反面朝上的概率是十次中有八次、七次、六次等等。指导这种东西的统计法则叫作二项式分布(下一节),但它不能使用,除非我们知道只试一次反面朝上的隐含概率有多大。为得出结果,我们不得不试上很多次来得出反面朝上的平均比例。这就是所谓分布的参数,接着我们就可以用二式项分布计算出在一定的投掷次数当中反面朝上的一定次数。换句话说,我们将通过测量平均数而了解围绕平均数的波动。只有当我们知道统计法则时这才会发生。因此我们进行了多次尝试来测量平均数,从大样本中估测小样本概率。

平均数是个简单的参数,但概率分布还有其他一些有趣的参数。整个人口的平均智商是 100,因为这是智商的基本定义。(我们不能全都超过平均水平,这一点令人沮丧,但我们也不会全都低于平均水平,这一点让人放心。) 当然,有些人超过平均水平,有些人则不到,有些人远远超过,有些人则远

远不到——这是日常经验,不需进行智商测试。从几十年各种各样的测试中得知,这种分布被称作正态分布(下一节),对一个具体的数学形式来说这是个不幸的名字。对社会来说重要的是分布的概率散差,它告诉我们可能会有多少天才的儿童和成人,以及有多少人需要特别的帮助。因此这种散差, 或宽度,是另一个可能通过测量进行估测的参数。只有对许多人进行测试, 看看他们的智商与平均数相比有什么不同,才能得到这一参数。我们美国人当中有三分之二的人的智商在全美智商平均数的上下 15 点之内。

生活中有许多事情完全可以用正态分布来描述——婴儿的出生体重)成人的身高,随机挑选的人的跑步速度等等。这在统计中无处不在。有一个强有力的定理叫作中心极限定理,它声称几乎所有的概率分布都与正态分布相似;只要有关案例的数目足够大。这一点在下面的一些具体分布中很明显。

标准分布

有些概率问题很容易用数学方法解决。如果你事先不必知道大多的细节以计算概率,问题就很容易。标准的例子是掷硬币。推理是这样进行的:正面和反面互相排斥——硬币不可能既是正面朝上又是反面朝上——因此不管正面或反面的概率分别是多少,二者或彼或此的总概率是二者的概率的和。这是“或”法则。但硬币不可能倾向正面,所以二者的概率一定是相等的。正面或反面两个概率的和相加必须是 1,因为硬币肯定要落到地下——没有人能把硬币扔到地球轨道上去。如果两个相等的数字相加等于 1,它们自己必须分别是二分之一,因此一个硬币也不必掷我们就知道正面朝上的概率是二分之一,0.5。这个事实太本能了。我们从未进行这样的逻辑推理。同样的论据告诉我们一个骰子落在任何一面的机会是六分之一,而当我们把两个互相独立的骰子的概率相乘(“相乘”法则),我们发现蛇眼的概率(两个幺点)是三十六分之一。通过同样的方法我们知道扑克牌游戏中以 A 打头的五张同花顺的概率是 649,740 分之 1。我们不用玩上几百万次来看这样的同花顺出现几次,我们通过计算可以知道。只要在这种情况下,所有不同的概率是可互换的,而且是互相排斥的,且所有的概率相加等于 1,我们就可以很容易地而且有把握地计算出每个概率。

但重要的是我们必须肯定不同的选择确实有同样的机会。普通美国人的一个信条是一枚被诚实地抛起的硬币落到地上正面朝上或反面朝上的概率相等,这是“输赢各半的打赌”(ToSsUP)一词的由来。只要把硬币掷得够高以使这一掷“随机化”,结果肯定就是这样。(在赌场中骰子必须向一块板上投掷来获得同样的随机化,以免具有献身精神的赌徒们练习多年从而在某种程度上控制结果。)几乎所有的人都认为在桌子上旋转一枚硬币可得到同样的随机性——正面和反面转得非常快,很难看出它会哪面朝上。

但对某些硬币来说则不是如此,例如 1 美分的硬币。如果在一张光滑的桌子上旋转一个 1 美分的硬币,它反面朝上的机会有 70%,因为正面和反面稍稍有些差异。这一差异之所以有关系是由于旋转的一个较为复杂的物理特性,但这的确有关系,我通过表演迷惑了许多朋友,有一次连我自己也被迷惑了。(观看旋转的 1 美分硬币的顶,你会看到旋转的轴心并不完全是垂直的,顶上似乎有一个小小的假想的圈。正是这个圈影响了硬币落下的方式。) 要在骰子上得到同样的结果必须增加骰子的重量(这是非法的),而 1 美分

的硬币是以增加重量的方式铸造的。当心那些表面上很诚实的人,他们旋转硬币而不掷硬币。

许多概率分布可以用这些方法计算,结果发现很少一部分的标准分布就足以应付几乎所有的情况了。

回忆一下;概率分布只不过是一个测试的不同结果的概率描述,有时候某件事情会发生的绝对概率不如发生各种不同事情的相对概率有趣。美国全国篮球协会的教练也许觉得,知道与那些身高在 6 英尺半到 7 英尺之间的人

相比较,高于 7 英尺的人占多大的比例很有用处。从这里他也许会得知如果

在匹斯堡的一条马路拐角处站上一天他能看见一个 7 英尺高的可能的招募对象的概率有多大。婴儿出生时的体重非常接近于正态分布。如果我们知道参数,就像我们确实知道的,我们就可以计算出婴儿出生时有 8 磅重的概率。这也许会引起每一个怀孕的母亲的兴趣。(根据一些旧的数据,稍稍高于十分之一。)这里的任何一个都是概率分布,这可以在一张竖坐标是概率、横坐标是其他有关变量的图表中展示出来。不管这些变量是出生体重或智商, 还是酒喝醉了的程度(对于相撞的概率来说)。

标准分布经常出现,因此它们有名称,每一个都适用于某种特定的情况。最重要的,即日常生活中的出现率,叫作泊松分布,正态分布(常常叫作高斯分布),还有二项分布。本书中的大多数论题都忠实于这些统计行为方式的一种或另一种。

泊松是一位法国数学家,高斯是一位德国数学家,正态(NoRMAL)则只是一个英文单词,二项是一个数学用语,二项分布有时叫作伯努利分布,是以瑞士一个数学世家中的一位成员命名的。科学和数学是国际化的。

泊松分布适用于随机点数过程,其中每个事件都独立于所有其他事情。我们也许会清点在每五分钟的间歇内打到交换台来的电话的数目,每分钟经过不太拥挤的高速公路上的某一点的汽车数目,在本人打字撰写这本书时每秒钟落到我头上的宇宙射线粒子数目,或者在某个人口群体中出现癌症病例的数目。对每个例子都会有一些长期的平均数)分布的参数。在汽车的例子中,我们也许会清点一个小时内通过的汽车数,并把这个数目的六十分之一作为每一分钟通过的汽车数。那么,在被测量的每一分钟内,经过的汽车数与平均数相比或多或少——只是随机波动——而泊松分布则给予每个例子以相对的概率。(落在我头上的宇宙射线长期的平均数大约是每秒钟 5 个,在海平面地区。)

下一页的上图显示在平均数是 3 时的泊松分布,我们看到在任何一分钟内都有可能一辆汽车也未通过(汽车的例子).而有时则会通过六辆、七辆或更多。可能性最大的数字是二和三(在这里它们的概率相同),但事实上任何数字都有可能。当然如果平均每分钟只通过三辆车的话,数字就不大可能太大——我们看到,数字越大,指示条越小。(若汽车一辆接一辆,打赌就不存在了,因为它们再也不是互相独立了。)但分布仍然广泛,与平均数不同的机会很多,一旦我们知道平均数是三辆,就准确知道了波动的幅度。

中图也显示了泊松分布,但这次平均数是 16。(对每个可能的平均值都有一个分布,即使这个数不是整数。)注意中图的变化。在平均值附近的顶峰更加明显,而一辆车也不通过的机会现在可以忽略不计了。泊松分布的最重要的一个事实是它的半宽度——分布的表面宽度的一半——大约与平均值的平方根相等。本书中曾把这称作 N 的平方根法则。因此在平均值为 16 的图

中,我们可以预计范围在 16 加 4 或减 4 的之内是合理的。如果我们看一看该

图,并且发现代表 12 和 20 的竖条分别比平均数 16 低 4 个和高 4 个,我们就可以看到,它们二者之间的距离可以合理地粗略测量分布的宽度。(每个竖条测量该结果的概率。)

这对一个泊松分布永远行得通,它是出现在大多数公众舆论民意测验底下的小注脚的基础,小注脚说民意测验的误差幅度是多少多少。这个数字总是大约相当于被测人数的平方根,再除以总数。(有一个小小的修正与以下事实有关,给予一个候选人的选票是来自另一个候选人的,因此它们不是完全相互独立的。)因此你不能采访几百个人就查明误差只在百分之几之内的未来选举的结果。如果你在一次势均力敌的选举中采访 200 人,你预计每位

候选人有大约 100 票,从一个抽样到另一个抽样的随机波动对每个人来说大

约是 10 票。因此没有一个小抽样能够提供足够的信息来显示势均力敌的选举情况。这些是统计问题,与其他的民意测验问题无关。

下一个重要的概率分布,所有概率分布中最重要的是正态分布,如前页下图所示。它在统计中很普遍,我们已经说过中心极限定理告诉我们当数字很大时所有其他的分布看起来都像正态分布。当平均数只有 16 时,这种情况

已经发生在泊松分布上,而当平均数到达 100 或 1000 时,这种相似之处将越来越惊人。

当我们在度量而不是清点某种东西时,我们通常期待正态分布。我们已说过它描述婴儿的出生体重、儿童及成人智商、成人的身高(但不是重量) 等诸如此类的事情中的差异。由于泊松分布在数量很大时与正态分布特别相似,许多统计学家在这种情况下为方便起见就使用正态分布。

此二者的基本区别是泊松分布的“宽度”完全由清点数的平均数字决定, 通过 N 的平方根法则,而正态分布的宽度必须分别测量,是分布中最重要的参数。这种对一半宽度的测量有一个名称,称作标准偏差。(几乎所有的分布都有一个标准偏差,它测量其宽度。)下图显示了一个标准偏差为一个方块的正态分布。我们还有意绘制了第二个泊松曲线,这样标准偏差 4 与正态曲线上的一个方块的宽度相同,表面上看起来用正态分布替代泊松分布相差不大,根据中心极限定理可以猜到这一点。

正态分布的曲线表明了本书前面所述的一个论点,可以预料平均数上下的随机波动,但这一波动极不可能超过两个或三个标准偏差。在我们离中心的三个标准偏差处,曲线实际上下降到了 0。如果我们知道了标准偏差,或是由于对其进行过测量或估计,或是由于我们把正态分布用作泊松分布的近似值(这样我们可以算一下平方根来得出标准偏差),我们就知道了任何偏差中值的可能性。把这一评论用统计的显著性来表述,则意味着可以预期随机机会有一个或两个标准偏差的波动,而与预期值相差甚远的测量就不大可能只是一个统计偏差,从而就具有显著性。(许多民意测验者引用的取样误差相当于两个统计偏差。)最后,我们来看看二项分布。这适用于掷硬币, 我们在第五章中使用的最高安打率的例子,以及其他我们知道每试一次某件事发生的概率,但想知道尝试一定次数它会发生一定次数的概率的情形。换句话说,当我们知道长期或人口平均值的时候,它告诉我们计算有限的样本时的波动。

最典型的例子是掷硬币。假定对没有作假的硬币(赌博的时候最好持怀

疑态度)来说,我们知道正面朝上的机会是 0.5。如果我们一次掷上十个硬币,我们知道正面朝上的平均数是 5。但是,假设我们间一个不同的问题: 掷十个硬币我们实际上看到有 5 个正面朝上的概率是多少?这是一个完全不

同的问题,因为这个问题的答案包括这样的事实,即我们得 6 个正面朝上的

机会和得 4 个一样多,得 7 个和得 3 个的机会一样多,等等。对这种问题的

答案来自二项分布,在这个具体例子中,尽管 5 是答案平均值,也是最常见

的结果,但确实得到 5 个正面朝上的机会只有 0. 246,不到四分之一。(试一下——这是个很简单的试验。当然应注意,这种试验也会出现统计波动, 你也许要做 20 或 30 次试验平均数才明显出现。这将涉及几百次投掷,但花上几分钟学习某样东西是很合理的开支。这是讨价还价。)这是个简单的例子,因为每个硬币的潜在概率是 0.5,但当概率不足 0.5 时,只会稍稍复杂一些(公式,不是概念)。我们在第五章中举例的强有力的击球手的安打率是 300,这是他每次击球时打出的潜在概率。(在计算安打率时我们忽略了棒球特有的复杂性,例如失误,牺牲打和飞球,等等。)下一页上的最后一张表就是这种情况,显示了他在随机挑选的 50 次击球中某个安打次数的概

率。由于 50 是一个较大的数字,该分布与平均数为 16 的泊松分布没有太大的差异(这里我们的平均数是 15),与几乎所有的分布看起来都很相像的普遍原则相一致,只要数字足够大,它看起来像正态分布。(尽管我们把这称作中心极限定理,许多统计学家干脆把这称作大数目法则。)

读者到现在会注意到这些分布具有相似之处。每一个分布都有一个平均数,在图中它们是 3、16、0 和 15,每一个都有一个半宽度(标准偏差), 在我们的例子中分别是 1.73、4、1 和 3.24。这些基本特征在一切(为完全做到诚实,几乎一切)概率分布中都很常见,认识到这一点就足以理解几乎所有的统计。在泊松分布的例子中,有一个优点是标准偏差与平均数的平方根相等,而在正态分布中,则必须通过其他方式求出标准偏差,而二项分布则只需对泊松法则作细微的修改。如果你知道这些,并认识到用标准偏差测量分布的宽度的重要性,你知道得够多了。

贝叶斯统计

这一节已经超出了你合理地应付风险所需了解的知识,它纯粹是为了更深刻的理解。

托马斯·贝叶斯 1763 年出版了他的著作(实际上是他的朋友们在他死后帮他出版的),这本书现在仍然使统计学家们恼怒。问题如下:尽管我们讨论了几种使用人口数据来推断样本概率的方法,没有反其道而行之的办法。我们在谈到参数估测时提到这一点,假设测试也涉及到这一点,但在传统的统计学中这个问题还未解决。它颠倒了正常概率推理的次序。

举一个大多数人熟悉的例子,假设你和朋友玩骰子游戏(骰子是已知的最古老的游戏器具),使用通常的掷骰子赌博的法则——如果你不懂,我们不准备在这里教赌博——并且想知道连续出现 4 次得7 点或 11 点的机会有多大。简单的计算表明得到 11 点有 2 种方式,得到 7 有 6 种方式,而骰子落下

共有 36 种明显的方式。因此得到一个 7 点或 11 点的概率是三十六分之八,

或 0. 222⋯⋯。这是对概率的通常使用,它还告诉我们连续获得 2 次的机

会大约是 0. 0494(“和”法则),连续 3 次是 0. 011,等等,而连续 4

次的机会不到四百分之一。到此为止一切都很好。

你的朋友掷了一次骰子得到一个 7 点或 11 点,因此你祝贺他运气好。他

又得到一次,你又祝贺了一次。到第三次你开始疑惑了(机会大约是 100 比1),而到第五次你确信你的朋友(过去的朋友?)在欺骗。你刚刚使用过贝叶斯统计法,作过这种计算后,碰巧连续四次获得这种点数对你的轻信提出质疑,而连续五次的机会是 1844 比 1,因此你作出结论你应该对你的朋友和骰子都没有作假这一前提提出疑问。

贝叶斯统计涉及通过看结果来了解假设。尽管许多传统的统计学家从心底里不喜欢它,但它被每个人本能地使用,正如例子中一样。在其正式结构中,正如贝叶斯 200 多年前第一次指出的,有了数据,它为估价不同假设的概率提供了一个量的方法。

例如,在科学中,对某种自然现象的解释常常有几个假设互相竞争,你甚至能够发现科学家们互相打赌看谁最可能是正确的。(广义相对论的赌注是三比一,等等。)接着,在作了一个试验以“测试”不同的假设后,赌注就发生了变化,正如在第一场比赛后对某个棒球队赢得职业冠军赛的赌注有所改变一样。虽于广义相对论,它也许是物理学现代历史中唯一没有任何需要解释的实验证据而形成和提出的理论,做了三个著名的试验以后,广义相对论才被普遍接受。

回到未知的世界,使用观察,这是贝叶斯统计法的特点——这无法在传统统计中做到。在前面提到费希尔精确实验中,我们确实想要知道哪种疗法是否能治好疾病。相反,我们为它不能治病这一论点作了假设,并计算出可能会偶然出现的观察的概率。我们作了一个假设并计算了结果,尽管我们已经知道了结果,并对假设的正确性感兴趣。这只能在贝叶斯统计中做到。

正是由于这种欠缺,对费希尔精确实验(我们在这里把这个实验当作替罪羊)的解释才非常武断。如果这种观察偶然实现的概率不到 0. 05,数据

就被认为具有显著性,否则就没有显著性。对于 0. 05 这个任意数字没有任何理论基础,但它被用来衡量许多具有强制后果的测试的显著性,例如某种化学品是否会引起耗子的癌症。

如果我们把这一标准用于上面的骰子例子,在我们的朋友掷出一个 7 点

或 11 点时,我们应祝贺他的好运,但如果连续两次掷出这个点数,我们就断

定骰子灌了铅(其概率是 0. 0494,不到 0. 05),并追求其后果。在真正发生这种情况是,我们也许会使用被称作常识的异常品质,考虑到与朋友的长久友谊,朋友内在的可信赖性,以及找到一对灌铅的骰子的困难。总之, 我们会作出明智的举动,尽管是主观的举动。主观不是一个肮脏的字眼,即使在统计中也不是。

贝叶斯统计一直引起争议,因为它不可避免地涉及一定的主观主义。这使它失去了传统形式的纯粹正式的结构,使实践者失去了秩序感和安全感。人们对这种丧失没有良好的反应。读者大概并不渴望做一个专业统计学家, 因此从这一节中得出的唯一教训是,密切注视人们是在用数据测试假设还是在用假设预测数据是很明智的。这是两种不同的行为,你会发现此二者经常混淆不清。生活中大多数事情是由前者构成的,而统计学中有许多是由后者构成的。