检验假说——频率方法

统计推断频率学派的主要目的,是发展一种尽可能客观的非演绎语言, 同时产生可接受的结果。所以费舍尔(1956)拒绝所有主观因素,寻求发展一种避免先验分布和终端效用两者混杂的非演绎语言。这并非说,不管是他还是受他影响的其他统计学家都否认先验信息和终端效用是相关的。所以皮尔逊(1962,55)就关于奈伊曼-皮尔逊理论的基本公式写道:

我们肯定意识到推断必须利用先验信息,决策也必须考虑效用,但对这些观点进行深入思考和讨论后,我们或正确或错地得出结论:难以将纯数值用于我们必须以别的研究方法来探讨的这些实体。因此我们站在只运用与相对频率有关的概率方法这一边。

有一些具有深远影响的结果,它们源自拒绝应用先验分布和将非演绎推

断化为公式的贝叶斯格式。没有先验分布就不可能估计犯错误推断的概率。因此,贝叶斯非演绎语言中错误(mista- ke)这一概念,在频率语言中被误差(error)概念所代替。布洛斯(1953,22)指出,这里的区别本质上是合成概率和条件概率之间的区别。错误涉及坚持实际上并非正确的假设,这是

事件 A 和事件 B 发生形式的组合概率。而出现误差则牵涉到如果 B 为真则就判断 A 为真,因此这是条件概率。这两种概率是非常不同的度量,在贝叶斯定理中它们被联系起来,以致于犯错误的概率是先验概率与出现误差的概率之乘积。既然先验概率在频率语言中通常认为是不容许的,那么这样的语言一般只能涉及误差而不是错误。由于这个缘故,不应认为用频率语言所作的推断,为行为提供了任何必要的辩护。

频率语言中对先验概率的排除,面临着一个问题。有两个解决办法。一个是由费舍尔提出的,涉及所谓的置信概率,与奈伊曼一 皮尔逊理论中提出的置信区间理论大不相同(肯达尔和斯图亚特,1967,II,134—58)。但在这两种情况中,目的都是陈述一种仅指检验择一假设中观测数据的非演绎语言。在这两种解决办法中,置信概率论证困难最大,许多人宣称这些困难如此严重,以致于这种论证应当予以拒绝(普莱克特,1966,241—4 ;哈金, 1965,133—60)。肯达尔和斯图亚特(1967,II,134—5)提出了对置信估计涵义的明确解释,并指出费舍尔(1956,51—7)定义的置信分布并不是该术语一般意义上的频率分布。它确实表示了“我们对一个参数各种可能值的信度”。因而这种分布很类似于“信度”的思想,而萨维奇(凯伯格和斯莫克勒,1964,178)简直把它看作“煎贝叶斯的蛋而不打破贝叶斯蛋壳的大胆企图”。所以看来最好是将注意力集中于奈伊曼-皮尔逊理论,它无疑为非演绎推断造成了最有影响的频率语言。

奈伊曼-皮尔逊论者的目标在于提出一种择一统计假说可得以检验的理论(奈伊曼,1950)。我们或许值得较详尽地研讨“统计假设”一词的涵义。考虑一随机变量 X,可以取值 X1<X2<X3<⋯<n,并在某一样本空间上定义

(即所有观测都来自同一样本空间)。可以定义一个频卒函数 f(x),它描述随机变量将取任何特定值的概率。于是可将统计假设定义为关于 f(x)的假定。我们能够做出关于 f(x)的形式的假设——例如假定它是正态、泊松、负二项等等,或关于 f(x)的参数的假定。要将在其中分布的所有参数都加以说明的简单假说,与其中仅说明控制分布的参数子集的复合假设区分开。检验后一种假说的步骤显然更复杂,但在原理上与检验简单假设没有区别(肯德尔和斯图亚特,见前所引著作,第 22 和 23 章)。

检验假说就要确定一套规则,据此我们可以拒绝或接受假说。这些规则实际上是归纳行为的规则。奈伊曼-皮尔逊理论中运用的特定方法,是将样本空间(即所有可能的观测子集)划分成两个区域。一个区域成为接受区域; 另一个称作临界区域,它形成了拒绝区域。一般给予临界区域以某一任意值。这一任意值通常称作检验的容量。但真正的问题是:如何区分支持一给定假说的那些观测和不支持该假设的那些观测。换句话说,我们需要为决定临界区域在样本空间的位置而建立一些精确的规则。奈伊曼-皮尔逊理论清楚地认识到,如果不知道将特定的统计假设与一些什么取舍作比较,这一点就确定不了。因此,“检验的充分理论,不仅必须考虑到检验中的统计假设,而且要考虑到它的对比者”。(哈金,1965,89)由于运用择一假设,因而有可能构造一套规则。这些规则取决于类型 I 误差和类型 II 误差的概念。类型 I 误差由所选定的检验的容量(有时称为显著性水平)给定,而类型 II 误差是择一假设的一个函数。提出的原则是:在具有相同容量的所有检验中,选取一个对类型 II 误差尽可能小的。这就直接导致了检验功效的概念。检验功效是一个检验的判别能力的度量,它还是择一假设的一个函数。统计学家因此

谈论着各种功效函数等等。功效函数允许定义一个最佳临界区域,建立在这一最佳临界区域上的检验称作最大功效检验(肯达尔和斯图亚特,1967,II, 165)。这一程序可借助一示意图来说明(图 15.3),它取自肯达尔和斯图亚特。

此图显示了在二维情形中,样本点的两簇散布。让我们假定,A 周围的散布在如果 Ho(虚假设)为真时就出现,B 周围的散布在如果 Ha(择一假设) 为真时就出现。那么控制类型 I 误差就是要在此图上限定一个区域,例如它包括 A 周围聚点中样本点的 5%(或另外一种任意确定的水平)。我们是以下述一般信念来选择这样一种任意的低水平的,即:重要的是,特别要将犯这种错误的可能性减少到最低限度。我们可以以无限多种方式划出这样的线。于是,一个区域可以是直线 PQ 以上的面积,另一区域可以为 PQ 扇形 CAD。显然,根据图示,如果 Hu 为真,则 CAD 包括的期望点比例比 PQ 以上面积所包括的要小得多。所以,当在比例比区域 CAD 将包括的大的情况下 Ha 为真时, 后一区域当然将拒绝 Ho。因此它是一个更有力的判别者。

有可能以若干方式扩充奈伊曼-皮尔逊理论。根据该图应该清楚,整个样本空间被直线 PQ 划分成两个区域。但这并非总是今人满意的方法,因为很可能找到一组观测(如位于 D 周围),它会导致 Ho 的拒绝,但只能认为是对Ha 的极微弱支持。所以有可能发展各种混合检验,其中可确定第三个区域, 在这个区域中检验结果不确定,拒绝与否取决于另外的某种无关的试验结果

(哈金,1965,93)。奈伊曼- 皮尔逊理论的这些及其他扩充不需要我们多述(参看奈伊曼,1950,250- 343;哈金,1965,第 7 章;肯达尔和斯图亚特,1967,II:的一般说明)。

检验统计假设的奈伊曼- 皮尔逊理论形成了一种标准的非演绎语言。它是所谓统计假设检验的正统方法之基础。看起来其诱人之处,在于主张小容量和大功效似乎符合我们关于检验应该象什么的直觉,但该理论却受到大量指责,指责不仅来自费舍尔(1956,88—92)。他指责奈伊曼和皮尔逊的一种“愚钝态度”,这种态度“仅仅是出于他们自己对一种不现实形式主义的依托”,并且提出一种“易于将追随他们的那些人误引进大量无用的努力和失望中”的理论。费舍尔将他的批评置于他称为强制公理的基础上,这条公理主张,“显著性水平必然等于在假设允许的任何固定总体的重复抽样中, 用来拒绝该假设的那一频率,这真是自相矛盾却又普遍如此”。真正的批评是,在任何检验数据可行之前,就武断地确定检验容量,这就排斥了从数据本身了解关于“显著”的任何内容的全部可能性。所以,如哈金(1965,97

—106)所指出的:奈伊曼- 皮尔逊理论的范畴,是对前试验下赌注,而不是对结果后的试验作评价。因而,建立在奈伊曼- 皮尔逊理论之上的检验,被许多人认为是误入歧途,除非在非常特殊的情况下才不是这样。