(1)检验假说——一般性问题

从一组择一假说中选出“最好的”,这种非演绎推断遵循与日常推断相同的普遍原则(布洛斯,1953,214)。但非演绎推断的目的是构造一种语言, 用这种语言将这些直观步骤形式化为规则。这些规则保证,任何人如果从同一组择一假设和同样证据出发,则将获得同样的结论。一般程序是从说明所要考察的全域 U 开始。这一全域确定研究的范围。然后 U 可以分成有限数量的集合 Hi ,可以把它们看成是关于 U 的假设。根据某种规定的抽样程序, 可以从 U 中抽取一个观测集合 E。 对于每一 Hi ,我们可以指定一个预期的、独特的观测集合。然后检验一个实际观测集合,如果它们在一特定假设下符合所期望的结果,那么就可以接受这一假设为真。这种一般程序可以参照贝叶斯定理加以更详细的说明。贝叶斯定理为:

P = ( HiE) = P(Hi) P(EHi) (i = 1,2, n) (∑ P( Hi) P( EHi))

i

在任何情况下分母不变,因此贝叶斯定理又可写成: P(Hi │E)∝P(Hi)P(E │Hi),

在字面上可将其看成:后验概率与先验概率及似然的积成比例。这一定理的重要性在于,只要能找到先验概率及似然,它就可为估计假设的真实性提供一个推断规则(阿克曼,1966,91;普莱克特,1966,249)。

  1. 如果采用贝叶斯定理,就需要估计先验概率。但除非特殊情况,要提出对它客观的、不偏不倚的估计是极其困难的。于是,早期的统计学家假定先验分布具有某种特定形式,而所选的特定形式因人而异。由于这一原因, 费舍尔及其后的大多数频率统计学家们,在除了可得到以样本证据为基础的某一确凿估计之外,都将先验概率从统计推断中排除出去。但最近,几位统计学家(如萨维奇,1954,林德利,1965)将先验分布重新引进,并将贝叶斯定理又用于统计决策问题。在这样做时,他们指出,在许多情况中,在收集到特定的一组证据以前,我们就掌握大量关于假设为真或错的信息。因此主观论的统计学家也准备让 Hi 中的“信度”起先验概率的作用。这些信度如已强调(见前文,第 287—288 页)的那样,以协调性和一致性为条件。当然, 困难在于通过内省方法建立的先验概率将会因人而异,无法客观地对它们提出质疑。大多数主观论者宣称,这总比将所有先验的信息都抛弃更可取,而正统的频率方法,在任何情况下既不必要地受到限制,又被它自己概念上的严重困难所困扰。在频率假设的情况下,“概率论只能是将某种试验数据的特性抽象化的一种有用工具”,但主观论者根本没有看到为何“统计学家的统计经验不能加以科学研究,结果只有服从某种有用的形式上的抽象”的真正道理(阿克曼,1966,89)。

  2. 给定了 Hi,E 的似然也需要估计。这里 P(EHi)通常称作似然函数 L(θ)。它相当于表示获得一特定数据集的概率,如果一定的假设为真的话。但这方面已经做了大量工作,特别是费舍尔。似然函数在贝叶斯和频率两种语言中都很重要(安斯库姆,1964,167—9)。虽然似然函数具有普遍的重要意义,但它还是摆脱不了一些笨拙的假设。但这里不再考虑这些, 因为它们多少具有技术上的性质(安斯库姆,1964;哈金,1965;普莱克特, 1966)。

  3. 择一假设的检验要受选择 Hi 的影响,这也是不言自明的。在某些情况中,对假设本身,可以在讨论时对所用的语言有所限制。因而频率语言将假设限制于统计表述——即关于大量事件的陈述。所以,在形式上有一重要要求:假设“应当用基础概率论的语言来表示”(丘奇曼,1948,26)。因此,如果我们为了非演绎推断而接受一种特定语言,那么我们必须准备以这种语言陈述我们的假设。这一形式上的重要条件,提出了一个有益的告诫。关于诸如购物行为、迁移、边界争端等等事件的假设检验,都取决于通过某种基本概率语言,来将这些事件事先概念化。我们考虑的全域由瑞典的 90 个城镇组成,然后用奈伊曼- 皮尔逊理论的统计检验;而这种检验必须假定这些城镇是一个来自即使不是无穷大、也是非常大的总体的样本。所以这一论证是矛盾的(见下文,第 329—342 页)。

在检验 Hi 以从中找到“最佳的支持”说时,下面这点也应是明显的,

即:哪一个被证明是最佳的支持,取决于对这些取舍的详细说明。对贝叶斯方法的责难之一是:它要求检验一个假说连续体,但那些假说“几乎全部都是不正确的”(普莱克特,1966,255)。频率方法通过探讨孤立的假说来回避这一问题——频率语言中的传统方法就是建立一种虚假说(这即是说,对于一定的假设,不存在来自数据集的支持)和择一假说(提供支持),然后以证据为基础,在它们之间选择。贝叶斯论者认为这一程序是不必要的限制, 因为可以找到许多假说,对它都可找到足够的支持来接受它们。接受一个择一假说,并非说明接受它为最好的假说(的确许多被接受的假说证明离目标很远),而且这种接受也肯定不会为实现该假说提供任何自动的辩护。

(d )终端效用的概念在贝叶斯的统计决策方法中也被认为是非常突出的。这个终端效用是指赋予做出一错误推断的数值。我们可能犯各种各样的错误。检查这一问题的经典方式,是将其与一个虚假设检验联系起来考察, 其中,结论可能有下列四种方式:

于是,我们对犯了这些不同类型的错误,要赋予什么数值的问题就出现了。一般都认为类型 I 错误是过失,它要比类型 II 错误更为严重。但实质上这是由贝叶斯论者所做的数值判断,而频率论

虚假说真

择一假说真

拒绝虚假说

类型I 错误

正确决策

接受虚假说

正确决策

类型II 错误

者也作如是观。很重要的是,确定错误的哪种概率在一定情况下是可容忍的。这就要求某种意愿来作用于给定检验的结果,而这就不可能脱离一定作用方式的结果和判断这些结果时所赋予的数值系统来决定。贝叶斯论的统计学家坦率地承认这一重要性,并倾向于允许变化的主观判断进入问题。贝叶斯论者由于特别注意终端效用,因而对全部决策过程感兴趣,并认为假设检验也包括对行为的可取之处。主观论者无疑对假设检验持有远为广泛的看法,但他们却为此付出了允许赋值判断的代价。频率方法抑制了数值判断,结果又受到更多的限制。