可信性与频率

我现在要讨论这个问题:如果已知某个ψχ、那么在什么外界条件下从ψχ的频率中得出一个命题 a 的可信性?换句话说,如果“ψχ”是“a 是一个 a”,那么在什么外界条件下从一个或更多个具有“a 的分子中有 W/n 是β 的分子”形式的命题中得出“a 是一个β ”的可信性?我们将发现,这个问题并不象我们应当问的那个问题那样具有普遍性,但是我们首先讨论它还是可取的。

常识似乎明确地认为:在数学概率的典型例证中,它就等于可信度。如果我从一副纸牌中随便取出一张纸牌,那么“纸牌是红的”的可信度恰好等于“纸牌不是红的”的可信度,因而每一种的可信度都是 1/2,如果 1 代表必然性的话。就一个骰子来说,“最上方是 1”的可信度恰好等于“最上方是 2 或 3,4,5,6”的可信度。因此我们可以把数学的慨率论中所有推导出来的频率都解释为推导出来的可信度。

在把数学的概率翻译成可信度的这个过程中,我们使用了一个数学的概率论并不需要的原理。数学的概率论只是计算各种情况;但是在这个翻译过程中我们却必须认识到或者假定每一种情况都是同样可信的。这个原理的必要性很久以来就已经被人认识到;人们把它叫作不充足理由原理,或者(按照凯恩斯的说法)无差别原理。我们曾经把这个原理和凯恩斯联系在一起加以研究,但是现在我们却必须单独来研究它。在对它进行讨论之前,我愿意

指出这个原理在数学的概率论中并不是必要的。在这种理论中,我们只需要知道各种不同的类的数目。只有在我们把数学的概率当作可信性的尺度时我们才需要这个原理。

我们所需要的原理大致如下:“已知一个客体 a,关于它我们想知道‘a 是一个β’这个命题具有多大的可信度,并且已知我们仅有的有关知识是‘a 是一个 a’,那么‘a 是一个β’的可信度就是由 a 和β共有的分子数与 a 的分子数之比所确定的数学概率”。

让我们再一次举一个说过的实例来说明这一点,那就是美国身材最高的人居住在衣阿华州的机会。这里我们一方面有一个描述 d,我们知道它适用于 A1,A2,⋯⋯An 有姓名的人当中的一个并且仅仅一个,其中 n 是美国的居民数。这就是说,我们知道在“d=Ar”那些命题中有一个并且仅仅一个(这里 r 是从 1 到 n 的数)为真,但是我们不知道是哪一个。如果这真是我们的全部有关知识,我们就认为“d=Ar”这些命题中任何一个都和任何另外一个同样可信。在这种情况下,每个命题都具有 1/n 的可信性。如果衣阿华州有m 个居民,“d 居住在衣阿华州”这个命题的意义就等于“d=Ar”这些命题中 m 个命题的一个析取命题,因而为它们当中任何一个命题的可信性的 m 倍, 因为它们是互相排斥的。所以它具有一个由 m/n 来确定的可信度。

当然在上面的实例中“d=Ar”这些命题并不都属于同一等级。证据可以使我们把儿童和矮子,多半还把妇女除外。这就表明这个原理可能难以应用, 但是并不表明它为伪。

从一副纸牌中抽取一张纸牌的情况更接近于实现这个原理所要求的条件。这里“d”这个描述是“我要抽出的那张纸牌”。52 张纸牌都具有可以被我们当作名字的东西:黑桃 2 等等。这样我们就有 52 个“d=Ar”命题, 其中有一个并且只有一个为真,但是我们却没有任何使我们选择一个而不选择另一个命题的证据。所以每一个命题的可信性是 1/52。如果我们承认这一点,那么它就把可信性和数学的概率联系起来。

因此我们可以提出下面的公理,作为“无差别原理”的一种可能的形式: “已知一个描述 d,关于它我们知道它适用于 a1,a2,⋯⋯an 等客体中

的一个并且仅仅一个,并且已知我们不知道任何有关这个描述适用于这些客体中哪一个的问题的知识,那么 n 个‘d=ar’(1≤r≥n)的命题就都是同样可信的,因而每个命题都有 1/n 大小的可信性”。

这个公理比起一般所说的不充足理由原理来范围要狭小一些。我们必须研究它是否充分,还要研究我们是否有理由来相信它。

让我们首先把上面的公理与上一章所讨论的凯恩斯的无差别原理比较一下。我们记得他的原理是:相对于已知证据来说,p 和 q 的概率是相等的, 如果(1)这个证据关于 p 和 q 是对称的,(2)p 和 q 是“不可分的”,即 p 和 q 都不是具有与它本身形式相同的命题 387 的析取命题。我们认为这种说法可以简化如下:我们说必要的条件是 p 和 q 应当是一个命题函项的值, 比方说p=ϕ(a)和q=ϕ(b);“ϕx”不应当包括a或b;并且如

果这个证据有一次提到过a,比方说a以ϕ(a)的形式出现,它就一定也 包括ϕ(b),并且反过来说也对,这里ϕx一定不再提到a或b。这个原

理比起前一节所说的那个原理在某种程度上具有更大的一般性:它蕴涵着后一个原理,但是我却怀疑后一个原理是否蕴涵着它。我们也许可以接受这个

更为一般的原理,并把它重述如下:

“已知两个命题函项ϕx和ψx。其中没有一个提到过a或b,或者如果它们提到过a或b,提到的方式是对称的,那么在已知ψa和ψb的条件 下,ϕa和ϕb具有相等的可信性”。

如果我们接受这个原理,它将使我们能够从数学的概率推论出可信性, 并且使得数学概率论的全部命题可以在能够应用数学的概率论的实例上用来确定可信度。

让我们把上面的原理应用到下面这个实例上来:一个口袋里有 n 个球, 我们知道其中每一个球不是白球便是黑球;问题是:有 x 个白球的概率是多少?拉普拉斯认为 x 从 0 到 n 的每个值都具有相同的可能性,所以一个已知的 x 的概率是 1/(n+1)。从纯粹数学的观点看,这是合理的,只要我们从这个命题函项开始:

x=白球数。

但是如果我们从这个命题函项开始: x 是一个白球,

我们就得到完全不同的结果。就这个实例来讲,有许多选择 x 个球的方法。第一个球的选择可以有 n 个方法;在选择了第一个球之后,下一个球的选择可以有 n-1 个方法,以此类推。这样选择 x 个球的方法是 n×(n-1)×

(n-2)×⋯⋯×(n-x+1)。这是可以有 x 个白球的选择方法数。为了得出x 个白球的概率,我们必须用选择 0,1,2,3 或 n 个白球的方法的和去除这个数。这个和显然是 2n。所以恰好得到 x 个白球的机会是用 2n 去除上面这个数而得到的。让我们把它叫作“p(n,r)”。

当 n 为偶数,x=1/2n 时,或者当 n 为奇数 x=1/2n±1/2 时,这种机会最大。在 x 或 n-x 小的时候,如果 n 大,那么它的值就很小。从纯粹数学的观点看,这两个非常不同的结果是同样合理的。但是在我们处理可信度的度量上,它们之间的差别却很大。让我们有某种不靠颜色来分别这些球的方法; 例如,把它们从一个口袋中陆续取出来,并且让我们把第一个取出来的球叫作 d1,第二个取出来的球叫作 d2,以此类推。使“a”代表“白”, “b”代表“黑”,并且使“ϕa”代表“d 1的颜色是白色”,“ϕb”代

表“d1的颜色是黑色”。证据是ϕa或ϕb为真,但不能两者都真。这是对

称的,因而根据证据ϕa和ϕb具有相等的可信性;换句话说,“d1 是白球” 和“d1 是黑球”具有相等的可信性。同样的推理也适用于 d2,d3,⋯⋯dn。这样,就每个球的情况来说,白和黑的可信度是相等的。因此,象一次简单的计算所表明的那样,x 个白球的可信度是 p(n,x),这里我们假定 x 位于0 和 n 之间,并包括 0 和 n 在内。

我们可以看到在度量可信度上我们假定对于我们的知识来说,数据不仅为真而且还是全部有关的东西;换句话说,我们假定除了数据中所说的东西以外,我们就不知道任何有关的知识。所以就一个在特定时间的特定的人来说,一个特定命题的可信度只有一个正确的值,而在数学的概率论中,对于许多可能是完全假设性的不同数据来说,许多值却是同样合理的。

在把数学的概率计算的结果应用到可信度上的时候,我们必须注意满足两个条件。第一,那些构成数学列举的基础的实例,根据证据来看必须都是同样可信的;第二,这个证据必须包括我们的全部有关知识。关于前一个条件,我们必须讲几句话。

每一个数学的概率计算都从某种基本类开始,例如一块钱币的若干次翻转,一个骰子的若干次投掷,一副纸牌,一个口袋里所有的黑球。我们把这种基本的类的每个分子都作为一来看。由此我们构成其它从逻辑上引导出来的类,例如一块钱币的 100 次翻转的 n 个系列所组成的类。从这 n 个系列中我们可以挑出那些由 50 个正面和 50 个背面所组成的次类。或者从一副纸牌

开始,我们可以研究由可能分派出的牌组成的类——即 13 张牌组成的一些选

择——并进而探讨这些当中有多少包含同一组牌的 11 张牌。

问题在于计算出来的频率总能适用于具有某种根据这种基本类从逻辑上得以确定的结构的一些类,而为了这个问题的目的,我们把基本类看作由没有逻辑结构的分子组成;换句话说,它们的逻辑结构是无关宏旨的。

只要我们只限于考虑频率的计算——即在数学的概率论的范围内——我们就能以任何一个类作为我们的基本类,并参照它来计算频率。作出一个认为这个类的全部分子都是同样可能的假定是不必要的;我们所需要说的只是:为了当前的目的,我们要把这一个类的每个分子看成一。但是当我们想确定可信度时就需要使我们的基本类由一些相对于证据来说都是同样可信的命题组成。凯恩斯提出“不可分性”的意图就在于保证这一点。我却愿意说基本类的分子必须具有“相对的简单性”;即它们必须不具有可以由数据来下定义的结构。拿一个口袋里的白球和黑球作例。事实上每个球都具有复杂到令人难以置信的结构,因为它由数以万计的分子所构成;但是这与我们的问题并没有什么关系。另一方面,一个从由 n 个球组成的基本类中选择的 m 个球的集合却具有一种相对于这个基本类来说的逻辑结构。如果基本类的每个分子有一个名字,那么每个由 m 项组成的次类就可以得到定义。所有概率计算都必须涉及到可以用基本类来下定义的类。但是基本类本身却必须由不能在逻辑上由数据来下定义的分子所组成。我认为当这个条件被满足时,无差别原理总是会被满足的。

可是在这一点上我们却需要慎重。有两种方式可以使“a 是一个 a”具有概然性,不是(1)因为确知 a 属于一个大多数是 a 的类,就是(2)因为 a 可能属于一个全部由 a 组成的类。比方说,我们可以说“A 先生是有死的”, 如果我们确知大多数人是有死的,或者如果我们有理由认为所有的人都是有死的。当我们掷两个骰子的时候,我们可以说:“大概我们不会掷成双六”, 因为我们知道大 390 多数掷出的结果不是双六。另一方面,假定我有证据可以认为但并没有证明某种疾病总有某种杆状菌出现;我就可以说,就这种疾病的一个实例来说,大概会有所说的那种杆状菌出现。在每一种情况下都有一种三段论法。在第一种情况下,

大多数 A 是 B; 这是一个 A;

所以这大概是一个 B。在第二种情况下,

大概凡 A 都是 B; 这是一个 A;

所以这大概是一个 B。

可是第二种情况却更难以变为一个频率。让我们探讨一下这是否可能。

在某些情况下,这显然是可能的。例如,大多数的词都不包含 Z 这个字母。因而如果我们随便选取某个词,那么大概它的所有字母都不是 Z。这样,

如果 A=所说的那个词的字母组成的类,B=Z 以外的字母组成的类,我们就得到一个属于我们的第二个假三段论法的实例。当然我们必须通过某种方法来给这个词下定义,使得我们暂时对它毫无所知,例如《汉姆莱特》的第 8000

个词。或者《简明牛津字典》的第 248 页上第三个词。假定你现在不知道它们是什么词,你打赌说它们不包含 Z 就不失为聪明。

在我们的第二种假三段论法的所有实例中,显然我一直把它叫作“基本类”的东西是作为由类组成的类来给出的,因而它的逻辑结构是十分重要的。概括一下上面的例:设 x 是这样一个由类组成的类,它的大多数分子都包括在某一类β中;那么我们就可以从“x 是一个 a”和“a 是一个 x”得出“x 大概是一个β”的结论。(就上面的例来说,x 是由词组成的类,a 是由某一个词的字母组成的类,β是不包括 z 在内的全部字母。)奇怪的现象是用“x 的和”来表示由 x 的分子组成的类,我们的前提不足以证明 x 的和的一个分子大概是β的一个分子。例如,设 x 由 STRENGTH,QUAIL,MUCK 三个词,再加上所有不包括在这三个词里出现的字母的词组成。那么 x 的和就包括字母表全部的字母,可能不包括 Z①。但是“x 391 是一个 a 并且 a 是一个 x”使得 x 大概不是在上面这三个词里出现的字母之一,而“x 是 x 的和的一个分子”并不能使这个现象带有概然性。这就具体说明了基本类具有与概率相关的结构时所产生的复杂情况。但是在类似上面的情况中,我们仍然可能用频率来确定可信性,尽管不那样简单。

可是还有另外一类更为重要的情况,我们只有把它们和归纳连系起来看才能对它们进行适当的讨论。这些就是我们具有使得所有的 A 都是 B 具有概然性的归纳证据,以及我们推论一个个别的 A 大概是一个 B 的情况;例如, 大概凡人都有死(不是凡人大概都是有死的),因此苏格拉底大概是有死的。这是属于我们第二种的一个假三段论法。但是如果我们可以把“大概凡人都有死”中的“大概”改变为一个频率,它的改变方法一定不那么简单。因此我将把这一类情况的讨论留给下一阶段。

我们将发现许多不是从频率得出的可信度的例子。对于这些例子我现在就要加以考察。