单纯列举的归纳法

单纯列举的归纳法就是下面这个原理:“已知有 n 个数目的 a 已经发现为β,并且没有 a 已经发现不是β,那么这两个陈述:(a)‘下一个 a 将是一个β’,(b)‘所有的 a 都是β’就都具有一种随着 n 的增加而增加的概率,并且当 n 接近无限大时接近必然性而以它为极限”。

我将把(a)叫作“特殊归纳”,而把(b)叫作“一般归纳”。这样(a) 将根据我们关于过去人类都有死的知识推断某某先生也有死,而(b)则将推断大概所有的人都有死。

在我们还没有接触到较难或有疑问的论点之前,某些比较重要的问题却可以比较容易地得到解决。这些问题是:

  1. 如果归纳要完成我们期望它在科学中所完成的任务,“概率”的解释就必须使得一个概率陈述断言一件事实;这就要求所涉及的那种概率应当从真与伪推导出来,而不是一个不能下定义的概念;而这一点又能使有限频率的解释或多或少成为不可避免的解释。

  2. 归纳在应用到自然数列的时候显然是无效的。

  3. 归纳作为一个逻辑原理是无效的。

  4. 归纳要求它所根据的实例是一个级数,而不仅仅是一个类。

  5. 为了使这个原理有效,不管需要规定什么限制,必须通过给 a 和β这些类下定义的内包的说法表达出来,而不是通过外延的说法。

  6. 如果宇宙中的事物数目是有限的,或者只有某个有限类对于这种归纳有关,那么就一个足够大的 n 来说,归纳就成为可以证明的东西;但是在实际应用上这一点并不重要,因为这里所说的 n 比任何实际研究中可能遇到的一定更大。

我现在就来证明这些命题。

  1. 如果我们把“概然性”当作一个不可下定义的概念,我们就不得不承认不大可能的事也可能发生,因此一个概率命题关于自然界的进程并没有向我们提供任何知识。如果我们采取这个看法,归纳原理就可能是正确有效的, 然而每个符合这个原理的推论却可能证明为伪;这是不大可能,但并非不可能的事。因此,一个使归纳为真的世界在经验界中是不能与一个使归纳为伪的世界区别开来的。由此可以看出永远不可能找出任何支持或反对这个原理的证据,并且它也不能帮助我们推论将要发生的事。如果这个原理要达到它的目的,我们就必须把“概然”的意思解释为“实际上通常发生的事物”; 这就是说,我们必须把一个概率解释为一个频率。

  2. 算术中的归纳在算术中我们容易找出导致正确结论的归纳实例,也容易找到其它导致错误结论的归纳实例。耶方斯举出两个实例:

5,15,35,45,65,95

7,17,37,47,67,97

在第一行中,每个以 5 结尾的数都可以被 5 整除;这就使人推想每个以

5 结尾的数都可以被 5 整除,而这是对的。在第二行中,每个以 7 结尾的数

是一个质数;这也可能使人推想每个以 7 结尾的数都是质数,而这却是错误的。

或者让我们看:“每个为偶数的整数是两个质数的和”。每个试过的实例都说明这是对的,而这样的实例在数量上是很大 403 的。然而人们对于它是否永远为真这一点却一直抱着合理的怀疑。

作为算术归纳的一个明显失败的例,让我们看下面这个实例①:使π(x)

≤x 的质数的数目

x dt

li( x) = ∫ log t

我们知道当 x 数大时,π(x)和 li(x)几乎相等。我们还知道对于每个已知的质数来说,π(x)<li(x)

高斯推想过这个不等式永远为真。人们试过所有 107 以下的质数以及许

① 看哈代的《腊玛努赞》第 16,17 页。

多超过 107 的质数,都没有发现不能成立的个别情况。然而里脱伍德在 1912 年却证明对于无限数目的质数来说这个不等式不能成立,斯古士(伦敦数学学会通报,1933 年)也证明这个不等式对于某个小于

34

10

10

10

的数不能成立。我们将看到高斯的推想尽管已经证明是错误的,它却具有甚至比我们最坚信不移的关于经验界的概括所依靠的要好得多的归纳证据。

我们很容易无限制地得出算术中的错误归纳,而无需过多地涉及数论。举例来说,小于 n 的任何数都不能被 n 整除。我们可以使 n 任意增大,这样就为“任何数目都不能被 n 整除”这个概括找到尽可能多的有利的归纳证据。

显然任何 n 个整数一定具有大多数整数所不具有的许多共同性质。举一件事情来说,如果 m 是其中最大的数,它们就都具有不比 m 大这个无限罕见的性质。所以如果应用到整数上来,无论一般的还是特殊的归纳都不是正确有效的,除非在它身上应用归纳的那种性质具有某些限制。我不知道怎样说出这种限制,然而任何一个有能力的数学家关于那种可能得出一个后来证明正确有效的归纳的性质都具有一种类似常识的觉察力。如果你看到 l+3= 22,1+3+5=32,1+3+5+7=42,你就会容易推想到

1+3+5+⋯⋯+(2n—1)=n2

并且我们可以很容易证明这个想法是正确的。同样,如果你看到 13+23

=32,13+23+33=62,13+23+33+43=102,你就会推想到靠前面的 n 个立方的和永远是一个平方数,而这又是很容易加以证明的。对于这类归纳来讲, 数学的直观并不是永远可靠的,但是有能力的数学家运用直观时对的次数似乎比错的次数要多。但是我不知道怎样讲明白在这类情况下指导数学直观的那种东西。另外,我们只能够说还没有任何已知的限制能使应用到自然数上的归纳有效。

  1. 归纳作为一个逻辑原理是无效的 显然如果我们可以任意选择我们的类β,我们就可以很容易地确信我们的归纳将要失败。设 a1,a2,⋯⋯an 为 a 中直到现在已经观察过的分子,并已发现它们都是β的分子,另外设 an

+1 为 a 的下一个分子。就纯粹逻辑的范围而论,β也许只由 a1,a2,⋯⋯an 这些项目组成;或者它也许是由把 an+1 除外的宇宙中所有事物组成;或者它也许是由任何介乎这两者之间的任何类组成。就这类情况中无论哪一种情况来说,推论到 an+1 的归纳都是错误的。

显然(反对的人可能说)β 必须不是一个也许可以叫作“制造出来的” 类,即一个部分地由外延得到定义的类。在归纳推论中所研究的那类例子中, β永远是一个通过内包而不是通过外延来知道的类,除了那些被观察到的分子 a1,a2,⋯⋯an 以及那些不同时是 a 的分子而又碰巧可能被观察到的β的分子。

我们很容易做出显然错误的归纳。一个乡下人可能说会说:所有我曾看到的牛都在希尔福郡内;所以大概所有的牛都在这个郡内。或者我们可以提出:所有现在活着的人都没有死去,所以大概所有现在活着的人都不会死。这类归纳中的谬误是很明显的,但是如果归纳是一个纯粹逻辑的原理,这些

就不是谬误。

因此显然如果要归纳不能证明为伪,β这个类必须具有某些特点,或者必须与 a 这个类具有某种特殊关系。我并不是主张有了这些限制这个原理就一定为真;我所主张的是没有这些限制这个原理就一定为伪。

  1. 在经验界的素材中,事例都是按照时间顺序发生的,因而它们永远是成系列的。当我们研究归纳是否可以在算术中应用的时候,我们自然想到按照大小排列起来的那些数字。但是如果我们可以任意排列它们,我们就可以得到奇怪的结果;例如,象我们已经看到的那样,我们可以证明一个任意选取的数不为质数的可能是无限小的。

在表述特殊归纳时重要的是应当有下一个例,这就要求排成系列。

要让普遍归纳具有说服力,我们就必须知道 a 的前 n 个分子发现是β的分子,而不仅知道 a 和β具有 n 个共同分子。这也要求排成系列。

  1. 假定我们承认如果要归纳推论正确有效,在 a 和β之间就必须有着某种关系,或者它们当中一个必须有着某个特点,由于这种关系或这个特点它才正确有效,那么显然这种关系必须是介乎内包之间的——例如介乎“人”和“有死的”之间或者介乎“反刍动物”和“分蹄的”之间。我们打算推论出一种外延关系,但是在我们处理经验界中不断发现新的分子的一些已知类时,我们起初并不知道 a 和β的外延。每个人都会承认“狗吠”是一个正确的归纳;我们预料到一种动物的视觉外形与它做出的声音之间的相互关联。这种预料当然也是另一种范围更大的归纳的结果,但这并不是目前我所要谈的问题。我所要谈的是介乎都是内包的一种形状与一种声音之间的相互关连以及某些内包看来好象比某些其它内包更可能具有归纳上的关系这件事实。 6.这一点是明显的。如果宇宙是有限的,完全的列举在理论上就是可能

的,在完成这项工作之前一般的概率计算表明归纳大概是正确有效的。但是在实际应用上这种想法并没有什么重要性,这是因为我们能够观察的事物与宇宙中事物在数量上过分悬殊的缘故。

让我们回到那个一般原理上来,记住我们必须找出某些使它 406 可能正确有效的限制。让我们先看特殊归纳。特殊归纳说,如果我们发现任意选出的属于 a 的 n 个分子完全由β的分子组成,那么下一个 a 将是一个β就是可能的;换句话说,大多数剩下的 a 是β。这句话本身只需要具有概然性。我们可以假定 a 是一个有限类,比方说包括 N 个分子。我们知道其中至少有 n 个是β的分子。如果同时为β的分子的 a 的分子总数是 m,

N!

那么选择n个项目的方法总数是 n!( N − n)! ①13602100_0486_0,而选择n个为

m!

a的项目的方法总数是 n!( m − n)! 。因此一个完全由a组成的选择机会是

m!(N − n)!

N!(m − n)! 。

如果 pm 是 m 作为 a 和β的共同项目数的先验可能性,那么在经验后出现的可能性就是

N m!(N − n)!

Pm•

让我们把它叫作 qm。

∑Pm• N !(m − n)!

如果 a 和β的共同分子数是 m,那么取出 n 个为β的 a 之后,还有 m—n

个β和 N—m 个非β。所以,根据 a 和β有 m 个共同分子的假设,我们得出另一个β的概率。因此总的概率是

N m − n

∑qm •

m=n

这个式子的值完全要看 pm 的值来定,而 pm 的值并没有正确有效的计算方法。如果我们和拉普拉斯一样,假定 m 的每个值具有相同的概率,我们就

n + 1

得到拉普拉斯的结果,即下一个a是β的机会是 n + 2 。如果我们先验地假定

每个 a 为β和不为β是同样可能的,那么我们就得到 1/2

n +1

的值。即使我们有拉普拉斯的假设,普遍归纳也只有 N +1 的概率,通常这是

个较小的值。

因此我们需要某种在 m 接近 N 时使得 pm 为大数的假设。这将必须依靠 a 和β两类的性质,如果我们要让它具有正确有效机会的话。