地理现象和频率概率

在概率的频率解释中,样本空间作为包括一个试验的所有可能结果最便于解释。因此,为了将地理问题映射入这样一个框架中,我们必须准备把现象看成好象它们是某种试验的结果。地理学中有许多情形,其中以这种方式将现象概念化而对所研究的这些现象并无多大损害。上班路程、购物路程、将信息传播给他人、迁移、土壤向山坡下运动、雨滴对土壤表面的冲击,以及许多其他现象,都可以在某些意义上看成试验,甚至更重要的是看成基本重复试验。为了采用形式概率论,需要在确定样本空间上取得一致。一个样本空间,因而可以定义为一定的上街购物所去商店的所有可能的组合(不考虑顺序)。以如此方式定义样本空间,看来并非考察购物行为的不合理方式

(这并非否认有概念问题,——在任何研究中都有概念问题)。那么,我们就有可能谈论诸如此类的事件(那个空间的任何子集),例如当我们到面包师那里去的同时又到屠夫那里,或连续两次到面包师那里去。

迄今,我们只说明了研究的题材。现在有必要提出分配概率的某种方法。在频率假定下,概率是假设在极限上稳定的观测的比率。因此,为了估计概率,需要假定我们的观测与某一假设的无限大总体(或全域)有关。这具有操作上的意义,因为为了找到满足这一条件的方法,所限定的总体和抽样方法都必须符合于某种偶然性状况(如一个随机样本)。

以这样方式将地理问题概念化,涉及到作出一些重要的先验假定,也涉以到对收集数据方法作一些限制。同意这样一种程序,那就有可能:(i)将概率论的演绎定理用作被研究现象的一种模型,并因而以一种严谨的、然而灵活的方法来处理那些数据;(ii)明晰地陈述统计假设;以及(iii)将这些假设与给定的数据集对证,以估计参数和检验假设。一旦我们在将地理现象映射入概率运算获得成功,可观的效益(就处理的严密和容易程度来说) 就会自然增长。但获得这些效益的代价是:我们将地理现象概念化为一般来说是重复的、循环发生的和独立的事件(或如果无独立性,我们可以说明其性质)。

考虑下列事件:

  1. 在大城市里上街购物;

  2. 整个聚落系统的发展;

  3. 国家之间的冲突;

  4. 欧洲首都城市的分布;

  5. 伦敦的建立。

这些事件是按照用概率运算方法来处理它们的可行性来排列的。看来可以完全合理地将(i)和(ii)看成可以采用概率运算的情况。另一方面,(v)完全没有资格作频率解释,除非准备在我们的想法中作出某种重要判断(如把伦敦看成是本来可以建立起来的无数伦敦中的一个)。在地理学中,我们具有不同情况的连续统一体,我们在其中将问题映射入概率运算时,有几乎没有丢掉什么信息一直到如此多信息被丢掉,以至这种行动变得毫无意义的情况,这两种极端之间某处,可推测出还有一点,在此处失去信息的缺憾与严密处理的优点均等。但此点准确位于何处,则是看法问题。

在最近十年左右,地理学家认识到了概率运算的频率解释,对地理问题的研究有巨大潜力。哈格斯特兰(1953)关于新事物扩散的早期研究值得一提,其中他寻求用蒙特卡罗模拟方法(包括从概率分布中重复抽样)使过程模式化:它引起了地理学家对他们面前的概率的注意。也值得提及柯里

(1962A;1962B;1962C;1964;1967)和达赛(1962A;1964A;1966;1966B;

1967)在发展地;理学概率模型上的杰出工作。对这一工作的一般评价,可以在柯里(1966A)和哈维(1967A)文中发现,而贝里和马布尔(1968)以及加里森和马布尔(1967)提供了论文和短论集,其中许多都探讨了概率概念和地理现象之间的关系。利奥波尔德、沃尔曼和米勒(1964)以及利奥波尔德和朗本(1962),也在景观的自然发展背景中探讨了概率模型。这些工作大部分是在 1950 年以后期间做的。地理学家们最后终于明确地发现,随机过程的一般理论(参看例如巴特里特,1955;费里尔,1957)提供了整个一系列便利的模型公式(如马尔科夫过程、排队过程、等待时间过程、扩散定

律等等),并可以现成运用它们,如果地理现象可以转化为或映射到形成这样模型基础的一种语言系统——概率运算——中去的话。

这里并不想评论频率概率对地理问题的许多应用。但有一个重要的问题值得一提。这就是:概率语言是作为一种描述过程还是描述数据(或两者兼之)的模型语言在起作用。假定已收集了一组观测数据,而且可将它们整理成像 X1<X2<⋯⋯<Xn。这样的序列,那么就有可能定义一函数 f(x),它给出了 xi 值的几乎完整的说明。有可能找到一个概率密度函数,它有效地概括了数据集。现在让我们假定数据集原来是正态分布的,因此它们的形式可以用下面的分布来描述:

f ( x) =

1

2νο 2

λ−( xμ )2 2ο 2

其中μ和σ2 是 两个参数,需要根据数据来估计(通常的方法是使μ等于数据的均值,σ 2 等于其方差)。这一函数为我们提供了数据集的便利的模型描述。现在我们可以利用这个函数代替原始资料进行运算。碰巧正态分布对于数据集是一种非常有用的描述手段,因为非演绎推断的许多规则,预先假定数据集具有这种特定形式。但关于这一特定概率分布的看法是:它只是一种描述手段,并没有试图将本来引起 xi 值分布的任何过程模式化。曾经尝试给诸如正态或对数正态等分布以过程类型的解释,但一般说来这些解释没有给人以非常深刻的印象。而给人留下深刻印象的是,在随机抽样条件下, 数据集合证明具有正态或对数正态分布(艾奇逊和布朗,1957)的情形大量存在。当然,特别是正态分布,为已证明是可应用于许多经验性问题的测量误差理论提供了基础。

然而,有可能就过程而不是数据来定义函数。因而我们可以推测,在某些过程中,机制(这一机制已加以详述)产生了一个概率密度函数,该函数形式反映了所研究的过程。这里,我们正把概率分布的数学推导,用作一种地理过程的模型。有大量概率分布可以以这种方式来运用。最重要的一族无疑是从泊松分布导出的。如科尔曼(1964,291)所指出的,这一频率分布特别适用于模拟自然发生过程,因为它研究在空间和时间中连续发生事件的数量。这一分布在空间分布的研究中特别有价值,并开拓了作为讨论地理学形式的基本语言——“几何概率”——的发展前景。从简单的泊松分布推导出来的一大族理论概率分布具有重大意义,如负二项分布、奈伊曼 A 型分布、波利埃一艾普利分布、B- 帕斯卡分布等等,全都具有有趣的地理学解释。考虑下列被奈伊曼在其奈伊曼 A 型推导中设想的实际生活情景:

小鸡从放置在所谓“大堆”蛋中孵化而出。出来以后,它们开始四处寻找食物。它们移动很慢,因而不论何时在一定地点,我们总会发现一只小鸡,这意味着大量鸡蛋肯定就在附近什么地方,因为小鸡是从这些蛋中孵化出来的,而这本身又意味着我们可能在同一地点发现更多的来自同一窝的小鸡。

我们再看安斯库姆(1950,366)对控制波利埃-艾普利分布的过程的说

明。

如果祖先(例如植物种子)曾经被随机播撒到一个区域,而后来又观察到它们的后代(通过植物的繁殖而自由增加),我们就期望每一样方中的个体数遵循波利埃- 艾普利分布。

这些过程类型很明显与地理学有关(哈维,1966B)。但也有可能假设地

理过程,并得出表达此类过程的概率定律来。达赛的大部分工作与精确地进

行这一步骤有关。在题为《比随机更规则的对点型修正的泊松概率定律》一文中,达赛(1964 A)提出了一种适于研究在中心地论中所假设的空间模型概串形式的一种概率模型。在另一篇文章中,达赛(1964B) 探讨了“用以度量廖什的城镇分布的一族密度函数”。又在另外一篇文章中,达赛(1966B) 探讨了聚落形成的历史过程,并推导出与之适合的概率分布。在一系列文章中,柯里(1962A;1964;1967)也提出了建立在泊松概率分布上的理论论证, 来作为时空过程的一种基本模型。

从地理学理论建设的观点看,无可怀疑,概率语言提供了相当多机会; 在此语言中,无可怀疑,泊松过程的研究为研讨地理问题提供了最适宜的形式之一。这一结论部分依赖于达赛和柯里在地理学中已获得的理论发展,而它也被一般公认的事实——即将经验性问题映射到建立在泊松概率上的概率论中去较为容易——所支持(科尔曼,1964;黑特 1967)。

当然,泊松概率这一理论的应用,取决于将地理过程先验地概念化为基本上重复、循环发生和独立的。如我们看到的,有许多情况中,这样的概念化是合理的。特别是在社会科学中相当经常地表现出来,聚集的人类行为可以被表示得好像具有这种形式(参看哈维,1967B,对这一问题的评论)。但如果作了这样远的概念化跳跃,我们就能用所有有意义的形式来扩充理论及数据的处理方法。这里,有意通过遍历性原理探讨大数定律和中心极限定理对理论发展的影响。

遍历性原理隐含在大数定律和中心极限定理中,当我们将一个地理问题映射到在一种严格的频率解释下的概率运算中时,这两个定理不言而喻地均被接受。假定我们在样本空间 S 中对事件 ai 重复地测定 xi,那么,林德利

(1965,I,157)叙述道:

通过取每一样本点或基本事件 a,找到那里的 xi 值和对所有 a 平均,并因此得到μ 均值就可得到;或可以取单一样本点,⋯⋯为这-a 找到调 x1、x2、x3⋯⋯,它们的均值

将是膨胀 x。假定这些 xi 服从一定条件,两个均值就会相等。遍历性原理就涉及这种情

况的条件,而这里的规律只是一种很简单的情况。整个样本空间的平均通常称作空间均值;{xn}的平均称作时间均值,因为 n 可设想为时间的度量。

在一静止随机过程中,空间均值和时间均值二者相等,其他关系也可以认为是相等的。现在,乍看起来,柯里(1967;以及前文第 156—163 页)的遍历性假定及其全部有趣的理论结果似乎不符合实际。但事实上我们已经心照不宣地假定,由于对概卒运算中表达问题方式的选择,过程是随机的,唯一的附加限制条件是静态的假设。这一假定的合理性,可以根据其自身的优点加以判断。按这种说法,柯里的假设看上去更合适,即使它们确实成为对我们关于聚落过程的想法的强烈限制。达赛对衣阿华州聚落模式的环状绘制,提供了这种分析的另一个有趣例子。达赛(1966 A ,562)承认地理学家可以将“研究区域相邻界线的连接”看成“第一级地理过失”,但他继续指出,“如果隐藏的过程被假定是静态的,那么就这一过程而论,任何两个亚区域都可看成是等同的,相邻边界的连接则是合法的。”在两种情况中,隐藏的过程都被假定为静态和随机的。这样假定在一定情形中并非无理,虽然必须承认地理系列常常是非静态的,此外它们还常常包括较多的不连续(例如由于政治或自然障碍的结果)。但是它一旦被接受,理论建设(在柯里的情形中)和数据收集(在达赛的情形中)就都没有理由不利用它所隐含的一切充分长处,或许我们应该从此学到的就是,应当愿意探索我们假定的意义

一直到“极限”。

频率概率为表示数据集合提供了一种方便的模型,也提供了整个一系列适于研究某些地理问题的静态和动态模型。对这些模型的研讨会产生新的假说,并导致以前在我们知识体系中保持孤立的各种假说之假设一演绎的统一。应当认识到这些假说在形式上是统计学的;以这种语言系统地阐述地理学假说,确实包括要作出重要的假设。以这样一种框架把地理事件处理到何种程度,这是一个只有通过仔细估计这一过程中要获得的效益和失去的信息量之间的平衡才能解答的问题。所有的研究都包括作出某种假定。很清楚, 地理学中有许多情况,概率语言提供了非常有效的研讨形式。