判别分析

在判别分析中,我们从一系列已知其属性的类型入手。但在多质分类中, 可能难于决定某一单个元素在几个可能类型中的归属。在将个体归入预先确定的类型时,我们要能保证“在大量类似情况中所产生的失误尽可能少”, 对此,判别分析提供了一套规则(肯达尔,1957,144)。在米勒和凯恩(1962, 276—83)、肯达尔(1957,第 9 章)以及库利和洛内斯(1964,第 6 章)的著作中,可以找到这种方法的很好说明,而卡塞蒂(1964)已把它用于地理

研究中。

我们可想象把 m 维属性空间分划为两个区域 R1 和 R2,使得 R1UR2 包括这一空间,以后的问题是以某种方式划出这两个区域的边界,使得在把个体置入区域中去时,这种方式所导致的错误分类可能性最小。在给定两种已知有差别的类型后,线性判别函数提供了一条确定这些区域的途径。我们不须涉及估价线性判别函数的步骤(米勒和凯恩,1962,276—83,提供了极好的说明)。

然而,卡塞蒂(1964)在把这种技术扩展到地理学问题中时已指出,判别分析有可以用来测量某种特殊分类的功效,由此进入重复步骤只有一小步,通过这种重复步骤可以很好地鉴别最优分类。于是,我们能够变换线性判别函数(即改变其参量),并寻求一个最有效地作组群间判别的线性判别函数。但是,这并非是判别分析的初始目标,判别分析的主要功能是为将对象归入预定类型提供一套计量规则。

分类的计量方法有四方面:

  1. 属性之间或对象之间相互关系的定量分析。

  2. 把各种相关转换或简化成具有已知性质的几何结构(通常是欧几里得空间)。

  3. 以这一转换空间中测得的距离为根据,将对象或属性加以组合或聚群。

  4. 一旦已稳固地确定了类型,则建立规则以将现象归入类型。

计量分类的所有这几方面,都已在地理学中作了尝试,关于它们的作用和限制性,值得作一个简略的评论作为本章的结束。这些技巧的限制性基本上取决于可得数据的性质,以及为了证明哪些数据的数学操作有理而必须作出的假设。例如,众所周知,因子分析中有一些固有的问题(如怎样估计公因子方差和抽样变差下的因子稳定性)。所以米勒和凯思(1962,295)指出, 在因子分析中,由于数学系统中的变动和某一系统中技巧的选择,对几个因子分析结果的综合,如果不是实践上做不到的话,也是很困难的。瓦里士

(1965)以及马塔拉斯和赖赫(1967)的研究证实这个论点,虽然因子分析作为一门技巧正在迅速变化这个事实值得注意(卡特尔,1965,1966),各种聚类、联结和组合方法也面临类似的应用困难。基本数据的性质也需要仔细考虑,这里,变量(属性)的选择、数据收集时的抽样设计、被研究现象的适当度量,全都需要仔细斟酌,因为它们必然要影响可处理数据的合理运算。所以,对于区划问题选择矩积相关系数看来就很不合适,因为这种统计的技术要求之一,是观测的独立性。既然区划的目的是产生内部相对均质的连续区域,似乎可以肯定这种观测的独立状态将大受干扰。

简言之,计量技术的使用,需要对方法和数据作某种非常彻底的评价作为分析的开端。即使假定我们对数据、对假设以及对方法都很满意(但我们不得不承认总不能完全满意),我们仍然需要仔细地评价结果。总之,我们关心找到一般类型和属性间的一般关系,我们关心找到复杂数据矩阵的基本结构,尤其重要的是,我们关心鉴别关于结构的理论,它作为一种解析性的、逆报性或预报性的手段,可以支配我们的信心。各种分类的计量技术,作为探索方法预兆良好,它们能把我们引向新思想、新的分析框架,等等。它们在地理研究中具有巨大潜力,这种潜力能否实现,取决于理智的评价,而不是盲目的应用。