分类中的计量技术

现象根据其属性得以分类,有关某一对象的某一属性就成为某种度量。由此可见,分类可以是根据得自某种属性的度量来设计的,而不是根据该属性(其本身可以认为简直是名义上的标准)存在与否。度量过的现象属性含

有很多信息,如果度量过程中所需要的全部假设得以适当完成,我们就可望根据度量过的属性所设计的分类,比之根据其它方式设计的分类,会含有更多的信息(因而更符合实情)。为了在计量的基础上对现象加以组合,我们需要:

  1. 一套待组合的对象或事件

  2. 一套有关的属性或特性

  3. 一套有关对象属性的度量

    xij(度量可以是名称标度、顺序标度、区间或比率标度,或某种混合标度)。

然后我们可定义一个由 xyj)构成的 m ×n 矩阵。

分类的计量方法就涉及到为适当的组合步骤寻求这一度量矩阵。为此我们需要一个区分组群的规则。最普通的途径是使组群内的变异最小而组群间的变异最大(按照贝里的意见,关于这一规则有很多变体,1968)。组合和分类的这一明晰数学规则,正好与关于分类的一般直觉概念相一致,后者认为各类型相互之间应尽量区别开来,而内部应尽量均质。

但是,为了应用这一规则,我们要能够估计以 m 个变量度量的二个对象之间的距离(有时称为分类学距离)。这里,我们可以参考多维标度(如前述,第 373—376 页)原则,把我们用以分类的 m 个变量形成 m 维空间,每一对象或事件都置于其中。当各对象都位于该 m 维空间内时,我们需要度量它们之间的距离。例如,考虑一个二维正交空间(以 X 为一个城市中从事公用事业的人口百分比,y 为学龄外受教育的人口百分比),设想我们将六个城市置于这个二维空间中去(如图 18.4),从直观上就很显然,有二个组群 p 和 q 明显地相互分离。分别取两组的均值,我们就可得到二组间的方差以及各组内的均方差。在这个例子中,组合是显而易见的;但在一些不这么显然的情况里(图 18.4B),则只是可能在位于该空间中对象的所有组合关系间搜寻,并选定这样一种特别的组合关系来使组群间的方差达最大而组群内的均方差达最小。

原则上,这样一种方法听起来可能是够容易的了(虽然有点冗长乏味), 但仍有很多困难。最严重的困难与 m 维空间的几何形状有关。若是欧几里得空间倒无问题,但这等于说属性之间的相关矩阵没有意义上不同于零的表值,即是说所有的属性都是相互独立的。如果这些属性无论如何都是相关的

(实际上总是近乎相关的),则该空间为非欧几里得空间,那么我们需要了解该 m 维空间的结构,以便计算对象之间的距离。这就意味着我们还需要了解各属性间的相互关系是什么?现在育两个能使我们了解的方法。如果有关于结构的某种成熟理论,我们就能预定属性间的相互关系应该是什么,因而能从理论上定义 m 维空间。如果我们没有掌握这样的理论,我们可以根据属性在全部 n 个对象中共同变化的方式来寻求属性的组合。这样一种步骤等于是发展一种关于属性间结构关系的一般(但暂时的)理论,然后利用这个信息来定义 m 维空间。这样,对象的组合就依属性间相互关系的某些初始分析而定。最后的结果就涉及我们的基本数据矩阵——属性和对象这两个方面。实际上,伺样的分析方式可以用来考察两个方面。遵从常规用法(卡特尔, 1965),我们可以区分 R 方式分析(它考察 m 个属性或变量间的相互关系) 和 Q 方式分析(它考察 n 个对象或观测物间的相互关系)之间的区别。

不能把 m 维空间的性质所提出的方法问题看作一种无关紧要的技术困难,不能刚一碰到就把它撇到一边,不能不如努力分析就假设它不存在。实

际上分类的极端重要性就集中在这一基本问题上,因为这个问题的解决,就意味着我们对所研究现象的理解显著增加。发展对属性间相互关系的认识是任何研究的基本目标之一。分类作为一种探究步骤的重要性,依靠它提出了这个非常基本的问题这一事实。确实,可以认为解决这一步骤上的困难,意味着建构某种相关理论,它比最后的结果——分类系统本身远为重要。

如果我们掌握有关 n 个对象的 m 种属性的某些度量方法,就能够经由利用已设计好的相似性、联系性和相关性的各种度量,来估计属性或对象间相互关系的性质。可用的度量种类数不胜数,但最好以所用度量系统的性质为根据(名称的、顺序的等等,见囹 17.1),以样本的大小为根据(小样本统计通常与大样本统计不同),以分布形式为根据(非正态分布的数据需要非参数的度量,除非可将数据改变为正态分布,在这种情况下可以用参数检验)。这样,我们就可使用从 x2 列联度量和? 系数,列斯皮尔曼的等级相关和肯达尔的τ方法,一直到积矩相关系数这样广泛的各种度量;或者我们可以设计一些特别的度量来直接检验联系性(索卡尔和史尼斯,1963,第 6 章;

格雷格一史密斯,1964,第 6 章和第 7 章;米勒和凯恩,1962,第 12 章和第13 章)这些度量在 R 方式中将每一属性与所有其它属性加以比较,在 Q 方式中将每一对象与所有其它对象加以比较。以后的问题是,给定这一基本信息后,我们将如何组合属性或对象。借助举例的办法,我们将考察很多与鉴别类型的这一技术问题有关的方法。