第三节 聚类分析

在自然地理分析中,人们以极大的注意力,集中于两大类根本问题。其一,探讨在自然地理面中的差异性,它最后必然归结到研究“自然地理类型” 及其空间分布的特征,以分析的眼光,在不同的等级系统上,探索其中各个要素的差异以及产生这种差异的原因和规律;其二,就是要研究自然地理面中的相似性,它最后必然归结到研究“自然地理区划”及其划分的依据和方法上。它以综合的眼光,在不同的等级上,剪除可以忽略的次要因素,寻求出对于说明本质贡献率最大的那些因素,也就是求取它们之中的共性,联成一个集合。

这两大类问题,都具备着模糊数学概念的基本品格,它们互相关联,彼此“互补”,相似性中蕴育着差异性,任何差异性又必然有某种程度的相似性。地球和月亮相比较,尽管地球本身各处的差异是如此地巨大,但却可以看作是相似的,这是相对于月球而言;地球表面上海洋和陆地相比较,二者又可以分别看作是相似的。以此类推,差异性与相似性互相交织,显示出一个逐次的无限循环系列,构成了自然地理面中又一基本性质。

关于差异性的分析,前面两节均有涉猎。本节则集中介绍对于相似性处理的一种基本方法,这就是聚类分析。聚类分析是近年出现的数量分类学中一个分支,因为它对于处理自然地理现象特别有用,逐渐受到有关学者的高度重视,并且引进到处理地理学的具体问题。

对于相似性和差异性,一如通常所谓的灵敏度、分辨力、竞争力、生存力、可靠性、可移动性、环境适应性⋯⋯等,并不具有精确的边界。象这种没有确切界线的集合,统称之为“模糊集合”。它的基本概念建立,不过十余年的历史,然而由于它解决了原先不易解决或无法解决的实际问题,使得上述的模糊关系、模糊语言、模糊系统、模糊逻辑等,具有明确的数学表达的可能,因而逐渐在生物学、地学、环境科学等领域中获得了广泛重视。

对于一个普通的集合来说,可以简便地将其表达为:

μ ( x) = 1

(x ∈A)

(x ∉A)

(6.18)

μA(x)表示 x 是否属于集合 A 的取值;(6.18)公式的意思就是说,x 要么属于集合 A,要么不属于它,属于它时就取值 1,不属于它时就取值 0(见图 6.14)。

这是纯粹数学范畴中的集合概念,其间有十分明确的界限。但这种截然分开的集合,在自然界中毕竟是很少的,大量存在的现象并非如此。那么对于某种既可属于 A 又不完全属于 A 的现象表达,以及这种现象在集合中的取值问题,该怎样用数学方法去处理它们呢?只能采用模糊集的原则。这里不需要去论述它的基本概念及运算规则,只是因为在聚类分析中以及其它问题的处理上,要涉及到它,在这里提出来,便于对自然地理分析中大量存在的模糊现象有比较深刻的认识。

聚类分析作为多元分析的方法之一,由于引进了模糊集合的基本法则, 使得它处理问题的能力和范围都有了很大的进展。分类和区划,是自然地理学中研究空间分布及区域特征时的重大任务,向来为地理学家们所重视,正

确地反映符合客观现实的界限,其理论意义和实际价值都是勿庸置疑的。长期以来,地理工作者虽对此投入了极大的精力,但都感觉到迄今尚未脱离定性的纯经验的描述阶段,还没有建立一套比较好的定量方法。当然,由于自然地理所面临的变量如此之多,关系如此复杂,纯粹数学无法胜任诸多的参数及变化过程,因此欲要建立良好的定量方法也是极为困难的。当引进模糊数学概念后,使得问题的处理有了更接近于实现的可能,但距成熟解决问题的路程还是漫长的。聚类分析只能认为是在这一方面的尝试,其目的是为了把互相差异的自然地理区域或现象,进行分类和归纳。

当进行对特定对象分类时,首先必须采用“相似系数”或者与其具有同等意义的“差异系数”。这种系数是反映被分类对象之间亲疏程度的数量指标。两个客体之间的相似系数越大,其对应的差异系数就越小,这两个客体的关系就越密切,合并成一类或划定为一个区的可能性也就越大,至于亲密关系达到何种程度才可以归为一类,就要引入模糊集中的“隶属度”数值, 再根据具体的要求、特定的对象、划分时的范围大小及粗略程度来确定。

如此说来,建立相似系数并对其分析与选择,正是进行聚类分析的基础。当然,相似系数建立的本身,就是一个十分困难的过程,它既取决于人们对于分类现象本质认识的深度,又取决于人们的实际工作经验。在自然地理面中,能反映一个地域特征的指标,不下数十种,每一种指标都对构成这种特定的自然环境,有着自己的“贡献率”。除此而外,这些指标之间又有极为复杂的联系,共同对环境产生所谓的“整体效应”。在实际工作中,我们既不可能也无必要将这些指标全部囊括起来,有时甚至还无法立即明白这些指标之间的复杂关系。因此首先就要求制定,这些指标按照对于自然地理区域特征的贡献率,分别是多少?哪几个指标对于造成特定自然地理区域的贡献率最大?这就需要应用通常所谓的“主成分分析”,以便从众多的指标中, 择取既能反映客体本质、在数目上又尽可能少的主要指标来。

其次,还要将这几个择取出来的主要指标,在所要进行聚类的诸单元中, 给予数量化并且统一评定其数量大小,即进行所谓的“标准化”(此时尚须注意标准化的方向),这样各类指标才具有等效值特性和可比性。只有在它们顺利解决之后,才能从它们中间选用合宜的方法如要素分析或聚类分析等,去实行分类。

最通常使用的相似系数是“欧几里德距离系数”,用 dij 来表示。给定两个独立的对象 i 和 j,它们之间的距离系数 dij 可以规定为:

1

p 2  2

d ij

∑( Xik − X jk ) 

=  k=1 

p

(6.19)

假设 P 变量是正交的。左图就表示了 P=2 时的状况。

它表述了两个标作 i 和 j 的对象,分别位于点 B 及 C。BC 之间的距离即为从 i 到 j 的欧几里德距离(亦即直线距离),这可以由勾股定理求取。由于 x1 轴与 x2 轴是正交的,ABC 为直角三角形,故而:

1

BC = (AC2 + BA2 ) 2

∵AC2 = (x − x ) 2

BA2 = ( x − x ) 2

1

∴BC = ((x i2 − x j2 ) + (x − x ) )2 d

2 2

j1

倘若 P>2,很容易看出它的求取办法类似于 BC,只不过在等号右边加上

(xi3-xj3)2,⋯⋯,(xi-xj)2,而已。dij 的数值范围可以从 0(完全相似)到无限大(完全不相似)。除了欧几里德距离系数 dij 外,当然也还有其它表达相似性的系数。

例如我们将 N 个区域,在各种不同的水平上进行分类,每个区域已选取了能反映其本质的几个要素指标,这些要素指标又在所有分类区域中进行了“标准化”的统一评定,这样以 N 个区域以及 n 个元素为序,即可排列成分别反映其特征的行列式,即:

(ai1,ai2,⋯⋯,ain)(i=1,2⋯⋯,N)

参照王华东等所选择出的相似系数及应用事例: 1.绝对值距离 dij:

d ij = ∑ a ki − a kj

k= 1

2.内积相似系数 e:

 n

(6.20)

eij

= ∑aki ·akj

(i ≠ j)

(i = j)

(6.21)

式(6.21)中的 M 为任意选定的一个常数,使它满足于一定的条件,即在相关矩阵所排列的数字中它是最大的。此外,还有其它一些表达形式,如夹角余弦相似系数等。选择哪种相似系数为好,以及这些系数应用于具体分类时的优劣程度,在不同的对象、不同的要求时,其各自的表现是不一样的。作为例子,我们这里仅选用绝对值距离 dij,进行一个假想条件下的聚类分析。

设进行分类的区域为 10 个(N=10),选取分类的要素指标为 5 个(n=5), 这五个指标规定为区域的能量状况、水分状况、生物状况、土壤状况和地形状况(注意,这里所说的“状况”,就包含着进行评定时所渗透的“模糊概念”)。将指标数值标准化处理后,即填入以下矩阵:

假定已经化为具体的数值,将这些数值按照规定列入表 6.4:

表 6.4 不同区域的要素指标数值

N

aij

1

2

3

4

5

6 7 8

9

10

n

能量

8

3

7

5

10

8 8 3

5

7

水分

0

6

3

7

5

7 9 8

6

4

生物

0

3

3

4

2

8 8 3

7

5

土壤

0

3

4

2

1

8 9 2

6

5

地形

4

3

4

4

2

5 4 5

4

3

从表 6.4 中,分别计算出两两区域之间的绝对距离 dij,建立相关矩阵。由于矩阵是对称的,所以只取对角线上一半。在此矩阵中,寻出此次排

列的相关关系中之最短距离,发现为 d6,7=4,这样就将(6)与(7)首先归

并为一类。而后将上面矩阵进行重新改造,得出次一级水平的相关关联,其基本方法是:如

d

1 2 3

4

5

6

7

8

9

1

i

0

j

1

0 1 1

1

1

2

2

1

2

1
8 1

6

2

4

6

9

2

6

2

0 9

6

1

1

2

6

1

1

2

8

0

0

0

3

0

9

1

1

1

1

1

5

1

5

1

2

1

4

0

1

1

1

5

8

1

2

4

6

0

5

0

2

2

1

1

1
0

2

5

8

2

6

0

4

1

8

1

7

2

7

0

1

1

1

9

0

4

8

0

1

1

3

5

9

0

8

1

0

0

如上述矩阵中(1)与(6,7)之间的距离为: d[1,(6,7)]=min[d(1,6),d(1,7)]=min[24,26]=24min 为取最小值符号。照此法,改写矩阵如下:

d

1

2 3 4 5 ( 8 9 1

i

6 0

j

,

7

)

1

0

1

1 1 1 2 1 2

8

1

6

2

4

9 2
/
1
6

2

0

9

6

1 1 6 1 1

2

8

0 0

3

0

9

1 1 1 1 5

1

5

2 1

4

0

1 1 5 8 1

2

4

0

5

0

2 1 1 1

0

5 8 2

(

0

1 8 1

6

7 2

,

7

)

8

0 1 1
3 5

9

0 8

1

0

0

其中的最小值为 5,共有两处,即 d4,8 与 d3,10,归并为新的(4,8) 与(3,10)两类,然后继续改造矩阵:

d

i j

1

2

(

3

,

(

4

,

5

(

6

,

9
1 8 7
0 ) )
)

1

0

1 1 1 1 2 2
8 1 6 2 4 2

2

0 9 6 1 1 1
2 8 0

(

0 9 1 1 8

3

1 4

,

1

0

)

(

0 1

1

8

4

2

4

,

8

)

5

0

2

1

0

8

(

0

8

6

,

7

)

9

0

查最小距离值为 6,系 2 与(4,8)之间,将(2,4,8)归并起来,再改写矩阵:

dij

1

(2,

(3

5

( 9

4,8

,1 6

)

0) ,
7

)

1

0

16

11

12

2 2

4

2

(2

0

9

12

1 8

,4

4

,8

)

(3

0

11

1 8

,1

2

0)

5

0

2 1

0

8

(6

0

8

,7

)

9 0

此次的矩阵中,最小值为 8,与此有关联的合并为一类,系(2,4,8, 9,3,10,6,7),再改造为(见下页)。

取最小值 11,则所有区域全部归并为一类。

这样,根据上述相关矩阵的逐次归并结果,可以得出区

dij

1

(2,4,8,9,3,10

5

,6,7)

1 0

11

12

(2,4,8,9,3,1

0

11

0,6,7)

5 0

域的聚类图如下:

绘出了聚类图,即可根据需要,得出所要求的分类来。如选取一条截线A1B1(见图 6.16),可以将 10 个区域分成三大类,区域 1 是一类,区域 5 是一类,其余的各个区域属一类。如选取截线 A2B2,则将 10 个区域分成了六类,即区域 1 为一类,区域(4,8,2)为一类,区域(6,7)为一类,区域

(3,10)为一类,区域 9 为一类,区域 5 为一类。

依照聚类图,不仅可以对区域进行分类划区,而且可以对归类后区域相似的密切程度(亦即相似程度)进行比较,先归并的区域,其密切程度最高。如本例中区域 6 和区域 7 就比其余所有区域都最为相似,因而相对于另外八个区域来说,它们最容易归并为一类。

当然,如果采用的是内积相似系数进行聚类时,会具有另外一些优点, 不仅能告诉我们区域与区域之间的相似程度,还能定量地得出它们相似的百分比。总之,能否反映真实的自然状况,关键还在于表 6.4 中要素数量指标的确定。我们所面对的自然地理面,大到全球规模,小到一个有限的流域或地区,均可按照上述原则进行数量分类,即采用聚类分析的方法进行定量的客观的归类划区。当然,区域中选取的要素越多,所要进行归并的对象划分的越细(亦即 n 与 N 取值越多),制定的指标越正确,则所得的结果越接近于客观实际。但与此相联系的,其计算的工作量,相应就要大得多,只有采用电子计算机,才能胜任。并要求预先设计出几个方案,以便最后对它们的结果进行比较和制定,如果单凭手工进行计算,显然是不可能的。

此处还涉及一个与此关联的问题,那就是在各区域中,所选取要素的数值容量很大,需要迅即更新自然地理学中的观测技术,以便取得尽可能多的自然信息,方能适应数量分类的基本条件。关于聚类分析,我们所举例子是最简单的,还有一些其它的方法,读者可以参阅有关的著述,自行设计对自然地理面进行分类方面定量研究的方法。

约斯敦(R.J.Johnston,1978 年)曾采用了“树状联系”法去处理类似的问题。他举出了对七条冰川进行分类的例子。首先假定这些冰川在各个季节中前进的米数为:

G1

10 米

G2

12 米

G3

15 米

G4

6 米

G5

7 米

G6

19 米

G7

21 米

所采用的分类系数是:

∑ (G

i=1

i − G ct )

Gci 系根据分组状况所定的G的平均值。其中的计算细节这里不再列

出,仅将他所处理的分类结果列于下(图 6.17)。这是应用聚类分析的又一种形式。

据周世宽译文称:日本地理学家,曾对名古屋地区的 249 个城镇,选用

了 58 个特性指标,用电子计算机进行主成分分析,选出 15 个强因子作为分

类指标的代表。再经过聚类分析,用电子计算机运算到第 242 阶段,得出了

理想结果。最后把名古屋地区分成七类。它们是:1.商业中心地域;2.城市化地域;3.工商业地域;4.农村城市化地域;5.标准名古屋地域;6.落后的农村地域;7.纯粹农村地域。这些均可供我们借鉴。