第三节 聚类分析
在自然地理分析中,人们以极大的注意力,集中于两大类根本问题。其一,探讨在自然地理面中的差异性,它最后必然归结到研究“自然地理类型” 及其空间分布的特征,以分析的眼光,在不同的等级系统上,探索其中各个要素的差异以及产生这种差异的原因和规律;其二,就是要研究自然地理面中的相似性,它最后必然归结到研究“自然地理区划”及其划分的依据和方法上。它以综合的眼光,在不同的等级上,剪除可以忽略的次要因素,寻求出对于说明本质贡献率最大的那些因素,也就是求取它们之中的共性,联成一个集合。
这两大类问题,都具备着模糊数学概念的基本品格,它们互相关联,彼此“互补”,相似性中蕴育着差异性,任何差异性又必然有某种程度的相似性。地球和月亮相比较,尽管地球本身各处的差异是如此地巨大,但却可以看作是相似的,这是相对于月球而言;地球表面上海洋和陆地相比较,二者又可以分别看作是相似的。以此类推,差异性与相似性互相交织,显示出一个逐次的无限循环系列,构成了自然地理面中又一基本性质。
关于差异性的分析,前面两节均有涉猎。本节则集中介绍对于相似性处理的一种基本方法,这就是聚类分析。聚类分析是近年出现的数量分类学中一个分支,因为它对于处理自然地理现象特别有用,逐渐受到有关学者的高度重视,并且引进到处理地理学的具体问题。
对于相似性和差异性,一如通常所谓的灵敏度、分辨力、竞争力、生存力、可靠性、可移动性、环境适应性⋯⋯等,并不具有精确的边界。象这种没有确切界线的集合,统称之为“模糊集合”。它的基本概念建立,不过十余年的历史,然而由于它解决了原先不易解决或无法解决的实际问题,使得上述的模糊关系、模糊语言、模糊系统、模糊逻辑等,具有明确的数学表达的可能,因而逐渐在生物学、地学、环境科学等领域中获得了广泛重视。
对于一个普通的集合来说,可以简便地将其表达为:
μ ( x) = 1
(x ∈A)
(x ∉A)
(6.18)
μA(x)表示 x 是否属于集合 A 的取值;(6.18)公式的意思就是说,x 要么属于集合 A,要么不属于它,属于它时就取值 1,不属于它时就取值 0(见图 6.14)。
这是纯粹数学范畴中的集合概念,其间有十分明确的界限。但这种截然分开的集合,在自然界中毕竟是很少的,大量存在的现象并非如此。那么对于某种既可属于 A 又不完全属于 A 的现象表达,以及这种现象在集合中的取值问题,该怎样用数学方法去处理它们呢?只能采用模糊集的原则。这里不需要去论述它的基本概念及运算规则,只是因为在聚类分析中以及其它问题的处理上,要涉及到它,在这里提出来,便于对自然地理分析中大量存在的模糊现象有比较深刻的认识。
聚类分析作为多元分析的方法之一,由于引进了模糊集合的基本法则, 使得它处理问题的能力和范围都有了很大的进展。分类和区划,是自然地理学中研究空间分布及区域特征时的重大任务,向来为地理学家们所重视,正
确地反映符合客观现实的界限,其理论意义和实际价值都是勿庸置疑的。长期以来,地理工作者虽对此投入了极大的精力,但都感觉到迄今尚未脱离定性的纯经验的描述阶段,还没有建立一套比较好的定量方法。当然,由于自然地理所面临的变量如此之多,关系如此复杂,纯粹数学无法胜任诸多的参数及变化过程,因此欲要建立良好的定量方法也是极为困难的。当引进模糊数学概念后,使得问题的处理有了更接近于实现的可能,但距成熟解决问题的路程还是漫长的。聚类分析只能认为是在这一方面的尝试,其目的是为了把互相差异的自然地理区域或现象,进行分类和归纳。
当进行对特定对象分类时,首先必须采用“相似系数”或者与其具有同等意义的“差异系数”。这种系数是反映被分类对象之间亲疏程度的数量指标。两个客体之间的相似系数越大,其对应的差异系数就越小,这两个客体的关系就越密切,合并成一类或划定为一个区的可能性也就越大,至于亲密关系达到何种程度才可以归为一类,就要引入模糊集中的“隶属度”数值, 再根据具体的要求、特定的对象、划分时的范围大小及粗略程度来确定。
如此说来,建立相似系数并对其分析与选择,正是进行聚类分析的基础。当然,相似系数建立的本身,就是一个十分困难的过程,它既取决于人们对于分类现象本质认识的深度,又取决于人们的实际工作经验。在自然地理面中,能反映一个地域特征的指标,不下数十种,每一种指标都对构成这种特定的自然环境,有着自己的“贡献率”。除此而外,这些指标之间又有极为复杂的联系,共同对环境产生所谓的“整体效应”。在实际工作中,我们既不可能也无必要将这些指标全部囊括起来,有时甚至还无法立即明白这些指标之间的复杂关系。因此首先就要求制定,这些指标按照对于自然地理区域特征的贡献率,分别是多少?哪几个指标对于造成特定自然地理区域的贡献率最大?这就需要应用通常所谓的“主成分分析”,以便从众多的指标中, 择取既能反映客体本质、在数目上又尽可能少的主要指标来。
其次,还要将这几个择取出来的主要指标,在所要进行聚类的诸单元中, 给予数量化并且统一评定其数量大小,即进行所谓的“标准化”(此时尚须注意标准化的方向),这样各类指标才具有等效值特性和可比性。只有在它们顺利解决之后,才能从它们中间选用合宜的方法如要素分析或聚类分析等,去实行分类。
最通常使用的相似系数是“欧几里德距离系数”,用 dij 来表示。给定两个独立的对象 i 和 j,它们之间的距离系数 dij 可以规定为:
1
p 2 2
d ij
∑( Xik − X jk )
= k=1
p
(6.19)
假设 P 变量是正交的。左图就表示了 P=2 时的状况。
它表述了两个标作 i 和 j 的对象,分别位于点 B 及 C。BC 之间的距离即为从 i 到 j 的欧几里德距离(亦即直线距离),这可以由勾股定理求取。由于 x1 轴与 x2 轴是正交的,ABC 为直角三角形,故而:
1
BC = (AC2 + BA2 ) 2
∵AC2 = (x − x ) 2
BA2 = ( x − x ) 2
1
∴BC = ((x i2 − x j2 ) + (x − x ) )2 d
2 2
j1
倘若 P>2,很容易看出它的求取办法类似于 BC,只不过在等号右边加上
(xi3-xj3)2,⋯⋯,(xi-xj)2,而已。dij 的数值范围可以从 0(完全相似)到无限大(完全不相似)。除了欧几里德距离系数 dij 外,当然也还有其它表达相似性的系数。
例如我们将 N 个区域,在各种不同的水平上进行分类,每个区域已选取了能反映其本质的几个要素指标,这些要素指标又在所有分类区域中进行了“标准化”的统一评定,这样以 N 个区域以及 n 个元素为序,即可排列成分别反映其特征的行列式,即:
(ai1,ai2,⋯⋯,ain)(i=1,2⋯⋯,N)
参照王华东等所选择出的相似系数及应用事例: 1.绝对值距离 dij:
d ij = ∑ a ki − a kj
k= 1
2.内积相似系数 e:
n
(6.20)
eij
= ∑aki ·akj
(i ≠ j)
(i = j)
(6.21)
式(6.21)中的 M 为任意选定的一个常数,使它满足于一定的条件,即在相关矩阵所排列的数字中它是最大的。此外,还有其它一些表达形式,如夹角余弦相似系数等。选择哪种相似系数为好,以及这些系数应用于具体分类时的优劣程度,在不同的对象、不同的要求时,其各自的表现是不一样的。作为例子,我们这里仅选用绝对值距离 dij,进行一个假想条件下的聚类分析。
设进行分类的区域为 10 个(N=10),选取分类的要素指标为 5 个(n=5), 这五个指标规定为区域的能量状况、水分状况、生物状况、土壤状况和地形状况(注意,这里所说的“状况”,就包含着进行评定时所渗透的“模糊概念”)。将指标数值标准化处理后,即填入以下矩阵:
假定已经化为具体的数值,将这些数值按照规定列入表 6.4:
表 6.4 不同区域的要素指标数值
N |
||||||||||
---|---|---|---|---|---|---|---|---|---|---|
aij |
1 |
2 |
3 |
4 |
5 |
6 | 7 | 8 |
9 |
10 |
n |
||||||||||
能量 |
8 |
3 |
7 |
5 |
10 |
8 | 8 | 3 |
5 |
7 |
水分 |
0 |
6 |
3 |
7 |
5 |
7 | 9 | 8 |
6 |
4 |
生物 |
0 |
3 |
3 |
4 |
2 |
8 | 8 | 3 |
7 |
5 |
土壤 |
0 |
3 |
4 |
2 |
1 |
8 | 9 | 2 |
6 |
5 |
地形 |
4 |
3 |
4 |
4 |
2 |
5 | 4 | 5 |
4 |
3 |
从表 6.4 中,分别计算出两两区域之间的绝对距离 dij,建立相关矩阵。由于矩阵是对称的,所以只取对角线上一半。在此矩阵中,寻出此次排
列的相关关系中之最短距离,发现为 d6,7=4,这样就将(6)与(7)首先归
并为一类。而后将上面矩阵进行重新改造,得出次一级水平的相关关联,其基本方法是:如
d |
1 | 2 | 3 |
4 |
5 |
6 |
7 |
8 |
9 |
1 |
---|---|---|---|---|---|---|---|---|---|---|
i |
0 | |||||||||
j 1 |
0 | 1 | 1 |
1 |
1 |
2 |
2 |
1 |
2 |
1 |
8 | 1 |
6 |
2 |
4 |
6 |
9 |
2 |
6 | ||
2 |
0 | 9 |
6 |
1 |
1 |
2 |
6 |
1 |
1 | |
2 |
8 |
0 |
0 |
0 | ||||||
3 |
0 |
9 |
1 |
1 |
1 |
1 |
1 |
5 | ||
1 |
5 |
1 |
2 |
1 |
||||||
4 |
0 |
1 |
1 |
1 |
5 |
8 |
1 | |||
2 |
4 |
6 |
0 | |||||||
5 |
0 |
2 |
2 |
1 |
1 |
1 | ||||
0 |
2 |
5 |
8 |
2 | ||||||
6 |
0 |
4 |
1 |
8 |
1 | |||||
7 |
2 | |||||||||
7 |
0 |
1 |
1 |
1 | ||||||
9 |
0 |
4 | ||||||||
8 |
0 |
1 |
1 | |||||||
3 |
5 | |||||||||
9 |
0 |
8 | ||||||||
1 |
0 | |||||||||
0 |
如上述矩阵中(1)与(6,7)之间的距离为: d[1,(6,7)]=min[d(1,6),d(1,7)]=min[24,26]=24min 为取最小值符号。照此法,改写矩阵如下:
d |
1 |
2 | 3 | 4 | 5 | ( | 8 | 9 | 1 |
---|---|---|---|---|---|---|---|---|---|
i |
6 | 0 |
j |
, 7 ) |
||||||||
---|---|---|---|---|---|---|---|---|---|
1 |
0 |
1 |
1 | 1 | 1 | 2 | 1 | 2 | |
8 |
1 |
6 |
2 |
4 |
9 | 2 | |||
/ | |||||||||
1 | |||||||||
6 | |||||||||
2 |
0 |
9 |
6 |
1 | 1 | 6 | 1 | 1 | |
2 |
8 |
0 | 0 | ||||||
3 |
0 |
9 |
1 | 1 | 1 | 1 | 5 | ||
1 |
5 |
2 | 1 | ||||||
4 |
0 |
1 | 1 | 5 | 8 | 1 | |||
2 |
4 |
0 | |||||||
5 |
0 |
2 | 1 | 1 | 1 | ||||
0 |
5 | 8 | 2 | ||||||
( |
0 |
1 | 8 | 1 | |||||
6 |
7 | 2 | |||||||
, |
|||||||||
7 |
|||||||||
) |
|||||||||
8 |
0 | 1 | 1 | ||||||
3 | 5 | ||||||||
9 |
0 | 8 | |||||||
1 |
0 | ||||||||
0 |
其中的最小值为 5,共有两处,即 d4,8 与 d3,10,归并为新的(4,8) 与(3,10)两类,然后继续改造矩阵:
d i j |
1 |
2 | ( 3 , |
( 4 , |
5 | ( 6 , |
9 |
---|---|---|---|---|---|---|---|
1 | 8 | 7 | |||||
0 | ) | ) | |||||
) | |||||||
1 |
0 |
1 | 1 | 1 | 1 | 2 | 2 |
8 | 1 | 6 | 2 | 4 | 2 | ||
2 |
0 | 9 | 6 | 1 | 1 | 1 | |
2 | 8 | 0 | |||||
( |
0 | 9 | 1 | 1 | 8 | ||
3 |
1 | 4 | |||||
, |
|||||||
1 |
|||||||
0 |
) |
||||
---|---|---|---|---|
( |
0 | 1 |
1 |
8 |
4 |
2 |
4 |
||
, |
||||
8 |
||||
) |
||||
5 |
0 |
2 |
1 | |
0 |
8 | |||
( |
0 |
8 | ||
6 |
||||
, |
||||
7 |
||||
) |
||||
9 |
0 |
查最小距离值为 6,系 2 与(4,8)之间,将(2,4,8)归并起来,再改写矩阵:
dij |
1 |
(2, |
(3 |
5 |
( | 9 |
---|---|---|---|---|---|---|
4,8 |
,1 | 6 | ||||
) |
0) | , | ||||
7 | ||||||
) |
||||||
1 |
0 |
16 |
11 |
12 |
2 | 2 |
4 |
2 | |||||
(2 |
0 |
9 |
12 |
1 | 8 | |
,4 |
4 |
|||||
,8 |
||||||
) |
||||||
(3 |
0 |
11 |
1 | 8 | ||
,1 |
2 |
|||||
0) |
||||||
5 |
0 |
2 | 1 | |||
0 |
8 | |||||
(6 |
0 |
8 | ||||
,7 |
||||||
) |
9 0
此次的矩阵中,最小值为 8,与此有关联的合并为一类,系(2,4,8, 9,3,10,6,7),再改造为(见下页)。
取最小值 11,则所有区域全部归并为一类。
这样,根据上述相关矩阵的逐次归并结果,可以得出区
dij |
1 |
(2,4,8,9,3,10 |
5 |
---|---|---|---|
,6,7) |
|||
1 | 0 |
11 |
12 |
(2,4,8,9,3,1 |
0 |
11 |
0,6,7)
5 0
域的聚类图如下:
绘出了聚类图,即可根据需要,得出所要求的分类来。如选取一条截线A1B1(见图 6.16),可以将 10 个区域分成三大类,区域 1 是一类,区域 5 是一类,其余的各个区域属一类。如选取截线 A2B2,则将 10 个区域分成了六类,即区域 1 为一类,区域(4,8,2)为一类,区域(6,7)为一类,区域
(3,10)为一类,区域 9 为一类,区域 5 为一类。
依照聚类图,不仅可以对区域进行分类划区,而且可以对归类后区域相似的密切程度(亦即相似程度)进行比较,先归并的区域,其密切程度最高。如本例中区域 6 和区域 7 就比其余所有区域都最为相似,因而相对于另外八个区域来说,它们最容易归并为一类。
当然,如果采用的是内积相似系数进行聚类时,会具有另外一些优点, 不仅能告诉我们区域与区域之间的相似程度,还能定量地得出它们相似的百分比。总之,能否反映真实的自然状况,关键还在于表 6.4 中要素数量指标的确定。我们所面对的自然地理面,大到全球规模,小到一个有限的流域或地区,均可按照上述原则进行数量分类,即采用聚类分析的方法进行定量的客观的归类划区。当然,区域中选取的要素越多,所要进行归并的对象划分的越细(亦即 n 与 N 取值越多),制定的指标越正确,则所得的结果越接近于客观实际。但与此相联系的,其计算的工作量,相应就要大得多,只有采用电子计算机,才能胜任。并要求预先设计出几个方案,以便最后对它们的结果进行比较和制定,如果单凭手工进行计算,显然是不可能的。
此处还涉及一个与此关联的问题,那就是在各区域中,所选取要素的数值容量很大,需要迅即更新自然地理学中的观测技术,以便取得尽可能多的自然信息,方能适应数量分类的基本条件。关于聚类分析,我们所举例子是最简单的,还有一些其它的方法,读者可以参阅有关的著述,自行设计对自然地理面进行分类方面定量研究的方法。
约斯敦(R.J.Johnston,1978 年)曾采用了“树状联系”法去处理类似的问题。他举出了对七条冰川进行分类的例子。首先假定这些冰川在各个季节中前进的米数为:
G1 |
10 米 |
G2 |
12 米 |
G3 |
15 米 |
---|---|---|---|---|---|
G4 |
6 米 |
G5 |
7 米 |
G6 |
19 米 |
G7 |
21 米 |
所采用的分类系数是:
∑ (G
i=1
i − G ct )
Gci 系根据分组状况所定的G的平均值。其中的计算细节这里不再列
出,仅将他所处理的分类结果列于下(图 6.17)。这是应用聚类分析的又一种形式。
据周世宽译文称:日本地理学家,曾对名古屋地区的 249 个城镇,选用
了 58 个特性指标,用电子计算机进行主成分分析,选出 15 个强因子作为分
类指标的代表。再经过聚类分析,用电子计算机运算到第 242 阶段,得出了
理想结果。最后把名古屋地区分成七类。它们是:1.商业中心地域;2.城市化地域;3.工商业地域;4.农村城市化地域;5.标准名古屋地域;6.落后的农村地域;7.纯粹农村地域。这些均可供我们借鉴。