第三节聚类分析

在自然地理分析中，人们以极大的注意力，集中于两大类根本问题。其一，探讨在自然地理面中的差异性，它最后必然归结到研究“自然地理类型” 及其空间分布的特征，以分析的眼光，在不同的等级系统上，探索其中各个要素的差异以及产生这种差异的原因和规律；其二，就是要研究自然地理面中的相似性，它最后必然归结到研究“自然地理区划”及其划分的依据和方法上。它以综合的眼光，在不同的等级上，剪除可以忽略的次要因素，寻求出对于说明本质贡献率最大的那些因素，也就是求取它们之中的共性，联成一个集合。

这两大类问题，都具备着模糊数学概念的基本品格，它们互相关联，彼此“互补”，相似性中蕴育着差异性，任何差异性又必然有某种程度的相似性。地球和月亮相比较，尽管地球本身各处的差异是如此地巨大，但却可以看作是相似的，这是相对于月球而言；地球表面上海洋和陆地相比较，二者又可以分别看作是相似的。以此类推，差异性与相似性互相交织，显示出一个逐次的无限循环系列，构成了自然地理面中又一基本性质。

关于差异性的分析，前面两节均有涉猎。本节则集中介绍对于相似性处理的一种基本方法，这就是聚类分析。聚类分析是近年出现的数量分类学中一个分支，因为它对于处理自然地理现象特别有用，逐渐受到有关学者的高度重视，并且引进到处理地理学的具体问题。

对于相似性和差异性，一如通常所谓的灵敏度、分辨力、竞争力、生存力、可靠性、可移动性、环境适应性⋯⋯等，并不具有精确的边界。象这种没有确切界线的集合，统称之为“模糊集合”。它的基本概念建立，不过十余年的历史，然而由于它解决了原先不易解决或无法解决的实际问题，使得上述的模糊关系、模糊语言、模糊系统、模糊逻辑等，具有明确的数学表达的可能，因而逐渐在生物学、地学、环境科学等领域中获得了广泛重视。

对于一个普通的集合来说，可以简便地将其表达为：

μ ( x) = 1



(x ∈A)

(x ∉A)

(6.18)

μA（x）表示 x 是否属于集合 A 的取值；（6.18）公式的意思就是说，x 要么属于集合 A，要么不属于它，属于它时就取值 1，不属于它时就取值 0（见图 6.14）。

这是纯粹数学范畴中的集合概念，其间有十分明确的界限。但这种截然分开的集合，在自然界中毕竟是很少的，大量存在的现象并非如此。那么对于某种既可属于 A 又不完全属于 A 的现象表达，以及这种现象在集合中的取值问题，该怎样用数学方法去处理它们呢？只能采用模糊集的原则。这里不需要去论述它的基本概念及运算规则，只是因为在聚类分析中以及其它问题的处理上，要涉及到它，在这里提出来，便于对自然地理分析中大量存在的模糊现象有比较深刻的认识。

聚类分析作为多元分析的方法之一，由于引进了模糊集合的基本法则，使得它处理问题的能力和范围都有了很大的进展。分类和区划，是自然地理学中研究空间分布及区域特征时的重大任务，向来为地理学家们所重视，正

确地反映符合客观现实的界限，其理论意义和实际价值都是勿庸置疑的。长期以来，地理工作者虽对此投入了极大的精力，但都感觉到迄今尚未脱离定性的纯经验的描述阶段，还没有建立一套比较好的定量方法。当然，由于自然地理所面临的变量如此之多，关系如此复杂，纯粹数学无法胜任诸多的参数及变化过程，因此欲要建立良好的定量方法也是极为困难的。当引进模糊数学概念后，使得问题的处理有了更接近于实现的可能，但距成熟解决问题的路程还是漫长的。聚类分析只能认为是在这一方面的尝试，其目的是为了把互相差异的自然地理区域或现象，进行分类和归纳。

当进行对特定对象分类时，首先必须采用“相似系数”或者与其具有同等意义的“差异系数”。这种系数是反映被分类对象之间亲疏程度的数量指标。两个客体之间的相似系数越大，其对应的差异系数就越小，这两个客体的关系就越密切，合并成一类或划定为一个区的可能性也就越大，至于亲密关系达到何种程度才可以归为一类，就要引入模糊集中的“隶属度”数值，再根据具体的要求、特定的对象、划分时的范围大小及粗略程度来确定。

如此说来，建立相似系数并对其分析与选择，正是进行聚类分析的基础。当然，相似系数建立的本身，就是一个十分困难的过程，它既取决于人们对于分类现象本质认识的深度，又取决于人们的实际工作经验。在自然地理面中，能反映一个地域特征的指标，不下数十种，每一种指标都对构成这种特定的自然环境，有着自己的“贡献率”。除此而外，这些指标之间又有极为复杂的联系，共同对环境产生所谓的“整体效应”。在实际工作中，我们既不可能也无必要将这些指标全部囊括起来，有时甚至还无法立即明白这些指标之间的复杂关系。因此首先就要求制定，这些指标按照对于自然地理区域特征的贡献率，分别是多少？哪几个指标对于造成特定自然地理区域的贡献率最大？这就需要应用通常所谓的“主成分分析”，以便从众多的指标中，择取既能反映客体本质、在数目上又尽可能少的主要指标来。

其次，还要将这几个择取出来的主要指标，在所要进行聚类的诸单元中，给予数量化并且统一评定其数量大小，即进行所谓的“标准化”（此时尚须注意标准化的方向），这样各类指标才具有等效值特性和可比性。只有在它们顺利解决之后，才能从它们中间选用合宜的方法如要素分析或聚类分析等，去实行分类。

最通常使用的相似系数是“欧几里德距离系数”，用 dij 来表示。给定两个独立的对象 i 和 j，它们之间的距离系数 dij 可以规定为：

 ^p 2  2

d ij

∑( Xik − X jk ) 

=  k=1 

(6.19)

假设 P 变量是正交的。左图就表示了 P=2 时的状况。

它表述了两个标作 i 和 j 的对象，分别位于点 B 及 C。BC 之间的距离即为从 i 到 j 的欧几里德距离（亦即直线距离），这可以由勾股定理求取。由于 x1 轴与 x2 轴是正交的，ABC 为直角三角形，故而：

BC = (AC² + BA² ) 2

∵AC² = (x − x ) ²

BA² = ( x − x ) ²

∴BC = ((x i2 − x j2 ) + (x − x ) )2 d

2 2

倘若 P＞2，很容易看出它的求取办法类似于 BC，只不过在等号右边加上

（xi3-xj3）²，⋯⋯，（xi－xj）²，而已。dij 的数值范围可以从 0（完全相似）到无限大（完全不相似）。除了欧几里德距离系数 dij 外，当然也还有其它表达相似性的系数。

例如我们将 N 个区域，在各种不同的水平上进行分类，每个区域已选取了能反映其本质的几个要素指标，这些要素指标又在所有分类区域中进行了“标准化”的统一评定，这样以 N 个区域以及 n 个元素为序，即可排列成分别反映其特征的行列式，即：

（ai1，ai2，⋯⋯，ain）（i=1，2⋯⋯，N）

参照王华东等所选择出的相似系数及应用事例： 1．绝对值距离 dij：

d ij = ∑ a ki − a kj

k= 1

2．内积相似系数 e：

 n

(6.20)

eij

= ∑aki ·akj





(i ≠ j)

(i = j)

(6.21)

式（6.21）中的 M 为任意选定的一个常数，使它满足于一定的条件，即在相关矩阵所排列的数字中它是最大的。此外，还有其它一些表达形式，如夹角余弦相似系数等。选择哪种相似系数为好，以及这些系数应用于具体分类时的优劣程度，在不同的对象、不同的要求时，其各自的表现是不一样的。作为例子，我们这里仅选用绝对值距离 dij，进行一个假想条件下的聚类分析。

设进行分类的区域为 10 个（N=10），选取分类的要素指标为 5 个（n=5），这五个指标规定为区域的能量状况、水分状况、生物状况、土壤状况和地形状况（注意，这里所说的“状况”，就包含着进行评定时所渗透的“模糊概念”）。将指标数值标准化处理后，即填入以下矩阵：

假定已经化为具体的数值，将这些数值按照规定列入表 6.4：

表 6.4 不同区域的要素指标数值

N
aij	1	2	3	4	5	6	7	8	9	10
n
能量	8	3	7	5	10	8	8	3	5	7
水分	0	6	3	7	5	7	9	8	6	4
生物	0	3	3	4	2	8	8	3	7	5
土壤	0	3	4	2	1	8	9	2	6	5
地形	4	3	4	4	2	5	4	5	4	3

从表 6.4 中，分别计算出两两区域之间的绝对距离 dij，建立相关矩阵。由于矩阵是对称的，所以只取对角线上一半。在此矩阵中，寻出此次排

列的相关关系中之最短距离，发现为 d6，7=4，这样就将（6）与（7）首先归

并为一类。而后将上面矩阵进行重新改造，得出次一级水平的相关关联，其基本方法是：如

d	1	2	3	4	5	6	7	8	9	1
i										0
j 1	0	1	1	1	1	2	2	1	2	1
		8	1	6	2	4	6	9	2	6
2		0	9	6	1	1	2	6	1	1
					2	8	0		0	0
3			0	9	1	1	1	1	1	5
					1	5	1	2	1
4				0	1	1	1	5	8	1
					2	4	6			0
5					0	2	2	1	1	1
						0	2	5	8	2
6						0	4	1	8	1
								7		2
7							0	1	1	1
								9	0	4
8								0	1	1
									3	5
9									0	8
1										0
0

如上述矩阵中（1）与（6，7）之间的距离为： d[1，（6，7）]＝min[d(1,6)，d(1,7)]=min[24，26]=24min 为取最小值符号。照此法，改写矩阵如下：

d	1	2	3	4	5	(	8	9	1
i						6			0

j						, 7 )
1	0	1	1	1	1	2	1	2
		8	1	6	2	4	9	2
								/
								1
								6
2		0	9	6	1	1	6	1	1
					2	8		0	0
3			0	9	1	1	1	1	5
					1	5	2	1
4				0	1	1	5	8	1
					2	4			0
5					0	2	1	1	1
						0	5	8	2
(						0	1	8	1
6							7		2
,
7
)
8							0	1	1
								3	5
9								0	8
1									0
0

其中的最小值为 5，共有两处，即 d4，8 与 d3，10，归并为新的（4，8）与（3，10）两类，然后继续改造矩阵：

d i j	1	2	( 3 ,	( 4 ,	5	( 6 ,	9
			1	8		7
			0	)		)
			)
1	0	1	1	1	1	2	2
		8	1	6	2	4	2
2		0	9	6	1	1	1
					2	8	0
(			0	9	1	1	8
3					1	4
,
1
0

)
(	0	1	1	8
4		2	4
,
8
)
5		0	2	1
			0	8
(			0	8
6
,
7
)
9				0

查最小距离值为 6，系 2 与（4，8）之间，将（2，4，8）归并起来，再改写矩阵：

dij	1	(2,	(3	5	(	9
		4,8	,1		6
		)	0)		,
					7
					)
1	0	16	11	12	2	2
					4	2
(2		0	9	12	1	8
,4					4
,8
)
(3			0	11	1	8
,1					2
0)
5				0	2	1
					0	8
(6					0	8
,7
)

9 0

此次的矩阵中，最小值为 8，与此有关联的合并为一类，系（2，4，8， 9，3，10，6，7），再改造为（见下页）。

取最小值 11，则所有区域全部归并为一类。

这样，根据上述相关矩阵的逐次归并结果，可以得出区

dij	1	(2,4,8,9,3,10	5
		,6,7)
1	0	11	12
(2,4,8,9,3,1		0	11

0,6,7)

5 0

域的聚类图如下：

绘出了聚类图，即可根据需要，得出所要求的分类来。如选取一条截线A1B1（见图 6.16），可以将 10 个区域分成三大类，区域 1 是一类，区域 5 是一类，其余的各个区域属一类。如选取截线 A2B2，则将 10 个区域分成了六类，即区域 1 为一类，区域（4，8，2）为一类，区域（6，7）为一类，区域

（3，10）为一类，区域 9 为一类，区域 5 为一类。

依照聚类图，不仅可以对区域进行分类划区，而且可以对归类后区域相似的密切程度（亦即相似程度）进行比较，先归并的区域，其密切程度最高。如本例中区域 6 和区域 7 就比其余所有区域都最为相似，因而相对于另外八个区域来说，它们最容易归并为一类。

当然，如果采用的是内积相似系数进行聚类时，会具有另外一些优点，不仅能告诉我们区域与区域之间的相似程度，还能定量地得出它们相似的百分比。总之，能否反映真实的自然状况，关键还在于表 6.4 中要素数量指标的确定。我们所面对的自然地理面，大到全球规模，小到一个有限的流域或地区，均可按照上述原则进行数量分类，即采用聚类分析的方法进行定量的客观的归类划区。当然，区域中选取的要素越多，所要进行归并的对象划分的越细（亦即 n 与 N 取值越多），制定的指标越正确，则所得的结果越接近于客观实际。但与此相联系的，其计算的工作量，相应就要大得多，只有采用电子计算机，才能胜任。并要求预先设计出几个方案，以便最后对它们的结果进行比较和制定，如果单凭手工进行计算，显然是不可能的。

此处还涉及一个与此关联的问题，那就是在各区域中，所选取要素的数值容量很大，需要迅即更新自然地理学中的观测技术，以便取得尽可能多的自然信息，方能适应数量分类的基本条件。关于聚类分析，我们所举例子是最简单的，还有一些其它的方法，读者可以参阅有关的著述，自行设计对自然地理面进行分类方面定量研究的方法。

约斯敦（R.J.Johnston，1978 年）曾采用了“树状联系”法去处理类似的问题。他举出了对七条冰川进行分类的例子。首先假定这些冰川在各个季节中前进的米数为：

G1	10 米	G2	12 米	G3	15 米
G4	6 米	G5	7 米	G6	19 米
G7	21 米

所采用的分类系数是：

∑ (G

i=1

_i − G _ct )

Gci 系根据分组状况所定的G的平均值。其中的计算细节这里不再列

出，仅将他所处理的分类结果列于下（图 6.17）。这是应用聚类分析的又一种形式。

据周世宽译文称：日本地理学家，曾对名古屋地区的 249 个城镇，选用

了 58 个特性指标，用电子计算机进行主成分分析，选出 15 个强因子作为分

类指标的代表。再经过聚类分析，用电子计算机运算到第 242 阶段，得出了

理想结果。最后把名古屋地区分成七类。它们是：1．商业中心地域；2．城市化地域；3．工商业地域；4．农村城市化地域；5．标准名古屋地域；6．落后的农村地域；7．纯粹农村地域。这些均可供我们借鉴。

j						, 7 )
1	0	1	1	1	1	2	1	2
		8	1	6	2	4	9	2
								/
								1
								6
2		0	9	6	1	1	6	1	1
					2	8		0	0
3			0	9	1	1	1	1	5
					1	5	2	1
4				0	1	1	5	8	1
					2	4			0
5					0	2	1	1	1
						0	5	8	2
(						0	1	8	1
6							7		2
,
7
)
8							0	1	1
								3	5
9								0	8
1									0
0

dij	1	(2,	(3	5	(	9
		4,8	,1		6
		)	0)		,
					7
					)
1	0	16	11	12	2	2
					4	2
(2		0	9	12	1	8
,4					4
,8
)
(3			0	11	1	8
,1					2
0)
5				0	2	1
					0	8
(6					0	8
,7
)

j						, 7 )
1	0	1	1	1	1	2	1	2
		8	1	6	2	4	9	2
								/
								1
								6
2		0	9	6	1	1	6	1	1
					2	8		0	0
3			0	9	1	1	1	1	5
					1	5	2	1
4				0	1	1	5	8	1
					2	4			0
5					0	2	1	1	1
						0	5	8	2
(						0	1	8	1
6							7		2
,
7
)
8							0	1	1
								3	5
9								0	8
1									0
0

dij	1	(2,	(3	5	(	9
		4,8	,1		6
		)	0)		,
					7
					)
1	0	16	11	12	2	2
					4	2
(2		0	9	12	1	8
,4					4
,8
)
(3			0	11	1	8
,1					2
0)
5				0	2	1
					0	8
(6					0	8
,7
)

第三节 聚类分析

第三节 聚类分析

第三节聚类分析

第三节聚类分析

j						, 7 )
1	0	1	1	1	1	2	1	2
		8	1	6	2	4	9	2
								/
								1
								6
2		0	9	6	1	1	6	1	1
					2	8		0	0
3			0	9	1	1	1	1	5
					1	5	2	1
4				0	1	1	5	8	1
					2	4			0
5					0	2	1	1	1
						0	5	8	2
(						0	1	8	1
6							7		2
,
7
)
8							0	1	1
								3	5
9								0	8
1									0
0

dij	1	(2,	(3	5	(	9
		4,8	,1		6
		)	0)		,
					7
					)
1	0	16	11	12	2	2
					4	2
(2		0	9	12	1	8
,4					4
,8
)
(3			0	11	1	8
,1					2
0)
5				0	2	1
					0	8
(6					0	8
,7
)