第三节 系统聚类分析方法
聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。其基本原理是,根据样本自身的属性,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。
聚类分析方法,是地理学中研究地理事物分类问题和地理分区问题的重要的数量分析方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。本节,我们将结合有关实例,主要介绍和探讨系统聚类分析方法在地理学研究中的应用问题。
一、聚类要素的数据处理
在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,因而其数值的差异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后, 在进行聚类分析之前,还要对聚类要索进行数据处理。
假设有 m 个被聚类的对象,每一个被聚类对象都有 x1,x2,⋯,xn 个要素构成。它们所对应的要素数据可用表 2-10 给出。在聚类分析中,常用的聚类要素的数据处理方法有如下几种。
|
聚类对象 |
要 素 x1 x2 , xj , xn |
|||||
|---|---|---|---|---|---|---|
|
1 2 Μ i Μ m |
x11 |
x12 |
, |
x1j |
, |
x1n |
|
x11 |
x12 |
, |
x1j |
, |
x1n |
|
|
Μ |
Μ | Μ | Μ | |||
|
xi1 |
xi2 |
, |
xij |
, |
xin |
|
|
Μ |
Μ | Μ | Μ | |||
|
xm1 |
xm2 |
, |
xmj |
, |
xmn |
(1)总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素数据的总和,即
′
ij ij
/ ∑xij i=1
i = 1,
j = 1,
2, , m
2, ,
(1)
这种标准化方法所得的新数据x′ 满足
m
′ ( j = 1,
2, , n)
i=1
(2)标准差的标准化,即
xij − x j
x′ =
i = 1,
2, , m
(2)
ij
在(2)式中,
s j j = 1, 2, , n
x j =
1 ∑x , S =
ij j
m i =1
由这种标准化方法所得的新数据x′ ,各要素的平均值为0,标准
差为 1,即有
′ 1 ∑x′ = 0, S = = 1
ij j
m i= 1
(3)极大值标准化,即
′ xij
ij max{x }
i = 1,
j = 1,
2, , m
2, ,
(3)
经过这种标准化所得的新数据,各要素的极大值为 1,其余各数值小于
1。
(4)极差的标准化,即
xij − min{xij }
i = 1,
2, , m
xij = max{x
i
ij} − min{x ij }
j = 1, 2, ,
(4)
经过这种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余的数值均在 0 与 1 之间。
表 2-11 给出了某地区九个农业区的七项经济指标,其极差标准化处理后
的数据如表 2-12 所示。
