第二节 模糊聚类分析方法
模糊聚类分析,是从模糊集的观点来探讨事物的数量分类的一类方法。近年来,模糊聚类分析方法在地理分区与地理事物分类研究中得到了广泛地应用。本节,我们将主要介绍基于模糊等价关系与基于最大模糊支撑树的模糊聚类分析方法在地理分区和地理事物分类中的应用。
一、基于模糊等价关系的模糊聚类分析方法
基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关
系 R 是论域集U与自己的直积U×U上的一个模糊子集,因此可以对 R 进行
~ ~
分解,当用λ - 水平对 R 作截集时,截得的U×U的普通子集 R λ 就是U
~ ~
上的一个普通等价关系,也就得到了关于 U 中被分类对象元素的一种分类。当λ由 1 下降到 0 时,所得的分类由细变粗,逐渐归并,从而形成一个动态聚类谱系图。由此可见,分类对象集U上的模糊等价关系 R 的建立是这种
~
聚类分析方法中的一个关键性的环节。(一)建立模糊等价关系
为了建立分类对象集合U上的模糊等价关系 R* ,通常需要首先计算
~
各个分类对象之间的相似性统计量,建立分类对象集合 U 上的模糊相似关系
R 。
~
- 模糊相似关系的建立 关于各分类对象之间相似性统计量 rij 的计算, 除了采用夹角余弦公式和相似系数计算公式(分别见第二章第三节中(10)和(11)式)以外,还可以采用如下几个计算公式。
- 数量积法:
rij
1
= n
∑x x / M
当i = j
当i≠j
(i, j = 1,
2, ,
m) (1)
k=1
ik jk
在(1)式中,M 是一个适当选择之正数,一般而言,它应满足:
n
M> max∑x ik x jk
- 绝对值差数法:
1
i≠j k =1
当i = j
rij n
(i, j = 1, 2, , m) (2)
1- c∑ xik
- x jk
当i≠j
k =1
在(2)式中,c 为适当选择之正数,使 0≤rij<1(i≠j)。(3)最大最小值法:
rij
∑ min(x ik , x jk )
k=1
n
(i, j = 1, 2, , m) (3)
∑ max(xik ,
k=1
- 算术平均最小法:
n
x jk )
∑ min( xik , x jk )
r = k=1
(i, j = 1, 2, , m) (4)
ij 1 n
∑(xik + x jk )
k =1
- 绝对值指数法:
-∑|xik -x jk |
rij = e k=1
- 指数相似系数法:
(i, j = 1, 2, , m)
(5)
1 n − 3 (x
− x ) 2
rij n
∑e
k=1
4 i k jk
2
k
(i,
j = 1,
2, ,
m) (6)
在(6)式中,sk 是第 k 个指标的方差,即
2
sk =
- 将模糊相似关系 R 改造为模糊等价关系R ※
。通过上节的介绍,我们
~ ~
知道,模糊相似关系 R 满足自反性和对称性,但一般而言,它并不满足
~
传递性,也就是说它并不是模糊等价关系。因此,为了聚类,我们必须采用
传递闭合的性质将这种模糊相似关系 R 改造为模糊等价关系R *。改造的
~ ~
办法是将 R 自乘,即
~
R2 = R ο R
~ ~ ~
R4 = R2 οR2
~ ~ ~
这样下去,就必然会存在一个自然数 K,使得:
R2k = R k οRk = Rk
~ ~ ~
这时, R※ = R k 便是一个模糊等价关系了。
~ ~
显然,对于第二章中表 2-12 所描述的九个农业区域,用夹角余弦公式计算所得的相似系数矩阵
1 0.88 0.49 0.88 0.30 0.24 0.20 0.93 0.77
0.88 1 0.38 0.94 0.06 0.05 0.01 0.95 0.93
0.49 0.38 1 0.67 0.76 0.80 0.71 0.45 0.55
0.88
0.30
~ 0.24
0.20
0.93
0.77
就是这九个农业区域所构成的分类对象集合上的一个模糊相似关系,经过自乘计算后可以验证:
- R=R4R4=R4
1 0.93 0.67 0.93 0.67 0.67 0.67 0.93 0.93
0.93 1 0.67 0.94 0.67 0.67 0.67 0.95 0.94
0.67 0.67 1 0.67 0.80 0.80 0.80 0.67 0.67
0.93 0.94 0.67 1 0.67 0.67 0.67 0.94 0.95
R * = R4 R4 = R
~ 0 ~
0.67 0.67
0.80 0.67 1 0.99 0.99 0.67 0.67
0.93 0.95 0.67 0.94 0.67 0.67 0.67 1 0.94
0.93 0.94 0.67 0.95 0.67 0.67 0.67 0.94 1
即: R※ 是一个模糊等价关系。
~
(二)在不同的截集水平下进行聚类
用上述模糊等价关系R※ ,在不同的截集水平下聚类,得到如下聚类
~
结果:
(1)取λ=1,得:
1 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0
0
R* =
1 0
~
0
0
在R*中,由于各行均不相同,故G ,G
,G ,G
,G ,Gl,G ,G , G
1
各自成为一类。
(2)取λ=0.99,得:
1 2 3 4 5 7 8 9
※
0.99
~
1
0
0
0
0
※
0.99
中,由于第 5、6、7行相同,而其它各行均不相同,故将G 5 ,
G6,G7 归并为一类,而 G1,G2,G3,G4,G8,G9 各自成为一类。(3)取λ=0.95,得:
※
0.95
~
1
0
0
0
0
0
0
※
0.95
~
中,由于第2、8行相同,第4、9行相同,第5、6、7行相同, 而第1
行与第 3 行和其它各行均不相同,故 G2 与 G8 聚为一类,G4 与 G9 聚为一类, G5、G6、G7 聚为一类,而 G1 和 G3 各自成为一类。
(4)取λ=0.94,得:
※
0.94
~
1 0 0 0 0 0 0 0 0
0
0
= 0
0
0
※
0.94
中,由于第2、4、8、9行相同,第5、6、7行相同,第1行与第3行
和其它各行均不相同,故 G2、G4、G8、G9 聚为一类,G5、G6、G7 聚为一类,G1 和 G3 各自聚为一类。
(5)取λ=0.93,得:
※
0.93
~
1
1
0
1
0
0
1
在R※ 中,由于第1、 2 、 4 、 8、 9行相同,第5、 6、 7行相同, 第3行与
0.93
其它各行均不相同,故 G1、G2、G4、G8、G9 聚为一类,G5、G6、G7 聚为一类, G3 各自成为一类。
(6)取λ=0.80,得:
※
0.8
~
1
0
1
0
1
※
0.8
~
中,由于第1、2、4、8、9行相同,第3、5、6、7行相同, 故G 1, G 2 ,
G4、G8、G9 聚为一类,G3、G5、G6、G7 聚为一类。(7)取λ=0.67,得:
※
0.67
~
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1
在R※ 中,由于各行都相同,故G1、G2、G3、G4、G5、G6、G 、G 、
0 87 7 8
~
G9 均聚为一类。
综合上述聚类结果,可以作出如下聚类谱系图,如图 9-3 所示。
二、基于最大模糊支撑树的模糊聚类分析方法
除了依据模糊等价关系进行聚类分析外,还可以应用最大模糊支撑树进行聚类分析。基于最大模糊支撑树的聚类分析过程,可按如下步骤进行。
第一步:建立分类对象集上的模糊相似关系,构造模糊图。这一步骤的工作可按如下作法进行:
- 计算各个分类对象之间的相似性统计量 rij(i,j=1,2,⋯,m),
建立分类对象集U上的模糊相似关系 R = (rij ) m×m 。
~
- 将 R 表示成一个由m个结点所构成的模糊图G = (V,E),使G中的
~
任意两个结点 Vi 与 Vj 之间都有一条边相连结,且赋该边的权值为 rij。
假若,对于某五个地理区域所构成的分类对象集合 V={v1,v2,v3,v4, v5},经过选择聚类要素并对其原始数据进行标准化处理后,计算各分类对象之间的相似性统计量,得到如下的模糊相似关系
1 0.7 0.6 0.1 0.3
0.7 1 0.7 0.3 0.8
0.6
0.7 1 0.4 0.9
~ 0.1 0.3 0.4 1 0.1
0.3 0.8 0.9 0.1 1
则按照上述作法,可以将其表示成一个模糊图,如图 9-4 所示。
第二步:构造最大模糊支撑树。构造模糊图 G 上的最大支撑树的算法, 可按下述作法进行:
-
找出 G 中最大权值的边 rij;
-
将 rij 存放在集合 C 中,将 rij 边上的新结点放入集合 T 中,若 T
中已含有所有 m 个结点时,转(4);
-
检查 T 中每一个结点与 T 外的结点组成的边的权值,找出其中最大者
rij,转至(2);
- 结束,此时 G 中的边就构成了 G 的最大模糊支撑树 Tmax。
对于图 9-4 所示的模糊图 G,按照上述算法,可以求出其最大模糊支撑树 Tmax,如图 9-5 所示。
可以证明,Tmax 具有下述三个特点:①它不存在回路,所以是树;②它对原图 G 中所有结点都是连通的,所以它是图 G 的支撑树;③对于 G 的其它任何支撑树 T,都有:Tmax 中各边的权值之和大于或等于 T 中各边的权值之和。所以,Tmax 的确是 G 的最大模糊支撑树。
第三步:由最大模糊支撑树进行聚类分析。其具体作法是:选择某一个λ值作截集,将 Tmax 中小于λ的边断开,使相连的各结点构成一类,当λ由1 下降到 0 时,所得的分类由细变粗,各结点所代表的分类对象逐渐归并, 从而形成一个动态聚类谱系图。
譬如,对于图 9-5 所示的 G 的最大模糊支撑树 Tmax,当分别选取λ=1, λ=0.9,λ=0.8,λ=0.7,λ=0.4 时,就可以得出不同的分类结果,这一过程所形成的聚类谱系图如图 9-6 所示。
