表 2-11 某地区九个农业区的七项经济指标数据

区代号

指 标

人均耕地x1(亩/人)

劳均耕地x2(亩/个)

水田比重x3 (%)

复种指数x4 (%)

粮食亩产x5(公斤/亩)

人均粮食x6 (公斤/人

G1

4.41

16.40

5.63 113.60

300.70

1036.40

G2

4.72

14.57

0.39 95.10

184.90

683.70

G3

1.84

4.74

5.28 148.50

462.30

611.10

G4

2.69

7.91

0.39 111.00

297.20

632.60

G5

1.22

3.18

72.04 217.80

816.60

791.10

G6

1.23

3.16

43.78 179.60

598.20

636.50

G7

1.12

2.72

65.15 194.70

712.60

634.30

G8

4.40

9.99

5.35 94.90

245.30

771.70

G9

2.50

6.21

2.90 94.80

282.10

574.60

表 2-12 极差标准化处理后的数据

区代号

指 标

x1

x2

x3

x4

x5

x6

x7

G1

0.91

1.00

0.07

0.15

0.18

1.00

0.14

G2

1.00

0.87

0.00

0.00

0.00

0.24

0.00

G3

0.20

0.15

0.07

0.44

0.44

0.08

0.07

G4

0.44

0.38

0.00

0.13

0.18

0.13

0.00

G5

0.03

0.03

1.00

1.00

1.00

0.45

1.00

G6

0.03

0.03

0.61

0.69

0.65

0.13

0.59

G7

0.00

0.00

0.90

0.81

0.84

0.13

1.00

G8

0.91

0.53

0.07

0.00

0.10

0.43

0.09

G9

0.38

0.26

0.04

0.00

0.15

0.00

0.00

二、距离和相似系数的计算

距离是事物之间差异性的测度,而相似系数则是其相似性的测度,所以距离和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成以后,就要计算分类对象之间的距离或相似系数,并依据距离或相似系数的矩阵结构进行聚类。

(一)距离的计算

如果我们把每一个分类对象的 n 个聚类要素看成 n 维空间的 n 个坐标轴,则每一个分类对象的 n 个要素所构成的 n 维数据向量就是 n 维空间中的一个点。这样,各分类对象之间的差异性就可以由它们所对应的 n 维空间中点之间的距离度量。常用的距离有

(1)绝对值距离

n

d ij = ∑| xik

k=1

(2)欧氏距离

− x jk | (i,

j = 1,

2, ,

m) (5)

d ij =

(i,

j = 1,

2, , m)

(6)

(3)明科夫斯基距离

1

n  p

d ij =

∑|x

k =1

ik − x jk

|p 

(i,

j = 1, 2, , m)

(7)

(7)式中,p≥1。当 p=1 时,它就是绝对值距离;当 p=2 时,它就是欧氏距离。

(4)切比雪夫距离。当明科夫斯基距离 p→∞时,有

d ij = max|xik − x jk | (i, j = 1,

2, , m)

(8)

选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合理的距离进行聚类。

据表 2-12 中的数据,用公式(5)式计算可得九个农业区之间的绝对值距离矩阵如下:

ij 9× 9

 0 

 

1.52 0 

 3.10 2.70 0 

 2.19 1.47 1.23 0 

5.79 5.53 2.93 4.06 0.83 1.07 0 

1.32 0.88 2.24 1.29 5.14 3.96 5.03 0 

 2.62 1.66 1.20 0.51 4.84 3.06 3.32 

 1.40 0

(二)相似系数的计算

常见的相似系数是夹角余弦和相关系数,其计算公式如下:

(1)夹角余弦:

rij = cosθ ij

∑(x ik x jk )

= k=1 (i,j = 1,2, ,m) (10)

在(10)式中,显然有:-1≤cosθij≤1。

(2)相关系数:

n

rij =

∑(xik − xi )(x jk

  • x j )

(i,

j = 1, 2, , m)

(11)

在(11)式中,xi和x j分别为聚类对象i和j各要素标准化数据的平均

值。

据表 2-12 中的数据,用夹角余弦公式(10)式计算,可得如下的相似系数矩阵:

1 

ij 9 ×9 

 

三、直接聚类法

直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是

一种简便的聚类方法。它先把各个分类对象单独视为一类,然后根据距离最小或相似系数最大的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。那么,经过 m-1 次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类分析的谱系图。

下面,我们据距离矩阵(9)式,用直接聚类法对某地区的九个农业区进行聚类分析。

第一步,在距离矩阵 D 中,除对角线元素以外,d49=d94=0.51 为最小者, 故将第 4 区与第 9 区并为一类,划去第 9 行和第 9 列;

第二步,在余下的元素中,除对角线元素以外,d75=d57=0.83 为最小者,

故第 5 区与第 7 区并为一类,划掉第 7 行和第 7 列;

第三步,在第二步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小者,故将第 2 区与第 8 区并为一类,划去第 8 行和第 8 列;

第四步,在第三步之后余下的元素中,除对角线元素以外,d43=d34=1.23

为最小者,故将第 3 区与第 4 区并为一类,划去第 4 行和第 4 列,此时,第3、4、9 区已归并为一类。

第五步,在第四步之后余下的元素中,除对角线元素以外,d21=d12=1.52 为最小者,故将第 1 区与第 2 区并为一类,划去第 2 行与第 2 列,此时,第1、2、8 区已归并为一类;

第六步,在第五步之后余下的元素中,除对角线元素以外,d65=d56=1.78

为最小者,故将第 5 区与第 6 区并为一类,划去第 6 行和第 6 列,此时,第5、6、7 区已归并为一类;

第七步,在第六步之后余下的元素中,除对角线元素以外,d31=d13=3.10 为最小者,故将第 1 区与第 3 区并为一类,划去第 3 行和第 3 列,此时,第1,2,3,4,8,9 区已归并为一类。

第八步,在第七步之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第 1 区与第 5 区并为一类,划去第 5 行和第 5 列,此时, 第 1,2,3,4,5,6,7,8,9 区均归并为一类。

根据上述步骤,我们可以作出聚类过程的谱系图(图 2-1)。直接聚类法虽然简便,但在归类过程中是划去行和列的,因而难免有信息损失。因此直接聚类法并不是最好的系统聚类法。

四、最短距离聚类法

最短距离法,是在原来的 m×m 距离矩阵的非对角元素中找出 dpq=min

{dij},把分类对象 Gp 和 Gq 归并为一新类 Gr,然后按计算公式: drk=min{dpk,dqk}(k≠p,q) (13)

计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小的 dij,把 Gi 和 Gj 归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。

以下,我们据(9)式中的距离矩阵,用最短距离聚类法对某地区的九个农业区进行聚类分析。

第一步,在 9×9 阶距离矩阵 D 中,非对角元素中最小者是 d94=0.51,故首先将第 4 区与第 9 区并为一类,记为 G10,即 G10={G4,G9}。分别按照公式(13)式计算 G1,G2,G3,G5,G6,G7,G8 与 G10 之间的距离得:

d1,10=min{d14,d19}=min{2.19,2.62}=2.19 d2,10=min{d24,d29}=min{1.47,1.66}=1.47 d3,10=min{d34,d39}=min{1.23,1.20}=1.20 d5,10=min{d54,d59}=min{4.77,4.84}=4.77 d6,10=min{d64,d69}=min{2.99,3.06}=2.99 d7,10=min{d74,d79}=min{4.06,3.32}=3.32 d8,10=min{d84,d89}=min{1.29,1.40}=1.29

这样就得到 G1,G2,G3,G5,G6,G7,G8,G10 上的一个新的 8×8 阶距离矩阵:

G1 G2 G3 G5 G6 G7 G8 G10

G1

0

G2

1.52

0

G3

3.10

2.70

0

G5

5.86

6.02

3.64

0

G6

4.72

4.46

1.86

1.78

0

G7

5.79

5.53

2.93

0.83

1.07

0

G8

1.32

0.88

2.24

5.14

3.96

5.03 0

G10 2.19 1.47 1.20 4.77 2.99 3.32 1.29 0

第二步,在上一步骤中所得到的新的 8×8 阶距离矩阵中,非对角元素中最小者为 d57=0.83,故将 G5 与 G7 归并为一类,记为 G11,即 G11={G5,G7}。再分别按照公式(13)式计算 G1,G2,G3,G6,G8,G10 与 G11 之间的距离,可得到一个新的 7×7 阶距离矩阵:

G1 G2 G3 G6 G8 G10 G11

G1

0

G2

1.52

0

G3

3.10

2.70

0

G6

4.72

4.46

1.86

0

G8

1.32

0.88

2.24

3.96 0

G10 2.19 1.47 1.20 2.99 1.20 0

G11 5.79 5.53 2.93 1.07 5.03 3.32 0

第三步,在第二步所得到的新的 7×7 阶距离矩阵中,非对角线元素中最小者为 d28=0.88,故将 G2 与 G8 归并为一类,记为 G12,即 G12={G2,G8}。再分别按公式(13)式计算 G1,G3,G6,G10,G11 与 G12 之间的距离,可得到一个新的 6×6 阶距离矩阵:

G1 G3 G6 G10 G11 G12 G1 0

G3 3.10 0

G6 4.72 1.86 0 G10

G11 G12

第四步,在第三步中所得到的新的 6×6 阶距离矩阵中,非对角线元素中最小者为 d6,11=1.07,故将 G6 和 G11 归并为一类,记为 G13,即 G13={G6,G11}

={G6,(G5,G7)}。再按照公式(13)式计算 G1,G3,G10,G12 与 G13 之间的距离,可得一个新的 5×5 阶距离矩阵:

G1 G3 G10 G12 G13

第五步,在第四步中所得到的新的 5×5 阶距离矩阵中,非对角线元素中最小者为 d3,10=1.20,故将 G3 和 G10 归并为一类,记为 G14,即 G14={G3,G10}

={G3,(G4,G9)}。再按公式(13)式计算 G1,G12,G13,与 G14 之间的距离, 可得一个新的 4×4 阶的距离矩阵:

G1 G12 G13 G14

G1 G12 G13 G14

第六步,在第五步中所得的新的 4×4 阶距离矩阵中,非对角线元素中最小者为 d12,14=1.20,故将G12 与 G14 归并为一类,记为 G15,即 G15={G12,G14}=

{(G2,G8),(G3,(G4,G9))}。再用公式(13)式计算 G1,G13 与 G15 之间的距离,可得一个新的 3×3 阶距离矩阵:

G1 G13 G15

G1 0

G13 4.72 0

G15 1.32 2.99 0

第七步,在第六步中所得的新的 3×3 阶距离矩阵中,非对角线元素中最小者为 d1,15=1.32,故将 G1 与 G15 归并为一类,记为 G16,即 G16={G1,G15}={G1,

(G2,G8),(G3,(G4,G9))}。再用公式(13)式计算 G13 与 G16 之间的距离, 可得一个新的 2×2 阶距离矩阵:

G13 G16

G13 0

G16 2.99 0

第八步,将 G13 和 G16 归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以作出最短距离聚类谱系图(如图 2-2 所示)。

五、最远距离聚类法

最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式:

drk=maX{dpk,dqk} (k≠p,q) (14) 对于上述同样的例子,最远距离聚类法的聚类过程如下:

第一步,在 9×9 阶距离矩阵中,非对角线元素中最小者为 d94=0.51,故

将 G4 与 G9 归并为一类,记为 G10,即 G10={G4,G9}。按照公式(14)式分别计算 G1,G2,G3,G5,G6,G7,G8 与 G10 之间的距离,可以得到一个新的 8×8 阶距离矩阵:

G1

G2

G3

G5

G6

G7

G8 G10

G1

0

G2

1.52

0

G3

3.10

2.70

0

G5

5.86

6.02

3.64

0

G6

4.72

4.46

1.86

1.78

0

G7

5.79

5.53

2.93

0.83

1.70

0

G8

1.32

0.88

2.24

5.14

3.96

5.03

0

G10 2.62

1.66

1.23

4.84

3.06

4.06

1.40

0

第二步,在第一步所得到的新的 8×8 阶距离矩阵中,非对角线元素中最小者为 d57=0.83,故将 G5 与 G7 归并为一类,记为 G11,即 G11={G5,G7}。再按照公式(14)式分别计算 G1,G2,G3,G6,G8,G10 与 G11 之间的距离,可得一个新的 7×7 阶距离矩阵如下:

G1 G2 G3 G6 G8 G10 G11

G1

0

G2

1.52

0

G3

3.10

2.70

0

G6

4.72

4.46

1.86

0

G8

1.32

0.88

2.24

3.96

0

G10

2.62

1.66

1.23

3.06

1.40

0

G11

5.86

6.02

3.64

1.78

5.14

4.84

0

第三步,在第二步中所得到的新的 7×7 阶距离矩阵中,非对角线元素中最小者为 d28=0.88,故将 G2 与 G8 并为一类,记为 G12={G2,G8}。再按照公式(14)式分别计算 G1,G3,G6,G10,G11,与 G12 之间的距离,可得一个新的6×6 阶距离矩阵如下:

G1 G3 G6 G10 G11 G12

G1 0

G3 3.10 0

G6

4.72

1.86

0

G10

2.62

1.23

3.06

0

G11

5.86

3.64

1.78

4.84

0

G12

1.52

2.70

4.46

1.66

6.02

0

第四步,在第三步中得到的新的 6×6 阶距离矩阵中,非对角线元素中最小者为 d3,10=1.23,故将 G3 和 G10 归并为一类,记为 G13,即 G13={G3,G10}={G3,

(G4,G9)}。再按照公式(14)式分别计算 G1,G6,G11,G12 与 G13 之间的距离, 可得一个新的 5×5 阶距离矩阵如下:

G1 G6 G11 G12 G13

G1

0

G6

4.72

0

G11

5.86

1.78

0

G12

1.52

4.46

6.02

0

G13

3.10

3.06

4.84

2.70

0

第五步,在第四步中所得到的新的 5×5 阶距离矩阵中,非对角线元素中最小者为 d1,12=1.52,故将 G1 和 G12 归并为一类,记为 G14,即 G14={G1, G12}={G1,(G2,G8)}。再按照公式(14)式分别计算 G6,G11,G13 和 G14 之间的距离,可得一个新的 4×4 距离矩阵如下:

G6 G11 G13 G14

G6

0

G11

1.78

0

G13

3.06

4.84

0

第六步,在第五步中所得到的新的 4×4 阶距离矩阵中,非对角线元素中最小者为 d6,11=1.78,故将 G6 与 G11 并为一类,记为 G15,即 G15={G6,G11}={G6,

(G5,G7)}。再按照公式(14)式分别计算 G13,G14 和 G15 之间的距离,可得一个新的 3×3 阶距离矩阵如下:

G13

G14

G15

G13

0

G14

3.10

0

G15

4.84

6.02

0

第七步,在第六步中所得到的新的 3×3 阶距离矩阵中,非对角线元素中最小者为 d13,14=3.10,故将 G13 和 G14 归并为一类,记为 G16,即 G16={G13, G14}={(G3,(G4,G9)),(G1,(G2,G8))}。再按照公式(14)式计算G15 与 G16 之间的距离,可得一个新的 2×2 阶距离矩阵如下:

G15 G16

G15 0

G16 6.02 0

第八步,将 G15 与 G16 归并为一类。此时,各个分类对象均已归并为一类。

综合上述各聚类步骤,可作出最远距离聚类的谱系图(如图 2-3 所示)。六、系统聚类法计算类之间距离的统一公式

从公式(13)和(14)式不难看出,最短距离聚类法具有空间压缩性,而最大距离聚类法具有空间扩张性。它们的这种性质可以形象地用图 2-4 来表示。在图 2-4 中,最短距离为 dAB=da1b1,最远距离为 dAB=da2b2。这两种聚类方法关于类之间的距离计算可以用一个统一的式