甲、冶金工业

a

1

40

40

h

2

32

72

c

3

18

90

b

4

6

96

j

5

3

99

d

6

1

100

7

0

100

e

8

0

100

g

9

0

100

f

10

0

100

合计

100

897

沿 X 轴标出位次,Y 轴标出三种行业的累计百分比,得到图 4—1 中的甲乙、丙三条罗伦兹曲线。比较这些曲线与对角线的偏离状况,可以了解这三种行业在区域内的分布集中化程度。显然,曲线丙紧靠对角线,表明食品加工业集中化程度最低。相反,曲线甲远离对角线,表明冶金工业集中化程度最高。前者和消费市场关系大而相对分散,后者则与资源关系密切,故相对集中。机械工业集中化程度介于两者间。但是,这种比较虽然直观,却不免粗略。为了进行数量化分析,可将各曲线和对角线之间的面积与对角线上方三角形面积之比的值进行比较,从而得

乙、机械工业

a

1

35

35

e

2

15

50

j

3

13

63

h

4

12

75

c

5

8

83

d

6

7

90

b

7

4

94

i

8

3

97

f

9

2

99

g

10

1

100

合计

100

786

丙、食品加工业

e

1

20

20

a

2

18

38

j

3

13

51

d

4

12

63

c

5

10

73

h

6

9

82

b

7

7

89

f

8

6

95

i

9

3

98

g

10

2

100

合计

100

709

图 4—1 某区域有关行业分布的罗伦兹曲线出较准确的结论。

然而,要计算曲线和对角线之间的不规则图形的面积相当麻烦。因此, 可以采用近似的方法计算,通常的方法有两种。一种方法是,对累计百分比的合计数进行比较,其数值越大者,表明该种要素的地理分布集中化程度越高;反之,其数值越小,则该种要素的地理分布集中化程度越低。表 4—2 中甲、乙、丙栏最后一行累计百分比的合计数分别为 897、786 和 709,即表明冶金工业的集中化程度最高,机械工业次之,食品加工业最低。另一种方法是计算集中化程度指数。集中化程度指数是与罗伦兹曲线相对应的统计量,是对地理要素空间集中程度进行对比的计量指标,其计算公式如下:

A − R I = M − R

式中,I 为某地理要素的集中化程度指数,A 为该要素在区域内各小区累计百分比的合计数(本例中,A 分别为 897,786 和 709),M 为假定某地理要素分布的集中化程度达到最大时(即该要素的 100%集中在某一小区,实际上, 这意味着,其罗伦兹曲线呈直角三角形)的累计百分比合计数(本例中,M

= 100+ 100+⋯+100=10 ×100=1000),R 通常为假定某地理要素平均分布在区域内各小区时(表示集中化程度为最小,本例中,各小区分布该要素的 10%)的累计百分比合计数(本例中,R= 10+ 20+⋯+ 90+ 100= 550,实际上,这意味着,其罗伦兹曲线完全与对角线重合)。

根据公式,可以分别计算本例的冶金工业、机械工业和食品加工业的集中化程度指数,该数值越大,则说明分布越集中。

897 - 550

I甲= 1000 - 550 = 0.77

786 - 550

I乙= 1000 - 550 = 0.52

I = 709 - 550

= 0.35

1000 - 550

显然,集中化程度指数位于 0—1 间,当 I=0 时。表明某地理要素平均分布于区域内各小区;I=1 时,表明某地理要素集中分布于区域内某一小区, 而其余小区完全没有地理要素分布。

(三)距离系数

所谓距离,就是将地理事物(特征值或指标)看作是空间的一个点,以点之间的距离来表示各个样本(要素、地区)之间特征值的相似或差异程度的统计量,称为距离系数。距离小,较相似,距离大,则相异。距离系数有许多种,现仅介绍其中一种常用距离系数,即欧氏距离(dij),其计算公式为

d ij =

式中,Xik 是第 i 个点第 k 个指标的值,Xjk 是第 j 个点第 k 个指标的值, i,j 为两个样本在空间中的两个点,k=1,2,3,⋯,m 是指标个数。

现举例说明之,设有三个地区(点 1,点 2,点 3)为比较其相似程度,

找出 7 个自然或经济各要素量化后的指标,k 表示 1—7,列成下表(表 4—3),并加以计算得三点间距离系数。

表中 dij 值即为开平方根值,d12 的值就是点 1 和点 2 的距离系数,d13 的值就是点 1 和点 3 的距离系数,d23 的值就是点 2 和点 3 的距离系数。

d23=2.828,d12=6.403,d13=6.846。由于距离系数不是在 0—1 间,而是数值越小,表示两个点之间的相似程度大;反之则相似程度小,差异程度大。因此,以点 2 和点 3 最相似,其次是点 1 与点 2 较相似,而以点 1 和点 3 相似程度最小,即差异性最大。有了这些数据,在描述区域间的特征时就心中有数了。因为两个样本(要素、区域)距离系数大,表明它们间的差异大, 这样找出的区域特征就比较切合实际。反之距离系数小,区域特征则需重新考虑。

但在用距离系数时,要注意如量化后的原始数据,单位不一,数值大小相差悬殊,得先对数据进行处理。处理方法很多,一般用数据的标准差标准化,即把每一个变量(X1,X2⋯⋯)的原始数据减去其平均值 X j ,然后再除以标准差,其计算公式为

X'ij =

X ij − Xj S

j

式中 X’ij 为处理后的新数据,Xij 为原始数据,Sj 为标准差。经这样处理后的数据,其均值为 0,标准差为 1,且与变量的单位无关。

(四)主成分分析

它是把原来多个指标化为少数几个综合指标的一种统计方法。区域地理系统研究中所取得的地理要素和指标往往是多变量

表 4 — 3 距离系数计算表

点l 点 2 点 3

(X1K-X2K)

(X1K-X2K)2

(X1K-X3K)

(X1K - X 3K)2

(X2K -X3K)

(X2K-X3K)2

X1

6 4 4

2

4

2 4

0

0

X2

6 5 5

1

1

1 1

0

0

x3

2 1 3

1

1

-1

1

-2

4

X4

6 2 3

4

16

3 9

-1

1

X5

2 3 2

-1

1

0 0

1

1

x6

1 4 5

-3

9

-4

16

-1

1

X7

6 3 2

3

9

4

16

1

1

41

47

8

dij

6.403

6.846

2.828

的,设有 n 个地理区域,每个地理区域测得 P 个指标(土壤酸碱度、植被覆盖率等),总共有 nP 个观测数据,其数量常常很大。但指标间存在着相关关系,且有主次之分,可以通过原指标的线性组合,适当调整它们的系数,用较少的综合指标来代表原来较多的指标,而这些较少的综合指标,既能尽量多的反映原来较多的指标的信息,它们彼此间又是独立的。通过这样的分析处理,就可减少研究的要素和指标,使系统简化,从而抓住了影响区域地理系统的主要矛盾,即主要的区域地理特征。这种统计方法对寻找区域特征虽好,但有一定难度,如需采用,可再参考有关资料。