二、要素分类
(一)区域地理要素分类的概念和意义
区域地理要素的分类,指区域内某个要素(部门)的分类,是按照该要素属性的相似性和差异性划分成类型(类别)系统。例如,我国陆地地貌基本类型有山地、丘陵、平原、盆地、高原等,成因类型有构造地貌、河流地貌、岩溶地貌、红层地貌、花岗岩地貌、黄土地貌、风成地貌、冰川地貌、多年冻土与冰缘地貌、海岸地貌等。我国植被基本类型有森林、草地、灌丛、水生植被、冻原、荒漠等,群落一生态类型有针叶林、阔叶林、灌丛和灌草丛、草原和稀树草原、荒漠(包括肉质剌灌丛)、冻原、高山稀疏植被、草甸、沼泽、水生植被等 10 个植被型组和 29 个植被型、52 个亚型、560 多个群系。我国经济的分类多称为部门或行业。我国工业分为重工业和轻工业, 有能源、冶金、机械制造、化学、建筑材料、纺织、轻工业等基本工业部门以及几十个行业。无论是自然要素或经济部门,分类的结果都是多层次的系统。
同一要素(部门)的各种类型(次级部门或行业),在空间分布上互相交错,同一类型的分布空间可以是不连续的。
区域地理要素分类,是区域地理要素分析中常见的、大量的工作。区域经济部门分类,一般都有现成的、通用的分类方案,由国家统计部门执行分类统计工作,而区域地理工作者一方面根据这些分类统计信息作进一步的分析论述,另一方面又根据具体研究目的进行新的分类研究。区域自然要素方面,目前仍没有成熟的、公认的分类方案占多数,要素的分类成为科学研究的重要内容。一种分类方案甚至可代表一个学派,一种新的、成功的分类方案的出现,被视为科学的进步。无论是自然或经济方面,要素(部门)的分类研究(包括各类型的性质、状态、成因、功能的论述),都占区域地理研究工作的相当大比重。专论地理或部门地理的研究内容,绝大部分就是要素分类,如中国土壤分类研究一直到今日仍然是主要课题。当然,区域地理的要素分类不是为要素而研究要素,是为区域而讨论要素分类的。区域研究中可以引用专论地理的分类成果,但要有所侧重或处理,必要时还得根据研究
目的而进行分类研究。
至于区域地理要素分类的意义,可以这样来归纳:第一,分类能把复杂的事物或现象简化和系统化,便于认识客观世界、发现新的事物或种类,为进一步揭示区域地理要素的特征和空间分布规律、时间演化过程以及要素之间的相互关系作基础。第二,分类能揭示事物或现象的性质和功能,为人类开发利用提供科学依据,有些分类甚至可直接为生产或生活服务。第三,分类便于信息收集和处理,为进一步研究和应用服务。
(二)区域地理要素分类原则和指标
区域地理要素的分类原则和指标,是要素分类的依据。有了分类原则和指标,要素的分类工作就可进行。例如,中国科学院自然区划工作委员会在50 年代后期根据形态原则选用地势和切割深度 2 项指标制订出地势分类方案
(表 3—5),有了表 3—5 为依据全国地势分类就较顺利进行。
表 3 — 5 中国地势等级表
分类名称 |
海拔高度( m ) |
相对高度( m ) |
|
---|---|---|---|
极高山 |
> 5 , 000 |
> 1 , 000 |
|
高山 |
深切割的 |
3 , 500 ~ 5 , 000 |
> 1 , 000 |
中等切割的 |
500 ~ 1 , 000 |
||
浅切割的 |
100 ~ 500 |
||
中山 |
深切割的 |
1 , 000 ~ 3 , 500 |
> 1 , 000 |
中等切割的 |
500 ~ 1 , 000 |
||
浅切割的 |
100 ~ 500 |
||
低山 |
中等切割的 |
500 ~ 1 , 000 |
500 ~ 1 , 000 |
浅切割的 |
100 ~ 500 |
||
丘陵 |
<100 |
不同区域,可以有不同的要素分类原则和指标。就地势分类而言,中国科学院华南热带生物资源综合考察队(1962)在广东省的分类方案是:丘陵海拔 250m 以下(相对高度 50—250m),山丘海拔 250~500m(相对高度 100~ 400m),低山海拔 500~800m(相对高度 100~700m),中山海拔 800m 以上至省内最高点 1902m(相对高度 100—1000m),显然与全国的标准有出入。这种情况的出现,主要是由于区域的差异性所决定。每个区域的要素分类原则和方法,应尽可能真实地反映该区域的客观实际,才能使分类的结果具有科学意义和实用价值。所以,不能不加分析地套用别区域的分类原则和指标
(特别是指标)。然而,一个区域(行政区或自然区、经济区)内部,如果能够有统一的分类方案其应用效果会更好,特别是社会经济方面的基本分类更有必要。
同区域,不同要素固然有不同的分类原则和指标;而同一区域同一要素, 也有不同的分类原则和指标。仅自然分类而论,中国植被有生态外貌分类、植物区系分类等,中国土壤有发生学分类(土壤地带性及生物为主导成土因素的分类)、地质成因分类、诊断层分类等,中国地貌有形态分类、成因分类、成因一形态分类等。若加上人为分类情况更复杂,如中国森林按林种分
为用材林、防护林、经济林、薪炭林、特用林、竹林,按龄组分为幼龄林、中龄林、成熟林,按优势林分分为红松林、冷杉林、云杉林⋯⋯等几十类。分类原则和指标的确定,主要根据分类目的。同区域同要素之所以有不
同的分类,固然有认识上的差异,但更重要的是分类目的之区别。分类目的分两大方面:一是为了认识客观世界的理论性分类(也有称自然分类),二是为了应用于人类生活或生产活动的实践性分类(也有称人为分类)。两者都属科学分类,切勿将实践性分类排斥在科学分类之外。
理论性的分类目的体系如下:(见下图)
上述的理论性分类目的体系,大体上反映当前我国的各种区域地理要素的理论性分类目的。与这些分类目的相对应的就是分类原则。例如,为了认识要素类型的形态就出现形态分类原则,为了认识要素类型的成因就出现成因分类原则,为了认识要素类型形成的主导因素就出现主导因素分类原则等。当然,各要素有各自的术语,如成因分类原则中的我国土壤用发生学原则、植被用植物区系原则等。
实践性分类目的体系更是庞大的体系,它包括人的社会活动、生产活动、生活活动、生产对象、生产关系等各个方面。例如,
平均状态分类
形态外貌分类差异状态或标志性状态分类
形态分类
简单组合分类
形态组合(结构)分类复杂组合分类
理论性分类
成因分类
主导因素分类
因素分类组合因素分类
形成过程分类
过程分类
区域分异过程分类
综合分类(形态 − 成因分类) − −(下属体系由形态分类与成因分类按
相同等级互相组合, 不再列出)
我国经济的各种产业分类属于生产活动分类,我国各种自然资源的分类属于生产对象分类,我国的所有制企业分类和省属、市属、乡镇企业等辖属企业分类可归入生产关系分类等。
有了分类原则,就可以进一步确定分类指标。分类指标包括指标项目和指标数据(或标志)两方面。如表 3—5 中的海拔高度、相对高度属于指标项目,而指标数据是>5000m、3500—5000m 等。有的分类指标不用数据而用语言,例如曾昭璇(1981 年)对我国红层地貌分类选用空间形态和盆地规模 2 个指标项目,采用语言代替指标数据,结果分为以菱形为主的大型红层盆地、以长条形为主的中型盆地、菱形和长条形兼有的小型盆地等 3 类。
值得强调的是不同学术观点对分类指标有不同的选择,结果可能出现同一分类目的之不同分类结果。这种现象在理论性分类中普遍存在。例如,同为成因分类原则,地质学观点的早期土壤分类选择风化过程、搬运一堆积过程为分类标志。地带学观点的我国土壤分类以生物为主导,成土因素选用土
壤属性(土体构型和发生层段)为标志分各土类。诊断层观点的我国土壤分类,选用具有成土过程标志意义的诊断层作为土类划分的标志(即引用联合国粮农组织(FAO)的分类方案)等。对于不同学术观点的分类,应客观地对待,从研究区域的实际情况出发进行必要的选择或调整。
(三)区域地理要素分类的聚类分析法
聚类分析方法,是根据事物特征值的相似性和差异性进行聚合分类的数学方法。对于区域地理要素的分类,可引用聚类分析方法,按照要素属性的相似性或差异性进行分类。
下面,以表 3—6 为原始数据,介绍聚类分析的步骤:
表 3 — 6 杨青镇正地形特征值
地名 |
代号 |
海拔高度( m ) |
相对高度( m ) |
---|---|---|---|
金坡山 |
A |
100 |
40 |
紫云山 |
B |
600 |
350 |
乳吉山 |
C |
700 |
400 |
寒风山 |
D |
400 |
150 |
黄槐山 |
E |
300 |
100 |
1、将原始数据标准化
假设海拔高度与相对高度 2 个指标项目对正地形分类的意义相等(权重相等)。
考察原始数据,看出海拔高度与相对高度的量纲虽然相同但数据大小不一。为了维护权重相等的假设,可用列总和对原始数据作标准化处理:
-
分别计算各列总和。得海拔高度列总和为 2100,相对高度列总和为 1040
-
分别计算各数值占所在列总和的比重。得:
100
A的海拔高度标准数值为 2100 ×1000≈5(%)
A的相对高度标准化数值为 40 ×100≈4(%)
1040
阵:
最后得标准化数据矩
i j,k |
海拔高度 相对高度 |
|
---|---|---|
A |
5 | 4 |
B |
29 |
34 |
C |
33 |
38 |
D |
19 |
14 |
E |
14 |
10 |
- 计算两两之间的相似系数
用夹角余弦 cosθ作相似系数。其计算式:
cos θjk
∑x ji xki
= i=1
式中, i——指标项目序号(i=1, 2,⋯,n,本例 n=2) j、k——正地形个体序号(本例 j、k=A、B、C、D、E) Xji——第 j 个正地形的第 i 个指标项目的标准化数值
Xkj——第 k 个正地形的第 i 个指标项目的标准化数值例如:计算金波山
(A)与紫云山(B)的相似系数
2
cos θAB
∑xAi x Bi
= i=1 =
5 × 20 + 4 × 34
= 0.98203
得第 1 相似系数矩阵:
A |
B |
C | D | E | |
---|---|---|---|---|---|
A |
1 |
0.98203 |
0.98367 |
0.99921 |
0.99852 |
B |
1 |
0.99996 |
0.97376 |
0.97030 |
|
C |
1 |
0.97574 |
0.97241 |
||
D |
1 |
0.99989 |
|||
E |
1 |
(注意:自身的相似系数为 1 ,但没有分类意义,在相似系数矩阵中可以不写出。下面的讨论均作不存在处理。)
- 聚类过程
将要介绍的是系统聚类法,即从下到上逐步聚类的方法,每一步聚合一个样本,最后一次性给出分类结果。
在聚类过程,由于不断地产生新的类型,使类型之间的相似性不断地发生变化。为了反映这种变化,就必须在聚类过程中不断地修正其相似系数。修正相似系数的方法,一般采用类平均法:
设 A、B、C 类分别有 nA、nB、nC 个样方(注意:开始 1 类只有 1 个样方, 但聚类过程的后阶段一个新类可能包含许多样方)。当 A 类与 B 类聚合成新的 A'类时(即 A'=A+B),A'与 C 的相似系数是:
cos θA'
C = cosθA +B,C
= nA
nA+B
cosθAC
- n B
n A+B
cosθ BC
式中的 nA+B 是 A 类与 B 类样方之和。
有关类平均法计算式的运算,请注意下面聚类过程的各个步骤。
第一步:从第 1 相似系数矩阵中发现 cosθBC=0.99996 为最大(注意: 排除自身的相似系数而论)。决定聚合 B 与 C。令 B'=B+C。计算:
cos θ
AB '= cosθA ,B+C
1
= nB
n B+C
1
cosθAB +
n C
n B+C
cosθAC
= 2 × 0.98203 + 2 × 0.98367 = 0.98285
cos θ '
= cosθ
= nB
cosθ
- nC
cosθ
B D B+C,D
1
nB+C
1
BD n
DC
B+C
= 2 × 0.97376 + 2 × 0.97574 = 0.97475
cos θ '
= cosθ
1 0.97030 1
0.97241
B E B+C,E = 2 × + 2 ×
= 0.97136
得第 2 相似系数矩阵:
A |
B ' |
D |
E |
|
---|---|---|---|---|
A |
0.98285 |
0.99921 |
0.99852 |
|
B ' |
0.97475 |
0.97136 |
||
D E |
0.99989 |
第二步:从第 2 相似系数矩阵中发现 cosθDE=0.99989 为最大。决定聚合 D 与 E。令 D'=D+E。计算:
cos θ
AD '= cosθA ,D+E
1
= nD
n D+E
1
cosθ AD
- nE
n D+E
cos θAE
= 2 × 0.99921 + 2 × 0.99852 = 0.99887
cos θ
B 'D '= cos θB',D+E
1
= nD
n D+E
1
cosθ
B'D
- n E
nD +E
cosθ
B'E
= 2 × 0.97475 + 2 × 0.97136 = 0.97306
得第 3 相似系数矩阵:
A |
B ' |
D ' |
|
---|---|---|---|
A |
0.98285 |
0.99887 |
|
B ' D ' |
0.97306 |
第三步:从第 3 相似系数矩阵中发现 cosAD'=0.99887 为最大。决定聚合 A 与 D'。令 D"=A+D'。计算
cos θ
' ' ' = cosθ '
= nA
cosθ
- n D'
cosθ ' '
B D B ,A +D
nA +D '
B'A
B D
A +D'
1 2
= 3 × 0.98285 + 3 × 0.97306 = 0.97632
(注意:∵D’=D+E,∴ND’=2,而 nA+D’=3) 到此,全部聚合完毕。
第四步:从第一步起,将各步决定聚合的类型及有关的相似系数,按一
定的比例作聚类枝状图:
- 分析枝状图并决定分类方案。
在枝状图纵座标上,取两个相邻的相似系数平均值为阈值,得:0.99993、0.99938、0.98760
- 假设取 0.99993 阈值为分类标准,可分为[B、C]、[D]、[E]、[A]
共 4 类。对照表 3—6 原始数据,发现除了最高的紫云山与乳吉山聚合成一类之外,其余各类都是原来的样本,既过于分散又失去分类意义。
- 假设取 0.99938 阈值为分类标准,可分为[B、C]、[D、E]、[A]共
3 类。对照表 3—6 原始数据,相当于海拔 600—700m(相对高度 350—400m) 为一类、海拔 300—400m(相对高度 100—150m)为一类、海拨 100m(相对高度 40m)为一类,类间的差异性较大而类内的差异性较小(相似性较大), 也对应于习惯上的低山、高丘、低丘的类别。
- 假设取 0.98760 阈值为分类标准,可分为[B、C]、[D、E、A]共 2
类。对照表 3—6 原始数据,相当于海拔 600—700m(相对高度 350—400m) 为一类、海拔 100—400m(相对高度 40—150m)为一类,虽然可对应习惯上的低山和丘陵类别,但丘陵类内部的两项指标数据差异太大,特别是海拔高度的类内差异大于类间差异。
根据上述分析,可决定采用 0.99938 为分类标准分成 3 类的方案。5.运用聚类分析应注意的问题
- 聚类分析有严格的计算程序,无论原始数据多庞大,最终都能形成分类方案。它减轻了主观分析上的困难,使我们较方便地完成分类任务,曾经有人称为“客观分类方法”。但是,聚类分析方法也并不客观,前面所讨论的分类原则或分类目的与学术观点仍是聚类分析结果的主导因素。其表现在:
分类目的与学术观点决定了原始数据的选取,而原始数据的选取是聚类分析结果的决定性因素。如果将表 3—6 的原始数据换成坡度、组成岩性、残积层厚度、海拔高度等,其分类结果就不一定与上述分析的相同。
分类目的与学术观点决定了原始数据标准化方案,而不同标准化方案的数据的聚类分析结果不同。本例如果给海拔高度与相对高度不同的权重,分类结果就不一样。此外,不同的标准化方法,分类结果也可能不同。例如列标准化与行标准化的权重意义不同,前者着眼于指标项目(要素的属性)、后者着眼于样本的区位。
分类目的和学术观点也影响聚类分析结果(枝状图)的认识和采纳。本例的杨青镇,如果认为低海拔地方的人类活动已经减弱高度的影响,从该镇的需要只求分出较少的类型,那么最终只能决定采纳 0.9876 为阈值的分为 2
类方案。
- 不必要对每个阈值作聚类枝状图分析,一般对 3—4 个可选择的分类方案中作比较分析即可。从数学角度看,阈值所处的上下两个相似系数水平差异大的分类方案较好,因为它表示类间相似性小而类内相似性大。还可以对聚类方案作 x2 检验(见本节的要素分区方法)。但更重要的是聚类方案的地理意义而不是数学解释。