分类的稳定性分析
对同一地区的土地覆盖调查来说,监督分类所得到的结果与 3 个因子有关:分类特征、分类模式及样本像元。由于样本像元的选择带有一定的随机性,不同的人以及同一人在不同时间所选择的样本像元不可能是完全一致的。由于样本像元的不同,分类所得出的结果也必然会有一定的差异。因此, 评价一种分类(分类特征及分类模式)对一个地区土地覆盖调查的有效性, 除了对某一分类的结果进行评价外,还需要对其分类结果的稳定性进行分析。
分类的稳定性分析可采取如下方法:根据每一地类训练样本的统计特征,利用随机数产生软件为每一地类产生一系列模拟的训练样本。根据模拟训练样本进行分类,比较不同训练样本所得结果,计算出每种地类分类结果的标准偏差及整个图像分类结果的标准偏差。
进行上述方法的前提是原始训练样本所得到的统计代表该类型真实的分布。因此,首先要确定原始训练样本所得到的统计是否代表该类型真实的分布。可以选择检验区来判断检验区与训练区的统计是否一致,即它们是否是同一分布的样本(μ1=μ2)。可采用 t 检验方法,每一波段的 t 值可利用如下公式计算(Snedecor and Cochran,1967):
这里:
t = X1 − X 2
SX1 −X2
(3 - 28)
n + n
1/2
S = S2 ( 1 2 ) ,
X1 −X2
n1n 2
S2 + S2
= S2 1 2 ,
2
S2 和S2 是训练区和检验区的方差,n 和n
是训练区和检验区的样本
1 2 1 2
容量。
如果所有波段的 t 都小于 t0.05,表明在 95%置信度下零假设可以接受, 训练样本的统计能反映类型的真实分布。
下面以上海市嘉定区的一个子区(300×300)作为例子进行分析。子区
内共有 4 个地类:农田(除菜地)、菜地、城镇居民点和农村居民点。选择训练样本得出每一地类的统计特征(TM-2、3、4)(表 3-11)。为了确定训练样本的统计能否反映类型的真实分布,选择检验区得出每一地类的统计特征(表 3-12)。按公式(3-28),计算出各个类型不同波段的 t 值(表 3-13)。通过查表可知,每一 t 值均小于 t0.05,表明训练样本的统计能反映类型的真实分布。
表 3-11 训练样本的统计特征
波段 |
农田 |
菜地 |
城镇居民点 |
农村居民点 |
||||
---|---|---|---|---|---|---|---|---|
均值 |
标准差 |
均值 |
标准差 |
均值 | 标准差 | 均值 |
标准差 |
|
TM-2 |
35.45 |
0.9106 |
38.56 |
1.9354 |
40.15 | 2.7811 | 38.89 |
1.8405 |
TM-3 |
31.68 |
1.6053 |
39.60 |
3.2659 |
43.54 | 4.1922 | 40.85 |
3.5663 |
TM-4 |
84.76 |
8.6773 |
57.79 |
4.7692 |
42.57 | 5.1499 | 49.39 |
6.5480 |
表 3-12 检验样本的统计特征
波段 |
农田 |
菜地 |
城镇居民点 |
农村居民点 |
||||
---|---|---|---|---|---|---|---|---|
均值 |
标准差 |
均值 |
标准差 |
均值 |
标准差 |
均值 |
标准差 |
|
TM-2 |
35.56 |
1.3122 |
38.55 |
0.8285 |
41.04 |
2.5877 |
38.95 |
1.2095 |
TM-3 |
32.35 |
2.4715 |
39.76 |
0.9134 |
44.35 |
4.3117 |
41.47 |
1.9240 |
TM-4 |
82.38 |
8.3593 |
59.68 |
3.9668 |
45.13 |
6.8978 |
51.36 |
4.2612 |
表 3-13 各个地类在不同波段上的 t 值
波段 |
农田 |
菜地 |
城镇居民点 |
农村居民点 |
---|---|---|---|---|
TM-2 |
0.42 |
0.03 |
1.42 |
0.16 |
TM-3 |
1.40 |
0.28 |
0.81 |
0.93 |
TM-4 |
1.21 |
1.79 |
1.80 |
1.53 |
n1=341 n2=20 |
n1=128 n2=20 |
n1=209 n2=20 |
n1=217 n2=20 |
接着,利用 IDRISI 软件中的有关模块来产生模拟训练样本。方法如下: 按照训练样本的统计特征,各个类型的每一波段利用 ran-dom 模块产生
一个随机图像,共 4×3=12 个随机图像。任意选一幅图像,利用屏幕数字化
方式在图像上任意数字化 10 个区域,利用统计特征生成模块(makesig)每
次为一个地类生成 10 套模拟训练样本。在分类时,每次分类选择一套模拟训练样本,分类结果计算出每个地类的像元数。比较每次分类所得的像元数, 可以计算出每个地类分类的标准偏差及整个图像分类的标准偏差(表 3- 14)。
表 3-14 10 套模拟训练样本的分类结果
项目 |
农田 |
菜地 |
城镇居民点 |
农村居民点 |
---|---|---|---|---|
1 |
36623 |
23492 |
11342 |
18543 |
2 |
36095 |
22360 |
12118 |
19427 |
3 |
36336 |
23049 |
11375 |
19240 |
4 |
36476 |
22746 |
11491 |
19287 |
5 |
36360 |
22596 |
11698 |
11346 |
6 |
36015 |
23516 |
11144 |
19323 |
7 |
36341 |
23408 |
11930 |
18321 |
8 |
36610 |
23016 |
11924 |
18450 |
9 |
36210 |
23146 |
11777 |
18869 |
10 |
36385 |
23356 |
11259 |
19000 |
均值 ( Mean ) |
36345 |
23069 |
11606 |
18981 |
均方差 ( SD ) |
189 |
376 |
312 |
392 |
∑ SD=1269 |
整个图像分类的标准偏差为 1269,占整个图像的 1.41%。