分类特征选择
遥感数据分类中所用的特征数据除了原始的光谱数据外,还包括对原始光谱数据进行各种变换(如比值、线性组合)所得到的新的特征数据,以及其他的非光谱特征数据(如地形、空间信息等)。在实际的分类过程中,对已有的特征数据有时候并不是全部用来参予分类,而是选择一部分特征数据。减少用于分类的数据维数,一方面可大大减少计算量,另一方面,理论和实践表明:当数据维数超过某一限度时,增加特征数不仅不会提高分类的精度,反而会降低分类精度[7]。这种矛盾出现的原因是因为选择的训练样本是有限的。图 3—5 是一个实验研究的结果,它表明分类的准确程度随维数增加而增加到一个极大值(图中为三维)后,增加维数反而会降低分类精度。
减少维度的方法主要有以下几种:主成分分析法、最佳指数因子分析
(Optimum Index Factor,OIF)及变换离散度分析。
主成分分析是通过 K—L 变换把坐标旋转到数据散布最大的几个方向上。一般来说,取前几个主分量,可以集中所需要的信息,达到特征减少的目的。
最佳指数因子分析是对所有波段的三波段组合方案进行评价。最佳指数因子的计算公式为[8]:
3 3
OIF
= ∑Si / ∑ R j
(3 − 9)
i= 1 j=1
式中,Si 为 i 波段图像的亮度标准差,其值越大,说明数据的离散度越大,所包含的信息量越大,可分性越高;Rj 为三波段中任意两波段之间的相关系数,其值越小,表明图像数据独立性越高,信息的冗余度越小。OIF 越大,组合图像的信息量越大,组合方案越佳。
上述两种方法都是从分类图像的总信息量来考虑。但对某一种目的的分
类来说,某些信息可能对分类过程不但没有帮助,甚至妨碍分类,这种信息被称为噪声。某种信息(如土壤信息)在一种应用中(如土壤分类)可能是有用信息,但在另一种应用中(如作物分类)就可能是噪声[9]。变换离散度分析是通过分析不同特征组合情况下类型间的可分性,来确定最佳特征数及最佳特征组合的方法。
判断类型间的可分性可用变换离散度来测量。变换离散度(TDij)的计算公式为(Su 1990):
TDij=2000[1-exp(-Dij/8],(3—10)
其中,Dij 称为散度,它的计算公式如下:
D = 1 tr[(C
− C )(c−1 − C −1 )] + 1 tr[(C −1 − C −1 )( M
-
M* )( *M*
-
M* ) *T* ]
ij 2
i j j i
2 i j i j i j
(3—11)
式中 tr[A]表示矩阵 A 的迹,C 是类型 i 和 j 训练样本的协方差矩阵,M 是类型训练样本的均值。当对这两个类型进行分类时,Dij 是错误概率大小的间接指示,因此,对于为分类目的而选出的各种候选的特征集合,它能提供一种表示它们相对有效性的度量,对于任何一对给定的特征子集,只要算出这两个子集的离散度,并选取离散度最大者,便能确定出最优子集。
变换离散度是一种“对间的”(pairwise)距离度量,对于多类问题, 一个常用的解决办法是利用平均变换离散度,即计算全部类对(paris of classes)的变换离散度的均值。平均类对变换离散度 TDave 的定义如下:
m m
TDave
= ∑∑ P(wi ) P(wj )TDij
i =1 j =1
(3— 12)
这是一个以类型先验概率为权重的加权平均值。
下面是一个利用变换离散度分析选择分类特征的例子。
在利用 TM 数据进行上海市菜地分布信息提取中,通过计算不同波段组合情况下,菜田与其他地类之间的平均类对变换离散度来选择最佳的分类特征。整个研究区域共分出 14 个光谱类(水体 3 类、城镇居民点 4 类、道路、农村居民点、油菜、麦子、其他植被休闲农田和菜地),在工作站上,利用PCI 遥感图像处理软件中的变换离散度计算模块,计算出不同波段组合(不包括 TM—1 和 TM—6)情况下,菜地与其他光谱类之间的变换离散度,然后根据公式(3—12)计算出平均类对变换离散度(表 3—6),其中 P(ωi) 是通过对 2、3、4 三波段分类结果进行统计得出。
从表 3—6 中可以看出,TDave 最大的波段组合为(3,4,5,7)和(2, 3,4,5,7),TDave 均为 899.53;其次为(3,4,7),TDave 为 899.52。波段多,TDave 不一定大;TDave 最小的波段组合为(4,5,7),TDave 为 859.64。