第四节 主成分分析方法
地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有 n 个地理样本,每个样本共有 p 个变量描述,这样就构成了一个 n×p 阶的地理数据矩阵:
x11
x12
x1p
x x x
X =
21 22 2 p
Μ Μ Μ
(1)
x x x
n1 n2 np
如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在 p 维空间中加以考察,这是比较麻烦的。为了克服这一困难, 就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为 x1,x2,⋯,xp,它们的综合指标——新变量指标为 x1,x2,⋯,zm(m≤p)。则
x1 = l11x1 + l12 x2 +
x2 = l 21x1 + l 22 x2 +
, + l1p x p
, + l2 p x p
(2)
m = lm1x1
- lm2 x 2 +
, + l mp x p
在(2)式中,系数 lij 由下列原则来决定:
(1)zi 与 zj(i≠j;i,j=1,2,⋯,m)相互无关;
(2)z1 是 x1,x2,⋯,xp 的一切线性组合中方差最大者;z2 是与 z1 不相关的 x1,x2,⋯,xp 的所有线性组合中方差最大者;⋯⋯;zm 是与 z1,z2,⋯⋯ zm-1 都不相关的 x1,x2,⋯,xp 的所有线性组合中方差最大者。
这样决定的新变量指标 z1,z2,⋯,zm 分别称为原变量指标 x1,x2,⋯, xp 的第一,第二,⋯,第 m 主成分。其中,z1 在总方差中占的比例最大,z2, z3,⋯,zm 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量 xj(j=1,2,⋯,p) 在诸主成分 zi(i=1,2,⋯,m)上的载荷 lij(i=1,2,⋯,m;j=1,2,⋯, p),从数学上容易知道,它们分别是 x1,x2,⋯,xp 的相关矩阵的 m 个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤
通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:
(1)计算相关系数矩阵
r11
r12
r1p
r r r
R =
21 22 2 p
(3)
Μ Μ Μ
r r r
p1 p 2 pp
在公式(3)中,rij(i,j=1,2,⋯,p)为原来变量 xi 与 xj 的相关系数, 其计算公式为
rij =
∑(x ki − xi )(xkj − x j)
(4)
因为 R 是实对称矩阵(即 rij=rji),所以只需计算其上三角元素或下三角元素即可。
(2)计算特征值与特征向量
首先解特征方程|λI-R|=0 求出特征值λi(i=1,2,⋯,p),并使其按大小顺序排列,即λ1≥λ2≥⋯,≥λp≥0;然后分别求出对应于特征值λi 的特征向量 ei(i=1,2,⋯,p)。
(3)计算主成分贡献率及累计贡献率
p m p
主成分zi 贡献率:ri / ∑γk (i = 1, 2, , p),累计贡献率:∑γk / ∑γk 。
k=1 k=1 k =
一般取累计贡献率达 85-95%的特征值λ1,λ2,⋯,λm 所对应的第一,第二,⋯⋯,第 m(m≤p)个主成分。
(4)计算主成分载荷
p(zk ,xi ) = γ k eki (i,k = 1,2, ,p) (5)
由此可以进一步计算主成分得分:
z11
Z = z21
z12 z 22
z1m
z2 m
(6)
Μ Μ Μ
zn1
三、主成分分析实例
zn2
znm
对于某区域地貌-水文系统,其 57 个流域盆地的九项地理要素:x1 为流域盆地总高度(m)x2 为流域盆地山口的海拔高度(m),x3 为流域盆地周长(m), x4 为河道总长度(km),x5 为河
