一、主成分分析

地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,同时也增加了运算的复杂性。为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信 息。由于地理变量中许多变量通常都是相互关联的,就有可能按这些关联关系进行数学处理达到简化数据的目的。主成分分析是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。

设有 n 个样本,p 个变量。将原始数据转换成一组新的特征值——主成分,主成分是原变量的线性组合且具有正交特征。即将 x1,x2,⋯,xp 综合成 m(m<p)个指标 z1,z2,⋯,zm,即

z1=l11*x1+l12*x2+⋯+l1p*xp z2=l21*x1+l22*x2+⋯+l2p*xp

⋯⋯⋯⋯⋯⋯(4-1) zm=lm1*x1+lm2*x2+⋯+lmp*xp

这样决定的综合指标 z1,z2,⋯,zm 分别称做原指标的第一,第二,⋯, 第 m 主成分。其中 z1 在总方差中占的比例最大,其余主成分 z2,z3,⋯,zm 的方差依次递减。在实际工作中常挑选前几个方差比例最大的主成分,这样既减少了指标的数目,又抓住了主要矛盾,简化了指标之间的关系。

从几何上看,找主成分的问题,就是找 p 维空间中椭球体的主轴问题, 从数学上容易得到它们是 x1,x2,⋯,xp 的相关矩阵中 m 个较大特征值所对应的特征向量,通常用雅可比(Jacobi)法计算特征值和特征向量。

很显然,主成分分析这一数据分析技术是把数据减少到易于管理的程度,也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的 GIS 用户常使用上述技术,因而应把这些变换函数作为 GIS 的组成部分。