一、主成分分析

地理问题往往涉及大量相互关联的自然和社会要素，众多的要素常常给模型的构造带来很大困难，同时也增加了运算的复杂性。为使用户易于理解和解决现有存储容量不足的问题，有必要减少某些数据而保留最必要的信息。由于地理变量中许多变量通常都是相互关联的，就有可能按这些关联关系进行数学处理达到简化数据的目的。主成分分析是通过数理统计分析，求得各要素间线性关系的实质上有意义的表达式，将众多要素的信息压缩表达为若干具有代表性的合成变量，这就克服了变量选择时的冗余和相关，然后选择信息最丰富的少数因子进行各种聚类分析，构造应用模型。

设有 n 个样本，p 个变量。将原始数据转换成一组新的特征值——主成分，主成分是原变量的线性组合且具有正交特征。即将 x1，x2，⋯，xp 综合成 m（m＜p）个指标 z1，z2，⋯，zm，即

z1=l11*x1+l12*x2+⋯+l1p*xp z2=l21*x1+l22*x2+⋯+l2p*xp

⋯⋯⋯⋯⋯⋯（4-1） zm=lm1*x1+lm2*x2+⋯+lmp*xp

这样决定的综合指标 z1，z2，⋯，zm 分别称做原指标的第一，第二，⋯，第 m 主成分。其中 z1 在总方差中占的比例最大，其余主成分 z2，z3，⋯，zm 的方差依次递减。在实际工作中常挑选前几个方差比例最大的主成分，这样既减少了指标的数目，又抓住了主要矛盾，简化了指标之间的关系。

从几何上看，找主成分的问题，就是找 p 维空间中椭球体的主轴问题，从数学上容易得到它们是 x1，x2，⋯，xp 的相关矩阵中 m 个较大特征值所对应的特征向量，通常用雅可比（Jacobi）法计算特征值和特征向量。

很显然，主成分分析这一数据分析技术是把数据减少到易于管理的程度，也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的 GIS 用户常使用上述技术，因而应把这些变换函数作为 GIS 的组成部分。