填充数据矩阵——抽样

假如已确定了地理个体和选定了所要观测的属性,那么,经过一段时间的观测后,记录地理事实的下一步是填充数据矩阵或数据立方体。当然,这里最简单的办法是在数据矩阵的每一单元中填入一个有关个体属性的度量

(该度量可以是任何类型,包括名称标度)。这里,度量规则至关重要(如前述第 364—383 页)。把这一矩阵中的每一单元都填满是冗长乏味,而且没有必要的,尤其存在大量要观测的地理个体时。而如果其数量极大任务不可能完成时,地理群体的完全枚举和该群体内所有个体的彻底观测是极少发生的,当不可能这样做时,就有必要诉诸某种抽样设计。

抽样的目的,是在大数据矩阵(或数据立方体)之外形成一个小数据矩阵(或数据立方体),使得小矩阵(或立方体)为一定目的 需要所提供的信息,与大矩阵(或立方体)所能提供的信息几乎同样多。样本数据不会提供完全同样的信息,但它们在一定误差限制内能提供总体数据的估计。抽样规则极其重要,所以斯图亚特(1962,9)写道:

在任何规模的抽样调查中出现的表格式材料有一种负作用,它常常倾向于使使用者对样本本身的可靠性麻木不仁。但我要说,一个样本的可靠性对于结果的解释即使不是唯一重要的,原则上也是这方面我们所能具有的唯一有价值的信息。

所以,地理学中所有非演绎的推断,都依对一定总体发展起来的适当抽

样步骤而定。确定总体以及包含于其中的个体问题已经考虑过了(前述,第331—334 页;417—421 页),这里的注意力将集中于抽样问题上。没有一定的抽样方法,非演绎推断就很可能无用或简直就会出错,而各种抽样方法又很混乱,因此就一定的研究而言,需要作出评价。一般说来,在很多可能的抽样设计中选择其一,这取决于:

  1. 研究的目的。

  2. 被研究对象的性质。

  3. 所设想的推论方式(例如,一定的统计推导形式要求一定的抽样方法)。

  4. 所用成本(时间、人力、经费)。

前三个因素在评价一定抽样方法的合理性时很重要,而第四个因素是决定一定抽样方法的可行性极其重要的实际考虑。

支配抽样设计应用的步骤规则,已由若干作者作了很详细的考察。斯图亚特(1962)提供了一个很好的基本介绍,而科克兰(1953)详细地讨论了抽样理论。与抽样有关的一些实际问题,在亚特斯(1960)有关这个主题的经典著作中作了非常彻底的处理,莫塞尔(1958)及汉逊等人(1953)也提供了很好的说明。对地理学者特别有兴趣的空间抽样这一特殊题目,也已由诸如马登(1960)、克隆本(1960)、克隆本和格雷庇尔(1965,第七章)、格雷格-史密斯(1964,第二章)和基什(1965,第九章)等作者加以考察。地理学文献中的报道由贝里(1962)、贝里和巴克尔(1968)、哈格特(1965A, 191—200 页)和霍姆斯(1967)提供。鉴于抽样理论和抽样方法的文献浩瀚, 我们将把考虑对象限制于几个基本方法问题和地理学方面。

设有几个个体的一个总体以及从这一总体中抽出的 N 个个体的样本,则样本 N 的大小有(N)种可能;如果 N 不固定,则从该群体中可抽出 2 种可能的样本(包括 N=0 和 N=n 的特殊情况)。抽样的问题是,在这 2 种可能样本中决定“最好的”样本。已设计出一批“标准”抽样方法,以帮助我们处理这一问题。这些方法的一般理论特征,在文献中已作了不同详细程度的检查,它们的精确性、有效性和明确性,也针对一定类型的经验情形作了评价

(例如,见斯图亚特,1962;科克兰,1953;汉逊等人,1953)。这样,我们可以谈论有目的的或概率的抽样、有代换或无代换的抽样、简单随机抽样、系统抽样、分层抽样、聚类抽样、多级抽样、多相抽样等等。加尔腾(1967, 56)和哈格特(1965A,195)提供了这些抽样方法的简化分类法。加尔腾的分类法(图 19.1)确定了 12 种主要抽样形式,但是正如他们所指出,对于二级抽样,即使这样简化也会产生 123(1,728)种可能的抽样方法。当我们再加上所采用样本的大小不同,在分层抽样中还加上各层内可以选择的抽样比不同时,我们发现即使是“标准的”抽样设计,也为我们提供了范围非常广泛的选择。

不幸,还不存在我们可用以把这个范围简化成在几个选择对象中作相对简单挑选的标准规则。所以“这整个丰富多采性,本质上是一个人的安排”

(加尔腾,1967,58)。因此,某一特别抽样设计的选择,只有在某一特别研究目标的基础上才能作出。正如加尔腾(1967,49)指出的,这看起来可能是个很平常的结论,但事实上它是“一种规定,考虑到只是由于标准办法现成且易于遵循,而遵循标准办法的情况众多,这种规定就不那么平常了。” 一种抽样步骤的选择,就象适当的几何选择或任何数学语言的选择一样,是一个经验的问题,它依赖于按照确定目标,对一定设计的合理性、有效性和可行性作出经验估价。多数教科书都讨论了各种指标在抽样设计选择中的应用(例如,汉逊,等人,1953,4—11;基什,1965,23—6),但在讨论这些问题以前,必须弄清有目的抽样或判断抽样(对它只存在直觉指标)以及概率抽样(它的指标是可度量的)之间的重要区别。