概率抽样

概率抽样指的是“以使每一个个体或抽样单位都具有出现于样本的已知机会的方式,从总体中选择一个或多个样本的形式方法。”(克隆本,和格雷庇尔,1965,148—9)假设总体中的每一个体都有已知且非零的概率成为样本,并假设挑选样本的形式方法已设计好,则有可能利用非演绎推断(例如特殊的统计推断)的形式方法,来评价样本和总体间的关系。然后就可能评价与一定目标与最有效的度量有关的不同抽样方案。

在概率抽样中,主要关心的是总体的状况。样本提供了对这些状况的估计。总体状况与样本估计之间的差别称为估价的准确度。当有可能考察全部总体(因此可计算实际状况)时,就有可能评价抽样步骤的准确度。因此, 准确的抽样方案,将为我们提供总体值的无偏倚估计。精度指的是样本估计在总体真值周围的展形,它通常由样本估计的方差来度量。在评价抽样方案时,准确度和精度显然提供了两个重要指标。在多数情况下,我们能够直接从样本数据来测量精度,但准确度的估价却困难得多。

正式的概率抽样步骤允许我们把样本-总体关系映入概率的演算。其后还允许我们得出非演绎推断,这些推断从其没有系统偏倚的意义上说是客观的。因此,由于遵循了概率抽样中规定的步骤规则,我们能保证已获得“将尽可能准确地重现总体特征,尤其是那些直接利害特征”(亚特斯,1960,9) 的样本。然而,这并不是说所有的概率抽样方法都是同等可行的或同等有效的。已经证明。在由异质组群构成的总体中,使用分层抽样比简单随机抽样远为有效(从用更小的样本可获得一定精度的意义上说),条件是所确定的层次,在层内要充分同质,而各层次之间充分异质。所以分层化指的是一种使组内变异达最小而组间变异达最大的分类方法:因此由某种组合步骤作抽样设计经常是很有用处的。在其它情况下,要实施一个确定类型的抽样方法则证明是不可能的,因为它在操作上不可行(例如在浅滩上任意选一砾石), 或因为其代价太高。所以在很多情况下,聚类抽样(有时称为成批抽样或“抓堆”抽样)可能证明是最好的方法,尽管它有很多技术的局限。这样,一定抽样方案的选择,就取决于所要求的准确度和精度、一定步骤的有效性和可行性,以及所含的成本。

但是选定的抽样方案,也取决于研究的具体目标,特别取决于我们对其有兴趣的总体结构或功能特征。显然,这里可能产生很多种情况,但仅仅考虑两种很普遍的情况,并检验抽样方法如何与目标相关,将很有用处。

  1. 估计总体特征的抽样。在采用概率抽样方法的地理学中,是最普通也是最简单的情况之一。这里,其目标是通过抽样方法决定总体的某一(或某些)特别性质。典型的情况是,我们可能重视通过一个样本来估计总体的某些描述统计性质(如均值和方差)。我们可能利用样本估计来试图估计每个家庭的年平均收入,每个零售公司的平均营业额,某浅滩中砾石的平均大小等等,这种方法对地理学者很重要的一种特别情况是,估计用作一定土地利用类型的土地面积比例。这里,整个总体可能被看作是构成总面积的无穷多点,或看作是总面积分割成的有限数量的小面积单元(例如田块)。

概率空间抽样在地理学中特别重要(贝里,1962;贝里和贝克尔,1968; 哈格特,1965A,191—200;霍姆斯,1967),它提供了一种很重要的方法来把少量观测推广到更大区域(例如一个国家或地区)中去。这样的空间抽样可以利用:

  1. 线(导线)

  2. 面(样方)来实施。这些形式各有其优点与难处。在野外作点的抽样可能代价太高,所以导线和样方可能较适合。点类型现象的点抽样也非常无效(主要是因为操作上的困难,但一般而言,还因为对出现概率很低的特征加以抽样,实在需要大量的样本,这需要一种一次能抽取大单元如样方的替代抽样方案)。面状分布现象(如土地利用类型)的点抽样看来相对有

效些。样方抽样在很多野外情况下,具有操作简便而且成本低的优点,对于点类型的研究也是非常有用的,但它因有很多困难而蒙受损害。格雷格-史密斯(1964,第二章)详细研究了这些问题,我们将在本章末尾考察它们。

然而,在空间抽样的每一种形式中,都有可能设计多种概率方案。图 19

—2 说明设计点抽样的六种方式。问题是如何在这些可供选择的不同抽样方案中作出选择。贝里和贝克尔(1968)94)指出,在空间抽样的情况中,“对任何现象的抽样方法的选择,取决于该现象如何分布。”他们继而认为,如果正研究的现象是随机分布的,则多数抽样形式都是合适的,因而选择就是挑选最简易者——这在地图上抽样的情形下就是一种系统抽样方案。如果存在分布的线性趋势,则分层抽样将比系统抽样更有效,而系统抽样一般又比简单随机抽样有效。如果现象的分布中存在序列相关(空间自相关,而且恒定地存在一些这种数值),则难以定出简单的规则,因为“抽样步骤的相对精度取决于序列相关函数的形状。”当这个序列相关函数未知时,不能确定最优抽样方案。但贝里和贝克尔认为,分层系统不结盟抽样(图 19.2)在这里是一种合适形式。因此,看来只有我们掌握了(或能肯定)有关被抽样现象的大量信息后,才能确定最优抽样方案。

  1. 识别总体中各属性关系的抽样是一个可以利用概率抽样解决的实质性问题。但是要比估计总体的描述统计抽样复杂得多,因为这里的抽样方法是作为一种试验性设计方法,在本质上是非试验性的情形中起作用。地理研究一般都面临同时对付总体内若干属性多重相互关系的问题。我们将在20章中较详细地考察变量的各种集合中复杂因果交互作用。在实验科学中摆脱这类情况的经典办法是建立析因实验设计。所以费舍尔(1966,94)写道:

无数可能的因子中,哪一个归根结蒂是最重要的,对此我们常常一无所知,虽然我们有强烈的先人之见,认为其中少数几个特别值得研究。我们常常不了解任何一个因子都将独立地对所有其它可能非常不同的因子施加影响,或者其影响特别直接地关系到其它因子的变化。

这种形势在情况在最好的时候也会造成困难,但是在实验科学中,有可

能建立实验设计来决定重要的关系,并从物理上控制我们不想要的变量。在地理学者面临的那种非实验情况里,却不可能增加物理控制(除开非常偶然的情况)。这里,正是调查设计和抽样设计本身成为至关重要的事情。基什

(1965,394)提出以下任何数据集合中都有的变异源类型:`

  1. 作为研究对象的说明性变量。

  2. 可能与说明性变量冲突、但可以通过诸如抽样步骤加以控制的变量。

  3. 不能加以控制,因而可能与说明性变量相混淆的变量。

  4. 不能加以控制、但其干扰是随机的(或通过抽样步骤能随机造成的)变量。

  1. 里的变量造成最大困难;而调查设计和抽样设计的目的就是把这些变量重新安置到(ii)或(iv)类中去,有效的分层化可以实现前者,而后者则可以通过随机化来实现。例如,假设我们有志于考察上地、农场规模以及农场收入之间的关系,很可能土地影响农场规模,因此在一系列关系中会有多重共线性。布拉罗克(1964,89)写道:

摆脱多重共线性所形成困难的一个办法是,使两个独立变量在样本中完全无关,即使它们在总体中是高度相关的。这很容易通过分层化实现,分层化与试验设计中的控制有

某些相似之处。

这样就有可能以同时研究若干相互关系的方式来设计抽样系统。正如费舍尔(1966,102—4)指出:就这类设计从一个调查设计中产生信息来看, 它们具有显著的优势。哈格特(1965 A,300;图 19.3)通过在土地(a)、土壤(b)、农场规模(c)和农场可进入性(d)的各种因子结合基础上,分离出 16 种地理区域,从而提供了此种设计的一个地理学实例。

多目标抽样设计和检验复杂关系内的孤立关系的设计,较难评价。但在非实验科学中,此类步骤显然是很重要的;地理学者们在将来会相当程度地凭借此类设计。然而有关总体中各种交互作用的性质,我们所掌握的信息越多,就越容易设计出适当的抽样方怯——而实例研究方法在这里作为一种探索性手段贡献良好。