地理学者的数据矩阵

数据收集指的是为构筑并填充某种数据矩阵而定的一套规则。这种数据矩阵涉及各种个体（对象或事件），也涉及对这些个体属性所作的各种观测。这样，地理数据就能由个体乘上属性的矩阵来表示（如前述，图 14.5）。当我们观测各种个体在不同时间的多种属性时，这一矩阵就成为一个立方体。这种表示地理数据的方法已被许多作者加以发展（贝里，1964A；乔利和哈格特，1967），并已在前文中提及（第 256—262 页，第 273—276 页，第 403

—410 页）。它自然把我们牵涉进鉴别地理个体以及它们那些可度量、可观测的重要属性这一方法论问题。基本的地理个体是以时一空语言来识别的个体，它可能是一个点（零维），一条线（一维），一个平面（二维），一个立体（三维），一个时-空立体（四维），而且并无逻辑上的理由不继续至更多维，虽然这样做的作用，按时-空语言看来尚可怀疑。同样，所作的观测可涉及单维的或多维的属性。数据矩阵（或立方体）方法为着记录目的，有效地把一个非常复杂的空间瓦解为二维或三维。这一步骤中涉及的一些方法论问题已经检验过了，这里，注意力将限制在构筑这种数据矩阵时的某些特殊问题，以及由它们的构筑方法所隐含的一些问题上。

被观测的个体需要准确而不含糊地加以定义。这对于构筑数据矩阵是必不可少的，其实对一切经验性工作也都是必不可少的（如前述，第 256

—262 页）。这里不可能考查确定个体的多种方法，但可以根据二维地理个体即区域单元的重要等级，来论证某些有关的实际问题。适于地理研究的区域单元可以用很多不同的方式来确定，这取决于研究目的和正在调查的对象。例如，可以区分出天然区域单元（以分离的客体如农场、国家、湖泊等等为基础）和人为区域单元（对处理连续的现象如温度、距离等最为重要）。在天然情况下，个体的界线可以参照所研究的现象来决定；但是在人为情况下，界线却不得不强加上去。区分单一区域单元（如单个农场）和集合区域单元（如若干农场组成的区域）也很重要。在作推断时这种区分尤其重要，因为正如前文指出（第 331—334 页）。在集合的层次上作出的推断不能推广

（若无重要的假设）到单一的层次上。

可以使用的区域单元有时能够安排进某种等级结构中去，一个国家包括

一系列州，各州都包括一系列县，而每一个县都包括一系列农场。这种等级排列常常是不完整的。一个农场可能分属两个或更多教区，一个城镇可能分属两个州，如此等等。区域单元等级体系比我们对某个泛集作逻辑划分（如前述，第 398—401 页）而可能构筑的等级体系要松散得多。这种松散的等级排列造成一些概念上和推理上的问题。同一个区域单元可以认为是单一的，也可以认为是集合的。例如，考虑两个县 A 和 B，我们希望就农业活动对它们加以比较。如果我们说 A 有 60％的土地属于耕地，而 B 只 24％，那么这两个县是作为单一区域单元来对待的。如果我们说 A 中 60％的农场属于耕作农场，而和 B 的只有 24％的农场相比，那么这两个县是作为集合区域单元对待的。这一区别很重要，因为这两种陈述在含义上全然有别。若进一步说 A 中60％的土地在耕作中，相比之下 B 中只有 24％的农场从事耕作，这就是毫无意义的废话了。简言之，我们是在企图对完全不同类型的区域单元作比较。在一系列县的气候状况与耕作土地所占百分比之间建立一种关系，如同诸如在气候状况与耕作农场的百分比之间建立关系一样，都是废话。

在同时研究等级体系中的不同级别时，也存在类似的可比性问题和推论问题，这些困难常常被称作尺度问题。我们从考虑一种特殊情况开始，在这种情形中，可以识别区域单元等级体系中的不同级别，即某一级别上的区域单元可以包括进下一级别上的区域单元中。在这样一种“套入”的等级体系情况下应该观测到：比较只能在相似的个体（即等级体系中同一级别上的个体）之间作出，而关于某一级别上的关系所作的推断，若不作出强有力的假设，就不能推广到任何其它级别上去（麦克卡蒂等人，1956；哈格特，1965B；邓肯等人，1961；哈维，1968B）。这并不是说某一级别上的情况与其它级别上的情况无关，这只是指出：分析的性质是否依照所比较或分析的个体在同一级别或不同级别上而定。有三种情况可鉴别：

同级别分析，意味着可将各个体直接进行比较，因为它们处于等级体系中的同一级别上。
高级别对低级别分析产生一种脉络关系（例如，国家级别上的价格政策和价格补贴形成一种脉络联系，农场生产的变化可在其中加以分析）。
低级别对高级别分析产生一种聚集关系（例如，国家的产出由各个公司的产出所组成）。

所有这些情况都很有趣，但每一种情况都需要其特殊的思想方式，附带着也需要特殊的数据收集方法。

在所研究的现象里，这种自然等级系统并非总能确定。对于连续分布的现象，区域单元是强加的而不是自然的，而且显然，任何大小的区域单元都能同样完好地挑选出来。这种专断的区域单元也能排列成等级体系，但是这种排列是强加的而不是自动呈现的。在这种情况下，怎样才能挑选出适当大小的区域单元呢？一种可能的办法是选定某一专断的坐标系统，并在这个坐标系统中确定大小一致的区域单元。例如，我们可以借助坐标方格来收集数据（哈格斯特兰，1967）。也可以利用这样的区域个体，它们作为区域单元对于其它单位数据的收集而言，在某一方面并无联系。这种情形很容易诱使我们把分离的个体，看作对于它可用于第二位目的而言是自然形成的。当然，这种看法靠不住。很久以前，地理学者就发现国家单元不适宜于讨论气候特征（哈特向，1939’41—47 页）；同样，对于将县用作讨论农场类型空间变化的单元来说，也毫无“自然”可言。从行政结构的观点来看可作为单一区

域个体的行政单元常常被用来收集有关连续分布或小尺度分异的地理现象的信息。在这样一种情形里，关于聚集数据的方式不存在自然的东西；而从在其中所聚集到的数据的角度看来，各行政单位很可能不“相似”或不可比。因此，就产生调整这些区域数据，以适应行政单位本身的面积变化的需要—

—一种一直没有作过的调整。所以奇泽姆（1960）批评迪金森（1957）关于西德和比利时的交换模式的讨论是在这样的背景上，即迪金森的分析忽略了行政单位大小变化的作用。迁居研究曾经涉及到这类问题（哈格斯特兰， 1957；库尔多夫，1955），而鲁宾逊（1956）、托马斯和安德森（1965）讨论了在相关分析以前根据区域大小对数据加权的必要性。邓肯等人（1961）和哈格特（1965B）提供了有关这些问题及类似问题的一般论述。

这样，为区域个体构筑基本数据矩阵就面临双倍的困难。首先必须决定数据收集单位的适当大小，其次必须保证这样设计出的单位相互是可比的（或者必须为其中记录下的数据设计另外的某种加权方法）。看来若不作出一些重要假定，这两方面的问题都难于处理。但由于个体和属性之间的相互作用，使这些问题的解决有了几线希望。

被观测和记录的个体属性也要求明确的定义（见前述，第 357—364 页）。但对目前的问题来说，更为重要的是，还要求从我们所能观测到的无限多可能属性中选出有限数目的重要属性。决定什么属性重要，取决于目标和目的，最终还取决于理论。然而，如果假定地理学者涉及现象的空间变化，那么显然，我们可以把注意力限制在那些在空间范围中变化的属性上。这不能由所选定的分析尺度单独决定。所以，有关各个国家间的空间变化所要观测的重要属性，很可能完全不同于关于各农场单位间的空间变化所要观测的属性，关税政策的变化性在前一种情况里可能是重要的，而在后者则不相干。

我们可以创造性地利用分析尺度与不同属性意义之间的相互作用。例如，考虑对诸如人口分布一类现象的分析，用一套数据来描述人口密度的空间可变性，取决于用以收集人口信息的单位大小。假设我们可用任何大小的单位，那么确定数据中空间变化达到最大值的那种尺度（单位大小）是可以作到的。这种情况里的指标，可能与用于组合步骤（见前述，第 401—403 页）中的一样，即单位内的变化应为最小，而单位之间的变化为最大。其实，这一整个步骤就是发展一些规则来划定区域界线，以使得出的区域能传达最大量的空间变化信息；同时为了分析目的又保持了相互可对比性。此类规则的一些技术方面以后再展开讨论。

任意决定的区域单位的可比性，也是一个困难问题。过去地理学者们由于其数据（在官方人口统计和调查中）一直是在形状和大小都不相同而且不易对比的各行政单位中收集而大为苦恼。对此的反应曾经是，对在大小一致的单位（如平方公里单元）内收集此类数据以保证可比性的要求增长。这一要求建立在一种欧几里德的空间概念上，它对很多种地理现象的分析并不真正适合（见前述，第 249—254 页）。建议全部地理数据都应在平方公里单元内收集，意味着其强度在各地不同，而且常具有某种非欧几里德空间形式的社会经济活动以欧几里德框架的形式记录下来——这样，伦敦中心区的一个平方公里，被看作与苏格兰高地上的一个平方公里等同。这并非是要提出一种非欧几里德坐标系统来记录此类数据（虽然这种系统并未超出我们的构筑能力），因为欧几里德框架对于同时记录和处理有关若干不同类型现象的观测，很可能是最为适合的。但我们应警惕，如果某些地理现象的分布是非欧

几里德的（有明显证据表明确实如此），那么为了观测它而强加上专断的欧几里德区域单位，将产生的问题会与解决了的问题一样多。保证传统上一直用以记录数据的不同大小行政单位的古怪拼盘，看来可能是极端保守的，但这些单位已经趋向于能适应时间变化，而且其大型社会经济活动范围比之小型经济活动范围趋向于更小（例如，参见哈格特，1965A，169 页）。因此，在某些情况下，在旧式行政单位中收集的数据，比在新式的欧几里德一致单元中收集的数据更为合用。当然，对某一确定现象合适的坐标系统，最终将取决于它所施加的“代理力量强度”。所用坐标系统的性质，以及包含在这一坐标系统内的最适区域单元的大小，就象任何时一空语言的选择一样，是一个经验问题。只有对我们正研究的现象有更充分的了解，才有可能在构筑数据矩阵以及记录想象上客观的地理事实时所遵循的步骤方面，从总体方面减少任意决定。因此，看来可能含混的东西与和时-空语言有关的高度抽象结果（如前述，第 259—262 页），在这里对实际决定有着明显的关系。在构筑一个数据矩阵时，所要遵循的程序上的规则，再也不必是任意的和直觉的了。某些类似规则将在本章结尾（见后文第 456—460 页）展开。