二、数据的精度与误差来源

数据获取是空间信息自动化项目经费中最昂贵的部分。据统计,在地理信息系统中数据获取的代价是整个 GIS 代价的 50%—80%。初学者往往认为,因为我们采用了现代化的计算机技术,因此所获取的数据是高精度甚至于是无误差的。其实不然,即使是最优秀的地理信息系统操作人员,在数据搜集并将其输入到系统内时,均会产生这样那样的误差。

GIS 使用数字化数据,因而便关系到数字制图数据的标准。美国数字比制图数据标准全国委员会(NCDCDS,1988)确定了六个基本的数字化制图数据,如线状、位置精度、属性精度、逻辑的连贯性、完整性和时间精度,对每种元素均确定了检验其精度的标准。

对于误差的来源,有不同的分类方法。P. A. Burrough 在土地资源评价地理信息系统原理(Principles of Geographical Information System for Land Resources Assessment)一书中,认为误差一词的概念是广义的,它不仅包含错误,也具有误差,平均“方差”的统计概念。他将误差分为三组共14 类。

第一组为明显的误差,是最明显和最容易觉察到的,它包括:

  1. 数据的年代:出于经费与时间的限制,在同一研究项目中往往采用了不同年代的数据,如在使用现有的地图和数据的同时,又使用了最新的遥感

影像和现场调查的数据,其实有时候某些原有数据已不适合现有的标准或现有状况已有所变化。

  1. 区域误差:在所研究的区域所要提取的某种数据,如土壤类型,已在部分地域内有现存的数据,对缺乏数据的另一部分地区重新获取数据时,由于标准与人员的不同,而产生了区域间数据的误差。

  2. 地图比例尺:由于同一研究中采用不同比例尺底图所造成的误差。

  3. 观察的密度不同而产生的误差。

  4. 相关:由于经费太昂贵或其它原因对所需要的数据难以获取时,采用相关数据而造成的误差。

  5. 格式:有两类重要的数据格式。第一类是指安排数据方式,也就是指数据的结构,数据是以矢量还是以栅格形式来安排的,如是以栅格形式,便与其像元的大小有关。第二类是指数据的本身,它们的比例尺、投影和分类方式。在一种格式向另一种格式转换,或一个系统向另一个系统转换时,往往不是绝对无误的。

  6. 可接近性:由于部门与部门之间,或地区与地区之间数据的保密,一些用户往往不能直接获取所需要的数据,如环境数据等。

  7. 代价:出于经济方面的原因,项目主持人有时要在可取到数据的精度与代价之间作出选择。

第二组为原始测量的误差。这组误差往往在工作人员使用这些数据的过程中才会发觉。它包括:位置误差、内容误差和获取数据时不同环境差异所造成的误差。

第三组是由数据处理过程所引起的误差。这类误差也许是最重要的,因为它包含了错误、误差和在数据处理过程中所引起的误差。这类误差也最难以弄清,因为它不仅要求用户具有对数据的直接了解,而且也要熟悉数据的结构和计算方法。这一组误差包括:计算机原数含误差;拓扑分析所造成的误差:分类及生成各类问题(如方法学,内插)时所引起的误差等。

也有将 GIS 的数据接获取方式分为二大类的,第一类是指数据直接来源于野外(地面调查)、相片(包括遥感影像)等,第二类数据来源于现有的文件,如地图、图表等。这两类方法所获取的数据质量和质量精度是不相同的。