第四节数据库技术

信息高速公路的信息资源来自于各政府部门,各类型图书馆,专业信息中心、公司、企业乃至各家庭用户所拥有的信息数据库,任何一个单位或计算机网络中心的数据库容量都是十分有限的,也远远不能满足不同用户类型的要求,因此,数据库的建设及数据库技术的应用和发展对信息高速公路就显得尤为重要。

一、数据库的概念

数据库是计算机应用的一个重要方面,是近年来迅速发展起来的一门新兴学科,以数据库为中心的数据库处理技术是信息技术的重要组成部分。

数据库是服务于各种数据处理的、有组织的信息单元的有序集合,这些信息单元的存贮独立于使用它的程序。可按一种通用的方法对这些信息单元进行维护和检索,存贮在其中的信息可为不同的用户共享。这里所说的信息单元即数据,是指字符、数字以及其它任何可以表示信息的形式(包括声音、图形及图像等)。

首先,数据库必须以某种介质为依托来存贮数据,这种存贮介质可以是磁带、磁盘或者光盘;其次,数据库的概念是以计算机密切联系在一起的, 即无论是表现数据的形式,存贮数据的介质及存取数据的方法,这三方面的因素与计算机软件和硬件密不可分。

数据库及其处理技术是一次重要的信息技术革命,已经历了 20 多年的发展历程,发展速度非常快,据统计,1975 年世界上仅有数据库 50 多个,到1990 年就已发展到 4465 个,如今,各种类型的大小数据库难以计数,数据库及其技术已形成了一套较完全的理论和方法,并仍在向更复杂、更广泛及更深入的方向发展。

二、数据库的分类

数据库的分类可以从三种不同的角度去加以考虑。

  1. 按数据存取的方法从广义上说是与数据元素之间的关系,即数据的结构相关的。描述反映客观事物的数据及其联系叫做数据模型。从这一角度出发,数据库可以分为关系型数据库、层次型数据库和网络型数据库。

在关系型数据库中,数据模型是若干“关系框架”,即表现各数据字段

(名称、数据类型等)之间相互联系的一种记录,相当于一个二维表。层次型数据库的数据模型是以记录类型为结点的有向树,树的主要特征是除根结点外,任何其它结点都只有一个父结点,而父结点对子结点却存在一对多的关系。网络型数据库的数据模型则是以记录类型为结点的网状结构,网络与树的区别在于:①一个子结点可有两个或多个父结点;②两个子结点之间可以有两种或多种联系。虽然这两种数据库模型都反映了现实世界中某些客观事物的内部联系,但由于实际构造和处理它们比较复杂,加之这三科数据模型可以相互转让,因此,在现实生活中建立起来的多是关系型数据库。

  1. 按数据存诸介质分类。从数据存储介质的角度来分类,数据库可以分为磁带数据库、硬盘数据库和光盘数据库等。磁带数据库中的数据是从头至尾顺序存放的,对数据的读取也只能从头到尾顺序读取,它要求数据的存取时间较长,但价格低廉。

60 年代磁盘的问世及其技术的改进,为计算机联机检索提供了条件。磁盘数据库不仅能实现与磁带一样的顺序存取,还能实现磁带不能进行的随机

(或直接)数据存取。建立在硬盘上的数据库,虽然只能保存供计算机访问的数据,但今天在微机上使用的各种规格的软盘,却是今天数据交换传播的重要介质。

光盘数据库的应用已越来越普遍。由于光盘巨大的存储容量,它不仅已被用作大型联机系统的存储介质,而且由于它的小巧紧凑,只要配上光盘驱动器便能与微机结合作用,使它成为人们想往的理想介质。

  1. 按数据表现形式分类。目前,从信息界及数据库生产者来看,人们更重视从数据库中数据的表现形式,即数据类型的角度来进行分类。当 60 年代最早出现数据库的时候,只有文献型数据库,但随着计算机联机检索和数据库产业的形成,很快便涌现出大量非文献型数据库。现在除文献型数据库外,还有数值型数据库、事实型数据库、文本型数据库以及它们的结合型数据库。

三、各类型数据库的特征1.文献型数据库

文献型数据库的存贮内容为各种文献资料,正如人们所熟知的,它包含的是二次文献数据,即表现文献外部特征的各种著录项,如标题、作者、出处等,以及表现文献内容特征的各种标引项,如主题词、分类号,及文摘等数据。因此,文献型数据库提供的只是引导人们获得一次文献的参照信息。

指示型数据库

指示型数据库是另一类参照数据库,它们包括馆藏目录及联合目录、进行中研究课题以及简单的机构名录或人名地址录等。

数值型数据库

各类数值数据库有一个共同的特征,就是它们向用户提供直接可能的数值、事实等信息。因此数值型数据库也往往称为事实数据库。在社会科学方

面的数值型数据库,主要是那些有关经济和商业应用的数据库,即经济统计与预测,财政金融及设备方面的各种数据库,这些数据库的信息内容覆盖广泛的主题、地理区域和时间间隔,它们有着极重要的社会价值,能回答物价、利率、金融、就业、住房、工资等许多社会问题和经济问题。

全文数据库

全文数据库存储的是具有完整正文的一次信息,它们可以是法律资料、报纸报道、杂志文章、学术论文等。用户通过某种查找途经,比如键入某一词汇或短语,便能获得所需要的正文全文。目前的全文数据库包括法律全文数据库,报纸杂志全文数据库,百科全书全文库,年鉴、大会一类的全文库, 各种辞典全文库,以及某些教科书的全文库等。

软件数据库

随着计算机,尤其是微型计算机的广泛应用,各种计算机程序及软件包不断大量涌现,书本式的软件产品目录已很难跟上软件本身的发展,致使人们转向可联机访问的软件数据库的生产和利用。软件数据库包含的主要是对软件的说明介绍,有时也含有评论性信息。这类数据库与产品数据库极为相似,但它们都有一个像文献库的文摘字段一样的有关产品描述及评论性的正文。

文本——数值型数据库

这类数据库同时包含数值和正文,基本上都是由正文表述的各种事实。随着数据库的类型、品种和数量的激增,使人们面临着数据库的不同选择, 而书本式的数据库名录又难以跟上发展的步伐,因此联机型的数据库目录数据库便应运而生,这类数据库目录数据库也往往叫做数据库的数据库,它的出现为在信息高速公路上查找各种不同类型的数据库提供了便利的途径。

四、数据库设计及技术要求

数据库的设计及建立应符合设计原则和技术要求,要根据用户的要求和目的、当前的经济技术条件和已有的软、硬件实践经验,来选择有效力、更适合的设计方法和技术。

  1. 数据独立性。设计数据库时,首先要求保证数据的独立性,做到系统数据存储结构与数据逻辑结构的变化,尽量不影响应用程序和用户原有的应用。

  2. 减少数据冗余,提高共享程度。一般说来,重复存储或用一系统包含有大量重复数据不但浪费大量存储空间,而且对管理和修改都增添了麻烦,还潜在有不一致的危险,即同一记录在不同文件中可能不一样(如修改某个文件中某个数据而没有在另外的文件中作相应的修改)。因此,设计数据库时要消灭有害的数据冗余,提高数据的共享程度。但是,有时为了缩短访问时间或简化寻址方法,也人为地使用数据冗余技术,为了保证数据库的快速恢复,也需要不断地建立数据库的副本。所以,在设计数据库时原则上只要求消除有害冗余,而不能要求去掉一切冗余数据。

  3. 要做到多用途,查寻方便。这就意味着要求存储量大、可靠,并且对同一信息可以从不同的角度用不同的方法去找到它,从而能满足多种类型用户的需求,做到资源共享(即数据共享和设备共享)。此外,合理、可靠和保密是常见的用户要求,既要做到多用途,也要能满足这些要求。

  4. 用户与系统的接口要尽量简单。系统应具有很强的数据管理能力,

能满足用户容易掌握、使用方便的要求。例如:使用高级的非过程化的询问语言或简单的终端操作命令,为用户提供简单的逻辑数据要求;能适应批处理应用程序要求数据流量大、终端用户需要“响应时间”、满足人机对话的要求、实对系统要求快速响应等的操作环境,具有处理非预期询问的功能等。

  1. 保证数据库系统的可靠性、安全性和完整性。一个数据库的可靠性体现它的软、硬件故障率小,运行可靠,出了故障时可以快速地恢复到可用状态,数据库的安全性是指系统对数据的保护能力,即防止数据有意或无意的泄露。因此,在设计系统时,必须增加各种安全措施,这已成为一个专门研究的课题。完整性是保证数据库仅仅包含正确数据的问题,不正确的数据可能由有意或无意的错误操作产生。总之,设计数据库时要求系统尽可能做到维护数据的完整性,目前的系统通常设置各种完整约束条件来解决这一问题。

  2. 应充分考虑系统的可修改性与可扩充性,整个数据库系统在结构上和组织技术上应该是容易修改和扩充的。因为一个数据库通常不是一次而是逐步建设起来的,而数据有可能会不断增加或扩充;另外,数据库的用户及其应用也会不断地发生变化。所以在设计数据库时要考虑与未来应用接口的问题,不致于因为以后情况的变化而使整个数据设计推倒重来或使已经建立的数据库系统不能正常工作。另外,还应注意在修改和扩充系统后,不应影响原有用户的使用方式,如不必修改和重写原有的应用程序。