四、信息检索技术的发展

从 80 年代中期开始,尤其是 90 年代以后,信息技术的发展一日千里, 使计算机信息检索日新月益。

  1. 全文检索

最早的全文检索系统是 1959 年匹兹堡法律全文检索系统。但在光盘技术未成熟之前,其存贮空间消耗太大一直是全文检索发展的主要障碍之一。

全文检索不仅意味着可以全文中任意符号串作为广大检索词进行全文检索运算。

  1. 超文本检索

人类的思维与记忆是一种联想的方式,而传统的文本,无论是印刷书本还是计算机的文本都是线性的和顺序的。

超文本(Hypertext)与此不同,它不是线性结构。早期的超文本系统主要是文字,在一篇文字中插入一些链指向其它文本,文本是一个包含很广的概念,一本书,一本期刊,一篇论文等等都可以看作是一个文本,以前信息处理及其检索的基本单是一个文本。超文本是一种新型的信息管理和检索技术。是对文本中的有关内容产生联想检索的文本。是由节点和表达节点之间关系的链组成的网。

节点是表达信息的一个单位,每个节点包含一个特定的主题的信息,节点的大小由实际条件来决定。链是将节点链接起来,提供浏览,查询节点的能力。

超级文本就是由节点和链构成的有向网络,节点可看作是对单一概念的表达,而节点之间的链表示概念之间的语义关系。

  1. 超媒体检索(Hypermedia)

媒体是信息表示和传播的载体。例如,文字,声音,图像等都是媒体, 它们向人们传递各种信息。

在计算机领域,几种主要媒体的定义如下:

①感觉媒体

感觉媒体直接作用于人的感官,使人能直接产生感觉。例如,人类的各种语言,音乐,自然界的各种声音,图形,静止或运动的图像,计算机系统中的文件,数据和文字等。

②表示媒体

表示媒体是指各种编码,如语言编码,文字编码,图像编码等。这是为了加工,处理和传输感觉媒体而人为地进行研究,构造出来的一类媒体。

③表现媒体

表现媒体是感觉媒体与计算机之间的界面,如:键盘,摄像机,光笔, 话筒,显示器,喇叭,打印机等。

④存储媒体

存储媒体用于存放表示媒体,即存放感觉媒体数字化后的代码。存放代码的存储媒体有软盘,硬盘和光盘等。

⑤传输媒体

传输媒体是用来将媒体从一处传送到另一处的物理载体。如双绞线、同轴电缆、光纤等。

多媒体技术是指利用计算机把文本,声音图形和图像等多种媒体综合一体化,使他们建立起逻辑关系并能进行加工处理的技术。这里的“加工处理” 是指这些媒体的录入,对信息进行压缩和解压缩、存储、显示、传输等。它具有以下的特征:

①集成性

多媒体的集成性是指声、文、图、像一体化,有机地组织在一起。

②交互性

交互性是指人和计算机能够通过“对话”,进行人工控制。

③数字化

数字化是指多媒体中的各个单媒体都是以数字形式存放在计算机中的。多媒体技术的产生得益于以下技术的发展:

①大规模集成电路的发展,使计算机的运算速度及内存容量大幅度提高。

②大容量的存储技术可以存储大量的文字、图像信息等。

③网络与通信技术的发展使多媒体通信对网络总带宽的要求得到一定程度的满足。

④多媒体技术的发展还由于各种媒体的压缩技术的发展。数字化的图像和声音信号数据量非常大,一片 540MB 的 CD—ROM 只能存储两分钟未经压缩处理的活动影像。所以视频和音频数据压缩和解压缩处术就非常重要。JPEC

(JointPhotographic Experts Group)静图像压缩技术, MPEG(Mov- ing Picture Expert Group)运动图像压缩技术, PX64 标准的视频压缩技术就是得到国际标准化组织认可的国际标准。

多媒体对技术环境的要求除很大的存储空间、复杂的压缩、解压缩技术, 宽带传输外,还要求比较高的实时性与时间有关的信息有许多要求实时处理。此外要处理一幅图像或一段讲话,如果不连续,势必影响视听效果,甚至没有任何意义。典型情况下,要求每秒 30 帧的播放速度才能有流畅的效果

(full—motion),否则图像不连贯。

在超文本系统中,早期是文字文本之间的链接。多媒体技术的发展,使表达基本信息的节点包括文本,图像、声音、视频,混合媒质及按纽节点。对多种媒体中的信息内容进行联想或检索就是超媒体检索。在有些时候,超文本检索和超媒体检索二个词被混用。实际上,目前的多媒体产品中大多是将图和声音压缩后当成一个文件甚至一个记录存储到计算机中,借助于附加在图或声音旁的标引信息实现对图形和声音的检索。而图形或声的直接图形或声音匹配,只在少数系统中(例指改识别系统)中实现。

总之超文本检索系统与传统信息检索系统根本的区别在于:

超文本系统的基本组成,一个是节点(nodes),是知识单元。另一个是节点间的逻辑联接链(links)传运信息检索系统,在用户提问后,经过一系列的检索找到的是节点(node),更多的只是找到文本或文本的线索。超文本检索系统不仅使用户查找到节点,更强调的是提供节点之间的语义联绕。一个好的超文本或超媒体应具备如下几点:

①节点多媒体化

②具有网状的复杂信息链接结构

③良好的导航功能,使用户在网络中不迷失方向,使用户在节点中穿引和展示。

④具有窗口化的管理功能

⑤通过网络可共享多媒体数据库

目前使用的超文本标识语言是 HTML(Hypertext

Markup Language)。用户访问用 HTML 语言建立的文档,可以看到混合的文本,图像文档和其它文档的链接。如果选中某个链接,相关的文档将自动打开。不论此文类的存储位置在何方。

HTTP(Hypertext Transport Protocol)是超文本的传送协议。