网上自动内容检索(WAIS)

Archie 和Veronica 在检索的精确性和检索的完备性方面比Gopher 服务器上有了明显的改进。但是在提高检索效率方面也有它们的不足。这不足来源于它们的检索处理方式及方法上。Archie 和 Veronica 服务器对提问字符串的查找仅仅停留在文件的标题以及简单的描述语上,这往往会导致一些误检和漏检的发生。

这里我们举一例子来说明这一点,大家一定十分熟悉一本名叫《钢铁是怎样炼成的》的著名小说,这部小说描述的是前苏联卫国战争中发生的故事。它用比喻的手法说明共产主义战士的成长过程以及经历,它与钢铁的冶炼技术以及工艺毫不相干。如果一个用户想查找钢铁冶炼技术以及工艺的信息, 他又使用了“钢铁”和“炼”这两个关键词进行查找,其结果是《钢铁是怎样炼成的》,这部小说也成了集合中的一员,这显然是错误的。如果系统提

供从内容上检索的手段,就可以避免这种情况的发生。新型服务器 WAIS 的诞生为这一问题的解决提供了可靠保证。

WAIS(Wide Area Information Servers)是宽域信息服务器的缩写,它是互联网络上一种具有全文检索性能的工具。最早参加开发 WAIS 服务器的参加单位有世界上著名的 Thinking Machine Corporation , Apple 以及Dowjones 几家大公司。后来,热衷于 WAIS 软件的开发者们成立了独立的 WAIS 公司,以开发和经营 WAIS。

在互联网络上,用户一般可以从以下三种不同的途径使用 WAIS 进行服务:

利用 Gopher 服务器。通过 Gopher 利用 WAIS 的方式有点像通过 Gopher 利用 Veronica 一样,它必须首先进入 Gopher 状态,在适当的选择项(选择项会明确标明可以使用 WAIS 进行文本检索)下进入 WAIS 服务器。

利用远程登录的方法使用 WAIS。在这种情况下,一般是用户使用的本地计算机中没有存有 WAIS 程序,同时,用户知道互联网络上有哪些机器上存有 WAIS 软件并获取了对这些计算机的访问权。

在用户使用的本地计算机内部存有 WAIS 程序,用户可以直接进行全文文本的检索处理。

WAIS 具有以下明显不同于其它检索软件的功能:

全文检索功能。它可以在文件的内部进行扫描匹配,而不仅仅限于对标题以及简单描述部分的扫描和匹配。

数据库的选择功能。由于 WAIS 服务器的检索是针对文件内容的,因此, 检索的时间就会大大增加。你可以设想,一篇文献,它的标题一般情况下是不会超过十个关键词的,而一篇文献的内容是少则成百上千,多则上万个关键词构成。抛开其它因素,只谈匹配词的数量将会增加成百上千倍。如果加上上下文之间的语义关系,匹配全文花费的时间会更大。

WAIS 对信息的查找策略就不能像 Archie 和 Veroni-ca 一样,对互联网络上所有可能匹配的文件名均搜索一容忍的。为了克服这一缺点,WAIS 软件先让用户根据其需求,在互联网络中初步划分一个范围,在这范围之内,再使用对文件文本内容扫描匹配的技术进行查找。

这一点有点像我们上街买东西,我们不可能对整条街上的每一个商店中的每一个柜台上的商品均扫描一遍,然后再决定买哪件商品。如果这条街是上海的南京路,武汉的汉正街,采用这种购物方法,客户可能一两天之后还没有买到合适的商品。聪明的作法是首先根据客户所需的商品性质,确定几家百货商店或专卖店,在这些商店中,逐一扫描每一个柜台,比较后,然后决定购买称心如意的商品。

这就是为什么 WAIS 要让用户首先选择一定要搜索的相关信息源的原因。

相关信息反馈功能。在用户输入一个提问以后,WAIS 会在选定的范围内对所有的文件进行内容上的详尽匹配,并向用户提供一个命中文件集合的详细清单。用户根据清单上的文件名,进而浏览每一个命中文件。用户浏览完成以后,根据自己的感觉,从中进一步选择出一些用户认为是最满意的文件。WAIS 根据这些最为满意文件中关键词的分布情况,自动地修改下一次检索的提问。实现自动反馈的方法之一,就是统计出最为满意文件中关键词的出现频率,挑出那些出现频率较高,用户又可能选为检索词的那些关键词,这些

关键词将构成下一轮检索的提问词的一个重要组成部分。

这一点对于一些复杂的提问是极有帮助的。例如某个研究人员正在进行一项科研项目的研究,在他首次拟定的检索词中没有包括本领域最新出现的术语,而包含这些术语的文献恰恰又是用户急需的文献,WAIS 的相关信息反馈功能成功地解决这一问题。

相关信息反馈功能可以保证用户的查找沿着一条正确的轨道前进,这就是人们常提到的“瞎子爬山”策略。

自动相关排序功能。作为一个用户,总希望能够给检索到的文件“打分”, 文件的得分越高,它与提问的相关性就越大,越能满足用户的需求。WAIS 就可以向用户提供此类服务。

WAIS 在检索到的文件中,统计出提问关键词在每个文件中的出现频率, 根据这个频率将检索到的文件排序后提供给用户。出现频率高的文件,应该是与提问最相关的文件。

一个关键词,如果在一篇文章中多次出现,该文章的内容一定与这个关键词涉及的概念紧密相关。这就是 WAIS 服务器进行相关排序的依据。

了解这些最基本功能以及它们的工作原理,对于正确使用 WAIS 是大有裨益的。

执行一个 WAIS 检索的操作一般都有以下三个基本的步骤:决定要检索的信息源范围;

输入检索的关键词,并执行检索操作;浏览文件,检索感兴趣的文档, 可能还要执行一次修正的检索。

当然,如果用户在进行第二步以后,认为没有必要进行第三步,检索也就中止在第二步。

这里信息源指所有可供检索的数据库经分类和组织后的结果形式。我们知道连接在互联网络上的计算机成千上万,每台计算机上有可供检索的丰富信息,各计算机上有存贮的信息的内容也会有所不同,有的涉及社会、卫生、福利,有的涉及化学、化工、医药,有的涉及教育、体育、娱乐⋯⋯等。WAIS 对这些丰富的信息资源进行初步分类,把具有相同主题内容的计算机信息资源分类后形成了所谓的信息源文档。信息源文档对于用户正确的检索是十分重要的,它的组织分类对象不是一般的艾件。

在互联网络中,这些信息源文档的后缀是英文 Source 的缩写形式“SRC”。

互联网络中有许多不同类型的 WAIS 软件,它们的功能以及结构基本上是相同的。由于 WAIS 软件是一种较为复杂的检索工具,建立在交互图形接口技术上的高级 WAIS 软件更易于说明 WAIS 的检索过程,因此,我们选用它向读者介绍 WAIS 的使用过程。

例如,有一用户想利用 WAIS 在互联网络上检索有关各类食谱的信息

(food cooking recipes)。他首先应该在互联网络上确定要查找的范围,也就是要查找的信息源文档,这一步对用户的正确检索是十分重要的。如果用户的信息源文档选择错了,就像一个客户要购买一双鞋而走进了一家五金商店,无论客户在这个五金商店中怎样详细查找,也难以找出需要的商品。下图是我们使用高级 WAIS 软件,首先在互联网络中确定查找范围,也就

是信息源的图例(图 5)。

在图 5 中“tell me about”下面的用户对话框中,是用户输入的要进

行初步查找的提问,在这里是各类食谱(foodcooking recipes)。

用户在对话框中输入完毕,并检查输入的信息没有错误以后,就可以选择本框右边的查询键(search),WAIS 软件在信息源文档中查找,将查找的结果显示在名为结果栏(Resulting Documents)中。

在结果栏的顶端,有四个小标题。

相关性得分项(score)。在这一项下,给出检索到的信息与提问的相关级别,级别越高,就说明信息更能满足用户的提问。这里用星(*)的个数表示相关级别,星的个数越多,相关性就越高。相关性高的信息排在结果栏的前面。有的 WAIS 软件程序中,相关性的级别是用一个从 0 到 1000 的数值来表示的,这种方式显得要比用星号表示级别的方式要准确和精确的多。

无论是哪一种表示相关性的方式,其确定相关性的方法均是相同的,依赖于提问式中的关键词在被处理文件中出现的次数。

命中文件大小项(size)。这一项告诉用户相应的文件所占的内存大小, 文件的大小以字节(byte)为标准的。了解这一大小信息有时对用户的操作是极为重要的。当用户想把一个文件传输到自己的计算机中,他应该在传输文件之前了解被传输文件的大小,否则,可能发生用户计算机内存难以容纳被传输文件的情况。这就像在日常生活中,把 100 公斤的大米硬要放进容量

为 50 公斤的米袋一样,其结果是可想而知的。

目录项(Src)。目录项指明了被检索命中文件在计算机中的存贮路径。不同的信息源文档可能放在不同的目录项下,用户在查找以前,应该对此心中有数。

文件标题(Title)。这是命中文件存贮在计算机的名称,我们可以清楚地看出,本项下所有的文件后缀均为“·src”,这说明查询是在信息源文档中进行的。

当前状态项(Status)。该项标明当前计算机的某些状态,如给出某个提问经过 WAIS 查找后,命中文件的个数,提问所在的目录等等。以该上图为例,这个提问共有五个相关文件被选中。

前面我们已经介绍过利用 WAIS 软件检索,通常要经过三个步骤,第一和第二步是不可缺少的。在选择检索范围的初步检索完成以后,还要根据被检索出来文件的相关程度,挑出若干个与用户需求密切相关的信息源,第二步 WAIS 进行的全文检索将在这些被挑出的信息源中进行。

怎样挑选相关的信息源呢?WAIS 系统提供的相关级别可以作为用户决策时的重要参数,如果用户仅根据这些相关级别,仍然难以决策,他可以调看信息源的简单描述文件,该文件可以帮助用户进一步了解信息源文件的性质、范围等重要信息。例如,用户可以进一步对前面命中信息源文件中,四星级相关信息源文件“recipes.src”的描述文件进行显示。

我们可以看出“recipe.src”文件的版本数(Version),互联网络的地址(IP—address 和 IP—name)、端口、数据库名称、使用价格、数据库的维护者、简单的文字描述等。

根据信息源文件的相关级别以及简单描述文件内容,用户决定是否保留该文件。如果决定保留该文件,他可以通过 WAIS 窗口中的文件键(File) 或音简单的图标——一个画有软磁盘的小按钮将被挑选的文件存放到一个查询清单中。

到目前为止 WAIS 查找的三步曲已完成了第一步。

第二步的中心工作是在查询清单的信息源文件涉及的数据库中查找用户更为精确和专指的提问。例如用户对佛罗里达馅饼的制做很感兴趣(floride pie),他在用户对话框中键入他的进一步提问。

查询键(Search)被选择以后,WAIS 软件经过全文查找以后在结果栏中显示出查找结果。

本次查找共有 45 个文件被选中,同理,我们可以将满足要求的文件存贮起来。例如,图例中结果栏的第一项是一个名为 key—lime—pie 的馅饼,用户想了解它的制作方法,该文件的具体内容在一个子窗口中获得。

在 key—lime—pie 的文件中,给出了 key—lime—pie 的起源、制做的配方等信息。如果用户对它感兴趣,可以将它通过打印机打印出来,或存贮起来。

当对所有 45 个文件的内容阅读、选择完毕以后,WAIS 查询三步曲中的第二步就完成了。

用户根据第二步的总体感觉,决定是否要进行第三步。如果他对第二步查找的大部分结果不满意或者他发现了一种令他感兴趣的查找新主题,他可以转入第三步查找。

假设该用户在阅读选择中发现南瓜小甜饼十分对他的胃口,他希望更多地了解与南瓜小甜饼相似的其它馅饼的制做方法,他可以在结果栏中首先用光标选中它,然后将该文件加入到相似的查找栏目中(Similar to)。激活查询键(Search)以后,与南瓜小甜饼制作相关的文件就会显示在结果栏目中。

有趣的是这种相似查找可以进行多次,也就是说在新的检索结果中,如果用户发现了另一新的馅饼制作方法,他可以采用相同的处理策略进一步推进查找工作。

这就像小朋友在冬天的雪地滚雪球,雪球从小到大一样,检索的结果不断增多。当用户认为没必要进行下一轮查找时,第三步就完结了。

在利用 WAIS 软件检索时,第一步和第二步使用相同的用户界面,但查找的却不是相同的内容,第三步与第一、二步有一些区别,这区别反映在对提问的输入方式上,但结果的显示方式却总是相同的。

WAIS 检索软件是一个功能很强、使用较为复杂的检索工具,与 Gopher、Archie、Veronica 相比,它在查找检索的准确性、深度等方面有很大的优势, 它的相似性检索功能更能具体出它的独特性。但是,它也不能完全取代 Go- pher、Archie 和 Veronica,例如,Gopher 那样结构式的菜单用户界面,更容易被那些初次进入互联网络上漫游的用户所接受。这就像一个刚刚学驾车的驾驶员一样,人们不能指望他一开始就驾驶着一级方程式赛车在高速公路上参加比赛,他需要慢慢地适应,逐渐地掌握驾驶要领。

  1. 高级巡航器

我们已经向读者介绍了许多在信息高速公路上漫游的交通工具,从Gopher 到 Archie、Veronica,再到 WAIS,总的来讲,它的检索功能越来越强。随着互联网络中存贮信息类型的不断增加,从单纯的文本信息发展到图像、图形、图表、声音等其它类型信息;范围在不断扩大,从单一的科技信息发展到各类就业信息、娱乐信息、商品信息、国际政治信息、宗教信息、教育信息等等。互联网络上的用户也在不断增多。

在这样的背景下,人们迫切希望研制一种全新的互联网络浏览服务器,

它能够有效处理各种不同信息类型的数据,简单方便地向用户提供各种服务,把 Gopher 服务器中菜单或结构与 WAIS 的全文浏览服务功能有机地结合在一起。这种高级信息浏览服务应该支持用户进行以下操作:

①以交互图形方式查寻互联网络中其它计算机的信息;

②有效地处理文本、图像、图形、声音等信息;

③提供一种浏览、检索集成化的机制。

要正确了解这种高级信息浏览器的工作原理,首先要理解和弄清几个主要概念。

这第一个概念是所谓的多媒体(multimedia)。多媒体是一种新的信息形式,它将文本信息、图像信息、图形信息以及声音集成为一体。例如有一多媒体文件,它是有关我国西安秦始皇陵墓的文件,包括介绍秦始皇陵墓历史的文字信息、著名考古专家对秦始皇陵墓挖掘工作评价的声音信息以及挖掘出的兵马俑的图像信息。这些信息有机地结合为一个文件说明同一主题内容,是不可分割的整体。

多媒体已逐步成为互联网络信息中的主体。

另一个十分重要的概念是超文本(hypertext)。超文本是与多媒体密切相关的一个概念,它是多媒体信息的一种特殊的信息组织方式。在超文本中存在着许多信息参考点,这些信息参考点可能是一些关键词、短语、互联网络的地址、图像、图标、标题、缩写词等。这些参考点在语义上往往有独立的含义和意义,在参考点下还可以组织出新的信息群来,这些关键词、地址、图像、图标、标题、缩写词等往往是一篇文章或一幅画面上的组成部分,这些参考点的内部隐含着一种连接机制,一旦参考点被用户选择,系统立刻切换到与参考点密切相关的另一屏幕,该屏幕的内容是对应关键词、图像、标题等等的进一步描述和说明。这个新出现的子屏幕中仍然可能包含其它的信息参考点。

在一个超文本的文件中,作为信息参考点的关键词、图像、图标、地址、标题、缩写词在形式上往往有些特别。例如,文字性的参考点的颜色往往与其它文字不同,下面有时存在一条直线或是斜写体等,图像、图标在颜色和亮度上已有所不同,以此来区别于其它信息,使用户便于使用。

有时人们把含文本、图像、图标、声音等混合信息形式称为超媒体

(hypermedia)。下图是一超文本的实例。

图 7 中共有 6 幅屏幕,在这 6 幅屏幕中关键词 WallSt,New York City, financial dist,Stock prices, Bussinessin NY 均是所谓的信息参考点。其它文字部分被故意隐去以突出信息参考点的效果。

图中箭头部分是隐含在信息参考点内部的连接指针,这些指针确保一旦信息参考点被用户激活,能够准确迅速地切换到相关屏幕中。

例如,一用户在阅读股票交易信息(Stock Exchange)时,他对文中的华尔街很感兴趣,因此在他成功激活了华尔街(Wall St)这个信息参考点以后,系统会自动切换到有关华尔街的文件中。如果他发现纽约(NeW York, NY)与他兴趣有关,可以方便地转向有关纽约的屏幕。在这个图例中没有包括信息参考点是图像或图标的情况,但是它们的基本的使用方法是相同的。

超文本这种信息组织方式有着明显的心理学的意义,它将信息的组织以一种更为自然、更为符合用户阅读心理的方式表现出来。信息参考点的插入没有破坏原文本的整体性。信息参考点消除语义的模糊性。一旦用户通过信

息参考点消除了对某些关键词的模糊性,还可以及时返回原来的信息屏幕, 继续原来的阅读。

超文本拓宽了人们组织信息的视野,倍受用户的欢迎。

虽然超文本技术在今天受到人们的青睐,但是托德·尼尔逊早在 1969年就向人们提出了这一概念。托德·尼尔逊是一位著名计算机幻想家,他一直致力于开发出揭示信息之间语义关系的新方法,不幸的是他的这一新思维受到了人们的冷遇。托德开发了自己的超文本系统——Xanadu,它是一个有关金融机构和管理的软件系统,该系统具有其它传统系统所不具备的功能。超文本在早期没有广泛流行也是有其历史原因的。当时信息资源主要是

文本数据,计算机的信息存贮量、运算速度等等难以胜任处理超文本数据, 计算机的软件处理能力有限。例如新一代的视窗操作系统等等尚未问世,⋯⋯这一切没有给超文本技术的推广提供一个理想的环境。

位于瑞士日内瓦欧洲核子研究中心(CERN)的物理学家们终于向世人推出一种新型的互联网络高级信息浏览服务器——全球广域网,又称 WWW

(WORLD WIDEWEB)、它是一个基于超文本信息的检索工具。

WWW 问世以后,世界上又相继有不少高级信息浏览服务器问世,下面是

《互联网络世界》这份杂志在 1995 年提供的一份有关高级信息浏览服务器的一览表:

产品

价格 性能评价

Air Mosaic

$49.95 4

NCSA Masaic

免费 2

Netscape

$39.95 4

Doslvnx

免费 1

这里性能评价值越高,说明该服务器性能越好。

值得特别一提的是网景(Netscape),它在美国市场上刚刚露面一年, 就占领了全世界高级信息浏览器市场的 70%,真可谓是身手不凡。

网景公司最新的代表作是“网景领航员 2.0”,它是一个功能强大的软件,用户可以用内装的新闻阅读器阅读用户网(usenet)上的新闻并且收发电子邮件。

它的电子邮件处理程序设计得很出色,在功能上超越了传统的电子邮件软件,它可以把互联网络地址甚至整个网页按用户意愿作为一部分信息加到电子邮件中。

世界上著名的微软公司在计算机的各个领域步步紧逼。最近,公司的创建者比尔·盖茨宣布了该公司 1996 年的互联网络战略,其中包括赠送微软公司开发的“互联网络探险者”软件。