第二章 信息检索基础第一节 信息检索概述

一、信息检索的概念

信息检索是信息工作的一项重要内容,是沟通广大信息用户和各种信息源的主要渠道,也是大量情报信息进行广泛传递的集中表现形式,最能体现信息存贮的目的。

(一)广义的信息检索

从广义上理解,信息检索是指将信息按一定方式组织和贮存起来,并根据信息用户的需要找出有关信息的过程。所以它通常被称为“信息存贮与检索”,包括各种文献信息的加工存贮和检索利用两方面的内容,是由两个方向相反而又相互依存的工作过程构成。广义的信息检索概念是对信息工作者而言的。

(二)狭义的信息检索

狭义的信息检索是指广义的信息检索的后半个过程,即从信息集合中找出所需要信息的过程,相当于人们所说的信息查检等。在实际工作中,也往往把日常的信息加工和存贮视为内部准备工作,而狭义地把信息的查检视为信息检索。狭义的信息检索的概念通常是针对用户而言的,即根据用户的特定要求查找所需信息的全过程。

作为检索对象和目的的信息,其出现形式是不同的,有的以记录着信息或知识的文献表现出来,有的以含着情报或知识的数据或事实表现出来,于是根据检索对象,即信息出现形式,信息检索又可区分为不同的类型。

(三)信息检索的基本类型

  1. 文献检索。以文献或其索引、文摘为检索对象,目的是核实已知文献的不确切项目,如著者名、年代、出处等,或查检某课题原始文献的线索及它们的具有收藏情况。这类检索数量大,方式不一,是信息检索的基础部分。一般说来,文献检索是一种相关性检索,它只提供有关的文献供参考,而不直接回答用户所提技术问题的本身。例如:“某作家在 60 年代的著述情况”,就是要根据查寻要求,按照一定的检索标识,从所收藏的文献中查找出特定的文献,以供参考。

  2. 数据检索。以数据为检索对象,可直接选择专类的数据性工具,从中查检,从而得到数值性数据、图表、化学结构式、计算公式等等,它们都是经过人们精心测试、绘制、评价、处理而得出来的确切数据。数据检索是为了满足科技工作者对浓缩信息的特殊需求而出现的,这种浓缩的信息,用户可直接使用,无需查阅原始文献,因此可大大节约研究人员的时间,提高工作效率。数据检索是一种确定性检索,要直接回答用户所提问题的本身,提供所需的确切的数据。

  3. 事实检索。是以特定的事实为检索对象,先选择适宜的检索工具,按一定检索标识,直接从中检出事实性、知识性的答案。事实检索也是一种确定性检索,要求提供用户所需的确定的事实。

二、信息检索的产生和发展

信息检索最重要的早期发展是文献检索。文献检索是随着文献资料累积到一定程度时才出现的,目的是为了满足用内特定的文献查寻和文献需求。

可以说,有了文字记载以后,就有了文献检索的萌芽。但在人类文明发展的早期,从事科学、文化活动的人数不多,文献数量不大,人们查找文献仅仅通过私人书信或其它简易方式,就能达到互通信息的目的,所以没有而且也不必开展信息检索,更无必要建立完备的检索工具。

直到进入 20 世纪以后,由于科学技术的飞速发展,现代记录下来的知识急剧增长,文献数量也迅速增加,从而加大了文献查找的难度,于是真正意义上的信息检索产生了。一些专门的检索工具,如文摘、索引、目录、百科全书等的编纂也随之发展起来,此时,人们查找的着眼点更多地指向包容在文献中的信息而不仅仅局限于文献本身。之后,由于电子计算机在信息工作中的应用,使得人们拥有强有力的信息存贮和信息处理手段,从而促进了信息检索走上了计算机化的道路。

总的来说,信息检索经历了两个主要阶段,即传统的手工检索阶段和现代计算机信息检索阶段。

(一)手工检索阶段

文献信息检索直接发源于文摘索引工作和图书信息部门的参考咨询工作。

早在西汉时期,刘向、刘歆父子整理编撰《别录》和《七略》,成为最早带有内容摘要的图书目录,开辟了从图书目录直接了解和查找西汉之前书籍概况的先河,是最早的书目性工具书之一。

1665 年 1 月 5 日,法兰西科学院在巴黎创办了《学者周刊》。该刊除报导科学领域的重要事件、科学院的活动和教会法庭的重要决定外,还报导、摘录或评论新出版的图书,成为世界上最早的科学期刊之一,也是以专栏或附录形式出现的最早的文摘刊物。在这以后的一百多年中,许多综合性的、专业性的文摘刊物相继出现,成为一种常用的信息传递方式和检索媒介。

索引工作也有较长的历史。在我国唐宋时代,一些文人学者就编制了一些工具书,供查找古籍中的俪句骈语、诗赋文章、史实或其它资料,人们通常称之为“类书”,实际上它们就是属于索引这一类的工具书。在西方,第一部专门的索引约出现在七八世纪,是为《圣经》编的《圣经语词索引》。之后,西方出版的一些图书开始编有书后索引,以供读者查找书中的特定材料。

到 19 世纪初,文摘刊物开始走向独立编辑出版,而且报刊索引工作也随着报刊文献的增多而得到了很大的发展,并且与文摘刊物紧密结合在一起, 成为查找科学文献的最重要的手工检索工具。

图书馆及其馆藏文献的急剧增多,使图书馆的馆藏目录工作迅速开展起来,成为查寻馆藏文献的有力工具。另外,图书馆的参考咨询工作也包括了为读者提供检索服务的任务。

随着人类科研活动的增加,文献种类的增多,人们对文献检索的需求越来越普遍,从而促进了检索工作逐步走向正规化和专门化,检索刊物体系也逐渐形成,检索工具书更趋完善,成为图书信息部门做好文献信息检索的有力保障,信息检索也成为信息工作的重要内容。

(二)计算机信息检索

20 世纪四五十年代,由于计算机的成功制造和使用,使得文献信息检索逐步迈向机械化和自动化。

1954 年,美国海军兵器中心首先在 IBM701 型电子计算机上成功地建立

了世界上第一个计算机文献检索系统。它将文献号和少量标引词存储在计算机内,匹配命中后输出的是文献号。

1957 年,H.P.卢恩等人开始研究采用计算机编制索引取得成功。这一成就激励了图书信息界,许多文摘索引机构相继开展用计算机编制文摘索引刊物的试验。

1964 年,美国国立医学图书馆的医学文献分析与检索系统(MEDLARS) 建成并投入使用,标志着文摘索引刊物的生产实现了机械化,检索服务实现了计算机化。不久,像美国化学文摘社、工程索引公司等一批著名的文摘机构也实现了各自的目标,开始建立机读文献型数据库,发行磁带版的文摘索引刊物,供图书情报单位开展文献检索服务。到 60 年代末 70 年代初,随着分时计算机的出现和通讯网络的发展,又出现了功能更强的联机检索系统, 如现在普遍使用的 MED- LINE 系统、DIALOG 系统以及 ORBIT 系统等,联机检索服务也迅速地在世界各地得到发展。

计算机技术、通讯技术和文献信息检索的成功结合,使信息检索走向了计算机检索时代。文摘索引刊物的编辑排版工作从落后的手工方式过渡到先进的机械化自动方式,大大地缩短了编辑出版时间,加快了信息的传递和利用。机读数据库的出现和计算机检索的实现,为用户检索信息提供了快速便利的途径。

信息检索将逐步摆脱传统的手工检索模式,而走向全新的、面向全社会的自动化和网络化阶段。

三、信息检索的意义

信息检索是在信息用户与信息源之间充当媒介作用,它是联系信息生产者与信息需求者的中间环节,是信息交流和传递的重要过程,是提高文献利用率和科研效率的重要手段。概括起来,信息检索的意义主要体现在以下几个方面。

  1. 信息检索是获取知识的有效途径。在当今文献和知识急剧增长的信息时代,如何在浩如烟海的文献信息流中迅速找到所需文献信息,并加以合理有效的利用,是摆在科研工作者面前的一道重要课题。据测算,人类知识总量在 19 世纪每 50 年增加一倍,20 世纪初每 10 年增加一倍,20 世纪 70 年代

每 5 年增加一倍,80 年代几乎是每 3 年增加一倍。而且,文献信息的分布已极不平衡,同一学种的论文分散在几十种、甚至几百种期刊上,导致文献的查找越来越困难。因此,如何以最少的精力、最短的时间充分占有文献信息, 成了人们亟待解决的实际问题,而信息检索正是有效解决这一问题的最好途径,它可以帮助人们快、准、全地获取所需信息,最大限度地节省查找时间, 使文献信息得以充分的利用。

  1. 信息检索是科研工作的组成部分。科学研究是一种创造性的思维活动,是在继承前人成果和借鉴他人工作的基础上发展起来的。科学研究一般包括资料准备阶段和研究阶段,其中,资料准备阶段要占用科研人员全部科学研究的 30%~60%的时间,还会随着信息检索效率的高低发生变化。高效的信息检索不仅能使科研人员减少查找资料的时间,而且还能够通过信息检索获得启发,对研究工作具有极大的帮助作用,最终缩短科学研究的时间。 3.信息检索能够避免重复研究和走弯路。科研的任务是为了创造新的知

识成果,它要求对某一课题或某一领域的认识及判断应是前所未有的,因此, 科研主题必须建立在完全的充分的信息检索基础之上,否则很容易造成科研

项目的重复研究,从而造成人力和物力的严重浪费。据统计,我国的低水平的重复研究现象比较严重,尤其是省级及以下科研项目,重复率达到 50%。可见,要进行有价值的科学研究,必须全面地获取有关文献信息,及时了解各学科领域出现的新问题、新观点,这只能依赖文献信息检索才能实现。通过信息检索,可以掌握研究课题的历史和现状,了解其发展趋势,以确定自己的研究起点和研究目标。