第二节 信息检索的原理和方法

一、信息检索的基本原理

如前所述,信息检索的全过程包括了信息的存贮和信息的检索两个过程。其中,存贮是为了检索,而检索必须先要存贮,信息存贮和信息检索是方向相反而又相互依存的两个方面。

在信息工作中,检索可以理解为“检”与“索”的统称,“检”是“选检”、“归类”,指从众多的加工对象中挑出性质相同的集中起来,经筛选、整理、分析、标引,将得来的信息产品归纳到一个统一的系统中,即从众多的信息源中筛选合乎既定要求的情报信息,予以标引、存贮和积累,以待利用。“索”即“索取”,是“存入”的逆过程。所以,信息检索是一个获得情报信息的操作过程,其实现必须借助于一个特定的信息系统,而且检索的出现也必须以存贮的存在为前提条件。如无大量的存贮,则根本谈不上从中选择和提供信息。

同时,信息检索要求存贮过程和检索过程必须采用相同的检索标识进行信息标引,使要存入的信息特征与要检索的具有一致的特征标识形式。

信息检索的基本原理就是检索者将检索提问的标识与存贮在检索工具中的信息特征标识进行比较,结果凡是信息特征标识与检索提问标识相一致, 或者信息特征标识包含了检索提问标识,那么,具有这些特征标识的信息就从检索工具中输出,输出的信息线索与检索者所需的信息线索大致吻合。

从一定的意义上说,信息检索成败的关键,是能否用规定的检索标识系统(即检索语言)来正确标引检索提问,而正确标引检索提问的关键又在于是否能从检索工具的词表中选出最能确切表达检索提问所需要的标识。

二、信息检索方法

信息检索的效率与具体的信息检索方法有很大的关系,运用有效的信息检索将能够以最少的时间获得最满意的检索效果。归纳起来,信息检索方法主要有以下三类。

(一)手工检索方法

这是查找印刷型文献信息的传统方法,一般分为以下四种。

  1. 直接查检法。指不依靠检索工具,而通过浏览或查阅原始文献直接获取文献信息的方法。其优点在于,能够明确判断文献所包括的信息是否为自己所需要的信息,缺点是难以获得全面的文献,且费时费力。如果检索课题单一,文献相对集中,又熟悉检索书刊,则可用这种检索方法,而对有多个主题、文献离散度较大的课题,就难以获得理想的检索效果。由于此方法不依靠检索工具,因此不是严格意义上的文献信息检索方法。

  2. 间接检索法。即借助于检索工具获取所需文献的方法,一般包括顺查法、倒查法和抽查法。

  1. 顺查法:是一种从旧到新的顺时序的查检方法,一般需要了解检索课题的背景、发生和历史简况,再通过有关的参考工具核实和深入了解该课题的实质性内容和概貌,从而选择比较适宜的检索工具,从问题产生的年份着手查起,直到满意为止。开始选材时可适当放宽范围或要求放松一些,待发现这类信息源相当丰富时,可缩小范围或要求严一些,以避免漏选而返工重检。但逐年的查检,劳动量因覆盖面大而随之增大,检索效率不高,多在缺少综述性文献时采取。其优点是查全率较高。

  2. 倒查法:指由新而旧的逆时序的查检方法。此法多用于查找新课题或用于为老课题查找新资料。课题对近期的状况比较重视,从新情况开始查到一定的基本资料时为止,时间终点视课题要求而定。其优点是省时省力, 检索效率较高,但查找资料不如顺查法齐全,容易出现漏检,因而对课题研究的全貌不易把握。

  3. 抽查法:根据课题的要求,针对所属学科处于发展兴旺时期的若干年进行文献信息查找。用这种方法能获得相对集中、具有代表性、且能反映学科发展水平的文献信息,往往能起到事半功倍的效果。其优点是检索效率高,检索效果好,但要求在检索之前须掌握该学科的发展情况,熟识该项技术发展的特点,以便正确地选择抽查的时间范围。

  1. 追溯法:也称为文献追踪法。此法不是利用确定的检索工具,而是利用已知文献的某种指引,如文献附的参考文献、有关注释、辅助索引、附录等,追踪查找文献。根据已知的文献指引,查找到一批相关文献;再根据相关文献的有关指引,扩大并发现新的线索,去进一步查找。如此反复追踪扩展下去,直到检索到切题的文献。用追溯法检索文献,最好利用与研究课题相关的专著与综述,因为它们所附的参考资料既多且精。此种方法一般在缺乏检索工具或对检索工具的使用不熟悉,以及文献线索很少的情况下使用。其优点是简单方便,容易查找。缺点是漏检和误检的可能性较大。

  2. 综合法:是以上各种检索方法的综合使用,即先通过选出的检索工具查出一批相关文献,然而再利用这批文献所附的参考文献进行追溯查找,从而得到更多的相关文献,如此交替循环使用,直至满足检索需求为止。综合法是一种“立体型”的检索方法,其检索效果较好。

(二)机械检索方法

指借助一定的机械进行检索的方法。所用机械如卡片检索机、缩微胶卷检索机、电子计算机等。当前,一般说来,机械检索就是指电子计算机检索。

电子计算机检索具有检索速度快、检索途径多、检索效果好等特点,可人机对话随时变化检索要求,并可显示阅读或联机、脱机打印和输出符合检索需求的部门。1964 年,美国国立医学图书馆建立了医学文献分析与检索系统,并于 1971 年发展成联机检索系统,目前已成为世界上应用最广泛的计算机医学文献检索系统,其检索功能也越来越强,从仅能用主题词检索发展到可以用自由词、字符串、词干、词头以至句子、符号、公式等检索。计算机检索已成为信息检索的必然发展趋势。当前,光盘的出现及其与微型电子计算机的联合应用,使信息检索又发展到一个新的时期。光盘检索系统建立方便,不受检索时间及通讯线路的限制,能够深入到千家万户,已成为电子计算机信息检索普及应用的较为理想的检索系统。另外,随着计算机网络进一步发展,计算机网络化信息化将成为新的趋势。

电子计算机检索的方法是以概念组配系统为基础的概念组配方法、检索

时通常需要把用户信息提问的复杂概念分解为若干单元概念,此时,各个单元概念仅能表达用户需求的各个侧面,必须将各个单元概念加以恰当的逻辑组配,才能表达出用户提问的一个完整概念内容,即表达单元概念的检索词加以恰当组配,形成检索式,才能检索出所需的文献信息。

电子计算机信息检索在西方发达国家已得到普遍应用,在我国大中城市也有一定的普及,而一些中小城市由于条件所限,其应用范围还比较窄,还未得到推广。

(三)非正式方法

除传统的手工检索方法和先进的电子计算机信息检索方法外,还可以利用另外一种获取信息的重要方法——非正式方法。

非正式方法通常也称之为非文献方法,是指不借助文献而获取信息的方法。它是一种较为古老的信息获取方法,在印刷术发明前,它是交流、获取信息的主要方法,目前已不起主导作用,但仍很重要。非正式方法主要通过交谈、书信往来、参观访问、考察、参加学术会议、听演讲、实物样品的搜集及技术考察等方式获取所需的信息,一般比从正式发表的文献中获取的信息要早得多,快得多。据日本学者报道,在学术杂志上发表的论文,约 1/5 已在学会内部刊物刊登,约 1/10 已在地方学术会议上宣读过,约 60%论文作者在原稿完成后即已复制送给同行阅读,论文正式出版前,以口头或文章形式将其内容作为信息传递的达 67%。可见,非正式获取信息的方法不失为一种较好的方式,其有迅速性、新颖性、针对性和直观性的优点,其缺点是难以评估信息的价值,客观性和真实性也难以保证,且适用范围有限。