第三章 信息检索语言第一节 信息检索语言概述

一、信息检索语言的定义

信息检索语言是根据信息检索的需要而创造的人工语言。一般又称为信息、存贮与检索语言,索引语言,标引语言,文献工作语言,标识系统等。其实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码,用于对文献内容和信息需要进行主题标引、特征描述或逻辑分类。

目前世界上有许多种信息检索语言,比较著名的有:《中国图书馆图书分类法》、《汉语主题词表》、《国际十进分类法》、《杜威十进分类法》、

《NASA 叙词表》等,都是信息检索语言的一个语种的。对图书文献资料所标的分类号或检索词,即是信息检索语言的语词。

信息检索语言通常应具备下列三个基本要素:

  1. 有一套用于构词的专用字符。字符是检索语词的具体表现形式,它可以是自然语词中的规范化名词或名词性词组,也可以是具有特定含义的一套数码、字母或代码。

  2. 有一定数量的基本词汇用来表述各种基本概念。基本词汇是指组成一部分类表或词表中的全部检索语词标识之总汇,如分类号码的集合就是分类语词的词汇,一个标识(分类号、检索词、代码)就是一个语词。而分类表、词表等可以说成是检索语词词典,是把自然语词转换成检索用语的工具。

  3. 有一套专用语法规则来表达由各种复杂概念所构成的概念标识系统。标识是对文献信息特征所做的最简洁的表述。标识系统是对全部标识按其一定的逻辑关系编排组合成的有序的整体。语法是指如何创造和运用那些标识来正确表达文献信息内容和信息需要,以有效地实现信息检索的一整套规则。

任何一种信息检索语言,都要采取一定的方法和手段,将它的各种要素按照一定的结构结合成一个有机的统一体,以便发挥其最佳功能。概括起来, 信息检索语言的主要功能大致有如下四点:

  1. 对文献的信息内容(及某些外表特征)加以标引;

  2. 对内容相同、相关的信息加以集中或揭示其相关性;

  3. 对大量信息加以系统化或组织化;

  4. 便于将标引用语和检索用语进行相符性比较。二、信息检索语言在情报检索中的作用

信息检索语言作为信息检索专用语言,它在信息检索过程中所起的作用是极为重要的。

信息检索的全过程包括信息的存贮和信息的检索两个方面。信息存贮是指编制检索工具和建立检索系统。情报检索即是利用这些检索工具和检索系统来查找所需的信息。所以,信息的存贮和检索是两个有着密切联系的过程, 其中,信息检索语言在这两个过程中的作用以及这两个过程的相互关系如图 1 所示:

第三章 信息检索语言第一节 信息检索语言概述 - 图1

图 1 信息存贮与检索过程及信息检索语言在其中的作用

当存贮信息时,文献标引人员首先要对各种文献进行主题分析,即把它所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,并用信息检索语言的语词(标识)把这些概念标示出来,然后纳入检索工具或检索系统。

当检索信息时,信息检人员首先对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把这些概念转换成信息检索语言的语词(标识),然后从检索工具或检索系统中查找用该语词标引的文献,从而找到包含所需信息的文献。

由此可见,信息检索语言是信息检索系统的重要组成部分,在信息检索系统中起着语言保障的作用,是沟通信息的存贮和检索两个过程,标引人员和检索人员双方思想的桥梁。如果没有信息检索语言作为标引人员和检索人员的共同语言,就很难使标引人员对文献信息内容的表达(标引用语)和检索人员对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就不可能顺利实现,甚至根本不能实现。

信息检索语言作为信息检索专用语言的特点,是能简单明白又比较专指地表达文献及检索课题的主题概念,容易将概念进行系统排列,在检索时便于将标引用语和检索用语进行相符性比较;语词与概念一一对应,排除了多词一义、一词多义和词义含糊的现象,并且还能显示出概念之间的相互关系, 从而能帮助信息检索人员又全、又准、又快地检索到含有所需信息的文献, 可见,信息检索语言对提高信息检索效率,特别是提高查全率和查准率具有重要的作用。

三、信息检索语言的基本要求

信息检索语言的质量高低对信息检索效率有重大影响,因此,为了保证信息检索的实施能够达到满意的效果,就必须对信息检索语言提出一些共同的基本要求。

  1. 要求信息检索语言保证具有较高的查全率和查准率,力求把信息检索系统中的有关用户需求信息尽量多地查检出来,并使漏检率和误检率控制在允许的范围之内。

  2. 必须易于标引和易于检索。信息检索语言不仅要易于理解,易于为标引人员和检索人员所掌握,而且在加工过程中更要易于标引,在检索过程中易于应用。保证易标、易检的因素主要包括:

  1. 语词或代表符号的含义必须明确而不能含混不清;

  2. 丰富的语言概念,概念的面广,使遇到的文献信息都能有类可归,

    有号可用;

  3. 标识的可观性,使标引人员及检索人员易于识别和理解;

  4. 查词查号手段多样,便于标引人员和检索人员从各种角度都能方便

地查到所需的标识。

  1. 具有对先进的检索方式和检索设备的适应性,以及对多种检索方式和检索设备的适应性。

检索设备可分为传统检索设备和非传统检索设备。传统检索设备如普通卡片式目录、书本式目录;非传统检索设备如机械式检索系统、充电式检索系统、电子计算机检索系统等。

各种检索方式和检索设备都有一定优缺点和适用范围,所以信息检索语言应能适应多种检索方式和检索设备,使其发挥更大的效应。如《汉语主题词表》就兼顾了电子计算机检索系统和手工检索系统两个方面的需要。

  1. 能满足多种检索要求。信息检索语言使用的标识多,能概括信息的外部特征和内容特征,满足从不同方面、不同层次进行检索的要求,提供较多的检索途径。

  2. 具备与其它信息检索语言的兼容性和一定地域范围内的通用性。每一种信息检索语言都有自己的特点,但又不应忽视检索语言之间的相互交流及推广使用,这就要求实现各种信息检索语言的兼容性。尤其是要适应当前信息检索自动化和网络化的发展趋势,更应要求信息检索语言向国际标准化靠拢,以求达到更大范围的通用。