第二节 检索语言的基础与分类

一、检索语言的基础:概念逻辑和知识分类

(一)概念逻辑

检索语言的最终目的是表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。因此,它们都是建立在概念逻辑的基础上的。概念是语言包含的内容,语言是概念的表达形式。事物——概念——语言三者之间—

—对应的辩证关系既是建立检索语言的基础,也是建立检索语言必须遵循的原则。

概念逻辑,是一种科学思维方法。它通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。检索语言在建立词汇、显示概念关系以及在文献标引和检索中使用时,都离不开概念逻辑。所以,它们只有以概念逻辑为基础,才能使检索语言具有广泛的通用性和适应性。概念是事物本质属性的概括。任何概念都有其内涵与外延。某一概念的

内涵,即指及所反映事物的本质属性;外延则是指其反映事物的范围。它们之间存在着“反变关系”,即概念的内涵包含的属性增加,概念的外延便缩小;反之,概念的内涵减少,其外延就扩大。

概念之间的各种关系可归结为相容关系与不相容关系。概念的相容关系包括同一关系、隶属关系、交叉关系、不互相排斥的并列关系;不相容关系包括互相排斥的并列关系、矛盾关系、对立关系。

检索语言在表达各种概念及其相互关系时,普遍地应用了概念逻辑的原理,并且有效地利用了“概念的划分与概括”和“概念的分析与综合”这两种逻辑方法来建立自己的结构体系。

  1. 概念的划分与概括(分类),就是利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等的性质,对概念进行划分(缩小)或概括(扩大),形成更

为专指或更为泛指的新概念,用以区别客观世界千差万别的事物;并利用划分或概括过程中所产生的概念隶属关系和并列关系,建立某种形式的检索语言结构体系,即概念等级体系,用以显示客观世界千差万别的事物之间的内在联系。这种结构具有很好的系统性。例如,体系分类法就是应用此种逻辑方法的典型。

  1. 概念的分析与综合(组配),是利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来的两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或两个以上内涵较浅的概念,以及将两个或两个以上内涵较浅的概念合成为一个内涵较深的概念的一种概念逻辑方法,用以建立另一些形式的检索语言结构体系,即概念组配体系。

这种结构体系可以提供从多种途径来进行信息检索的功能,而且可以任意选择检索标识的专指度,根据实际需要扩大、缩小或改变检索的范围。例如,叙词语言与组配分类法便是应用概念分析与综合的典型。

(二)知识分类

知识分类包括事物分类和学科分类。它将客观世界事物以及各种学科根据当代科学认识的最新成就构成一个完整的、有科学认识意义的体系。所以, 它是对千差万别的事物作系统研究的重要方法,是对各种事物之间的区别和联系从本质上、原理上进行揭示的重要手段,对文献信息的系统化具有重大的价值。

为了使信息检索语言能够适合科学研究的需要,必须把各种概念之间的关系建立在知识分类的基础上。如果说概念逻辑是检索语言的基础,则知识分类便是概念逻辑的基础。信息检索语言中的体系分类法、组配分类法、叙词法、标题法以及代码系统等,都在不同程度上反映了知识分类。但是,知识分类体系是多维性和处在不断变化中的,信息检索语言能在多大程度上反映当代知识分类水平,是其质量的重要标志之一。只有较充分反映知识分类的信息检索语言,才能保证信息检索语言在信息检索工作中得到有效运用, 并达到较好的检索效果。

二、信息检索语言的分类

信息检索语言有很多类型,可以按不同的方式和标准划分。

(一)按语言的结构原理划分1.分类语言。其又可分为:

  1. 体系分类语言:按学科体系层次,从上到下,从综合到一般,逐级展开,属层累制结构。

  2. 组配分类语言:一般按学科性质分组,称为“组面”,标引时,选择“组面”和有关词汇加以组配。它是一种新型分类方法,其原理是用有关词汇结合文献信息的内容加以组配。

  3. 混合分类语言:是体系分类语言和组配分类语言的结合,又因对二者的侧重之不同又有体系一组配分类语言和组配—体系分类语言之别,但都是先组配。

2.主题语言。按照主题词性质的不同,又可分为:

  1. 标题词语言:从标题词作为文献信息内容的标引标识和检索标识。标题词一般分为主标题和副标题,词表中按级一一列举各级标题,把主标题和副标题加以组配,作为标引和检索使用中的依据。

  2. 叙词语言:以规范化的标引词形成词表,各词独立,标引时根据需要进行组配,可表达文献内容方面的复杂概念,属后组配式,适用于机检和手检。

  3. 关键词语言:是一种无词表的自然语言。关键词选自文献的题目和内容,属于非规范的后组配式。

  4. 单元词语言:以文献中的单元词表达文献信息的内容性质,一般无词表。单元词是文献内容中最基本的不能再加复分的知识单元,单元词之间可以进行组配,属后组配式。

  5. 引文语言:利用文献的引文关系而建立的一种自然语言,无词表, 标引词为文献中的主要著录项目,属后组配式。

(二)按照语言标识的组配方式划分

  1. 先组式检索语言:指表述文献主题概念的标识在检索之前就已固定的检索语言,如体系分类语言、标题词语言均属于这种类型。这种语言标识明确,系统性较好,适用于传统的文献单元方式的目录索引,是检索用户比较习惯的形式。

  2. 后组式检索语言:指表述文献主题概念的标识在检索之前未固定组配,而是在检索时根据实际需要按组配规则临时组配的检索语言,如单元词语言、叙词语言均属此类。这种语言采用概念分析和综合的原理,可实行多途径、多因素检索乃至精确检索,相当灵活,检索效率较高。但是,标识明确性不强,造成检索用户使用不习惯。