第四节 信息检索效果的评价
所谓检索效果,就是利用检索系统(或检索工具)开展检索服务时产生的有效结果。检索效果评价着眼于整个检索系统,着眼于系统的使用效果和服务质量,因而它直接反映了检索系统性能。
目前,衡量检索效果的方法主要有三个方面:①检索结果有效性的评价, 即检索的技术效果的评价,这是对检索系统检出相关文献以满足用户提问要求能力的一种测度,主要以查全率和查准率为评价标准。②检索系统实用性的评价,包括系统对用户是否需要,是否实用,有多大的实用效果,即检索的社会效果的评价,其中要涉及到社会学及其方法。③检索费用——效率评价,即检索的经济效果的评价,包括检索服务的成本和时间消耗,这涉及到信息检索系统的经济学问题。然而,由于检索效果的评价涉及到许多问题, 可以从不同的角度采用不同的检索效果评价方法。其中,最常用的检索效果评价指标为查全率和查准率。
一、查全率与查准率
查全率和查准率是由 J.W.佩里和 A.肯特于 50 年代中期提出来的,后经不断改进和完善,至今已成为评价检索效果最常用的两项关键指标。
确定查全率和查准率最常用的方法是有名的 2×2 表。
它反映检索系统在实施某一次检索时所得的结果其中 a 表示被检出的相关文献,即查准的文献;
b 表示被检出的非相关文献,即误检的文献; 表示未检出的相关文献,即漏检的文献;
d 表示未检出的非相关文献,即正确拒绝的无关文献。
存贮在文献检索系统文档中,参加检索的全部文献量为(a+b+c+d)。从检索系统角度来看它们可以分为两部分:一部分是被检出文献(a+b),也就是与检索策略相匹配的部分;另一部分是未检出文献(c+d),即与检索策略不相匹配的部分。因为两部分文献反映了检索系统处理是否与检索提问相关,故称之为系统相关性预报。
另一方面,从用户的角度来看,检索系统文档中参加检索的全部文献也可以分为两个部分:一部分与用户需要相符,称为相关文献(a+b);另一部分与用户需求不符,称为非相关文献(b+d)。因为这两部分文献反映了用户判断是否与检索需要相关,故又称之为用户相关性判断。
这样,便可以根据 2×2 表来确定查全率与查准率的含义。
查全率就是系统在进行某一检索时,被检出的相关文献量与系统文档中实有的相关文献量的比率,可用下式表示:
查全率(R) = 被检出相关文献量 / ×100%
文档中相关文献总量
a
= a + c
- 100%
查准率就是被检出的相关文献量与被检出的文献总量的比率,可用下式表示:
查准率(P) = 被检出相关文献量 ×100%
被检出文献总量
= a
a + b
- 100%
可见,查全率是用来描述检索系统检出相关文献的能力;查准率用来描述检索系统拒绝非相关文献的能力。
在具体评价检索系统的检出效果时,一般应将查全率与查准率结合起来,否则难以准确反映检索系统的功能和检索效果。
虽然查全率与查准率能较好地反映出一个检索系统的检索效果,但是, 它们也存在一些难以克服的局限性和固有的缺限。首先,一个检索系统中总共有多少相关文献(a+c)难以确切计算,而只能是大概估算;其次,对于全部相关文献对用户的价值是建立在假定具有同等价值上的,然而实际上并非如此。不同的用户对相关文献的认识也可能不一致,因此存在着太多的主观成分和一些模糊概念,所以说明上述方法求得的查全率与查准率并不是绝对的,而只能是相对近似地描述检索效果。
分别与查全率和查准率相对应的指标是漏检率和误检率,可以用下面的公式加以表示:
漏检率(M) = 未检出的相关文献 ×100%
文档中相关文献总量
c
= a + c
- 100%
误检率(N) = 检出的不相关文献量 ×100%
检出的文献总量
= b
a + b
- 100%
从上述式子可以看出:R+M=1,R+N=1。
此外,还可以求出离散率和正确拒绝率的公式:
离散率(F) = b
b + d
正确拒绝率(Rs) = d
b + d
-
100%,它表示不该检出而被检出的文献量的比率。
-
100%,它表示正确拒绝检出无关文献量的比率。
二、影响查全率与查准率的因素
从查全率与查准率的定义可以看出,这两个指标主要是面向用户的指标。用户是一方,由检索人员与检索工具组成的检索系统是另一方,对于用户提出的每一查找要求,检索系统作出相应的响应,这两个指标反映了用户对检索系统响应的主观评价。因此,影响查全率与查准率的各种因素主要来自用户与检索人员的配合、检索策略、标引和检索语言等方面。
- 标引的影响。标引人员标引文献的正确性对查全率与查准率有直接影响。标引人员在标引文献时主要面临两方面的问题:①确定文献中含有哪些有用信息及它们能够响应哪些查找要求;②如何用给定的检索语言表达这些检索要求。其中第一个问题更关键些。如果提取出来的不是有用信息,则以后查找时查准率降低;如果有用信息没有被提取出来,则以后查找时查全率降低。有用信息提取出来之后,获得正确标引的主要困难在于确定需要这些有用信息的用户会提出怎样的查找要求,如果将能够响应的某个查找要求遗漏掉,则用户从这个查找中就查不到会有该有用信息的文献,因而查全率会降低。
文献所能响应的查找要求确定出来之后,在将其转换成标引词的过程中,标引人员可能发生两种类型的差错:①遗漏了必须描述的概念,从而使查全率降低。发生这种差错的原因是标引人员的疏忽,或者因检索语言中没有相应的标引词,也没有相应的使用参照,标引人员不知如何标引而略去。
②选用了不合适的标引词,使得检索人员利用这个词查出的文献是无关的, 因而引起查准率降低;或者检索人员利用正确的标引词查找时,有关文献因标引了不合适的标引词而查不出来,则导致查全率降低。
此外,标引的网罗性与专指性对查全率与查准率也有影响。标引的网罗性高,查全率也高,但查准率低;标引的专指性高,查准率也高,查全率则较低。
- 检索语言的影响。由检索语言引起的查找失败有两种类型:一是因标引词专指性不足引起的查找失败;一是因标引词之间的含糊关系或虚假关系引起的查找失败。
标引词的专指性不足既会造成查全率降低,又会造成查准率降低。
标引词的专指性是影响查准率的积极因素,但高专指性的标引词是提高查准率的同时有降低查全率的趋向。这是因为标引词的数目越多,能够表达的意义差别也就越细致,标引就越难于取得一致。
如果检索语言中的标引词不规范,或允许使用过多的标引词,则可能引起虚假组配现象,将使查准率降低。
词表结构对查找有很大影响。如果词表不以某种方式把所有关连的标引词集中在一起,那些检索人员就不能将与查找要求有关的全部标引词找出来,查全率就会降低。词表对标引也有很大影响,较好的词表参照系统和等级结构关系能够提高查全率。
-
检索策略的优劣。所谓检索策略是指检索者对检索的每一步骤所做的安排和部署,如选择检索工具、检索方法、检索途径等。它主要取决于检索人员的知识水平与业务能力,因此,检索策略的优劣是影响检索效率的主观原因。
-
查全率与查准率的互逆相关性。英国 Cleverdon 等人由试验得到的查全率—查准率经验曲线表现,查全率与查准率是互逆的,即对于一个查找要求,如果要设法提高查全率,则查准率会降低,反之亦然。这也可以看作是文献信息检索的一个基本特征。
三、提高检索效果的措施
一般地说,检索人员与用户对于检索效果的要求是一致的,既要求有较高的查全率,又要保证有理想的查准率。然而,具体到每一个用户,则他们对检索效果的要求可能不一样,这取决于他们检索的目的。如果用户仅仅想
了解某一专业领域的发展概况,则对查全率有较高的要求;如果用户检索是为了解决工作中的某个技术难题,就需要较高的查准率。因此,检索人员可以根据实际用户需要合理地调节查全率和查准率。
总体来说,提高检索效果可以采取以下措施:
1.提高检索工具或检索系统的编辑质量。这就要求检索工具的收录范围要全面,内容要准确、详尽。同时,要求检索工具提供不同途径的检索入口, 即辅助性索引要齐全。2.提高索引语言的专指性,加强对索引词汇的控制, 完善词表的结构及其参照关系,使索引语言更有利于族性检索,也有利于特性检索,同时兼顾查全率和查准率。
-
提高标引质量。标引人员在进行标引时,应做到不错标、不漏标、不滥标,使标引词的定义和使用范围与检索系统的文献内容相一致,从而提高检索的准确性。
-
提高检索人员的业务水平,力争做到检索前正确理解检索课题的实质要求,制订最优的检索策略,同时,在检索过程中保持认真负责的精神,减少人为的错检和漏检。