(二)引文分析方法的数学原理

引文分析方法的数学基础是概率论与数理统计。它使用了概率分布、抽样统计、样本与总体的关系等基本的统计数学原理。它有时直接对总体进行分析,也常常采用抽样的方法,用样本的特征代表总体的特征,通过样本内或样本之间的特征比较,得出总体的结论(引文评价);或通过样本内部文献引用关系的分析,推断总体内部的文献引用关系,进而推断知识转移关系

和学科、主题之间的关系(引文网状分析)。

既然分析的直接对象是样本,而分析的最终结论是关于总体的,那么, 样本对于总体就应具有充分的代表性。样本是否对总体具有充分的代表性, 是由所考察指标的分布形式和抽样的方法决定的。为使样本能充分地代表总体,就要求所抽取的样本充分地大,以使样本能将我们所要分析的总体的特征忠实地反映出来。另一方面,如果所抽取的样本对于总体具有充分的代表性,也不必一味强调样本的规模,因为它毕竟是样本。我们分析样本,而不直接分析总体,是为了减少统计分析的工作量。只要能充分地代表总体,样本应尽可能地小。

引文分析方法的数学原理决定了引文测度具有宏观性和相对性,这是在进行引文评价和利用引文测度结果时必须给予充分注意的。

引文测度是一种统计意义的宏观测度,是对被分析对象整体的考察。既然是宏观测度,就不应过分强调微观的差异性。我们在对风速这一自然现象进行测度时,考察的是气流整体的运动,而不考虑有的气体分子在作反方向的热运动,以及局部气流遇到障碍物而作反方向的运动,就是这个道理。又如评选先进集体,考察的是集体这一整体是否先进,而不强调集体中人人都达到先进个人的标准,也是这个道理。有些批评引文分析方法的文章认为, 被引频次高的期刊,其被引频次主要集中在少数文章上,许多文章几乎不被引用,因而引文评价不科学。显然,这种认识是不能成立的。核心期刊之所以成为核心期刊,就是因为它刊载了较多的被引频次高的文献。

在我们实际应用中存在着“用而不引”,即并未将有知识转移的文献尽数列出的现象。这是不足为怪的。因为文献与文献之间的知识转移不是简单的机械转移。被转移的知识要在人脑中暂驻相当时间,并经人脑加工、升华。科技人员进行一项科研并将其科研成果撰写成论文,需经历比较长时间的知识准备和积累。一个人不可能同时阅读两篇以上的文献,他所阅读的文献总是有先有后的,在阅读后一篇文献时先前阅读过的文献中的有关知识程度不同地暂住在他的大脑中。当他在著录参考文献时难免发生“用而不引”的情况。不过这并不影响引文分析方法得以建立的文献学基础,因为引文分析方法建立在统计数学的统计抽样的原理基础之上。

有时候有人提出所列出的参考文献并不是都对该篇文献有知识转移。作者在著录引用文献时或存在随意性,或存在引用名家的不相干的文献以提高自身价值的情况。即便存在这些情况,对引文评价也是没有多大影响的,因为这些情况对于所有分析对象是均匀分布的。如果这种情况占的比重较大, 也可能受到影响的是引文网状分析的结论。不过从过去的引文分析实践所取得的结果来看,这种情况似乎并未对被引频次起到决定性作用。通常代表我国科研水平的全国性学报被引频次最高,而一般在这些刊物上发表文章的是各个学科领域的较有影响的名家,这似乎为以上认识提供了依据,但是,这些引用并非都是慕名,权威性期刊和权威人物的学术带头作用也是不可否认的。由学术水平较高的刊物向学术水平较低的刊物发生知识转移,是科学研究和科技文献发展的一般规律。此外,引文分析的结果还表明,科技期刊(即使是层次较低的刊物)的自引频次往往大于对其他某种刊物(即使是全国性学报)的他引频次,这说明每一种刊物及其为这种刊物撰文的作者都有其特定的研究领域和研究路向,即使在对引用文献进行著录时,也体现了这一点。

对评价性引文分析(如引文评刊、引文评选核心作者)来说,不是简单

地通过测度考察被引频次的绝对值而得出结论,而是将所有考察对象的被引频次的大小进行比较、排序,而后得出结论,即评价性引文分析是一种相对测度,而不是一种绝对测度。因而,对所有分析对象(特定的期刊或特定著者的文献的被引频次)都有影响的因素(如:著者引用文献具有一定程度的随意性;一篇文献的著者引用多少文献具有随机性;被引文献对于引用文献的知识转移量不同等因素)是不会对分析结论产生影响的。因为这些因素对所有分析对象的被引频次的绝对数量和被引用的质量都有影响,即,它们的作用是均匀分布的,在进行分析比较时,已将其作用排除在测度结果之外了。

例如,引文指标往往受多因素影响,指标值的大小往往由多因素决定, 是一个多元函数系统。而一些具体的引文分析方法则将这一指标用于测度某一因素,假定其他因素不变,即将多元统计分析问题简化为一元统计分析问题来处理。当然,尽管统计分析的原理是无可置疑的,但各种假定是否成立却直接影响到分析结果的有效性和可靠性。