(五)词频分布规律

科技信息是由符号有规律地排列而形成的。符号主要是文字,现代书面语言——文字主要是表意语言。由于表意语言的运用,人们就可以用自然语言把思想内容固定在可以携带的载体上,而不再单纯地依赖口叙和记忆力。语言本身是有其规律的,就其被人类运用而言也是这样。齐普夫在 1935 年经过大量数据的验证得出:如果在一个足够长的文集中,f 表示一个词汇出现的频率,r 是按 f 大小而姚列的顺序。那么,它们之积是一个常数:

f· r= C(17)

严格地说,式(17)仅仅对中频、中序的词才是有效的。50 年代初期, 法国数学家 B.芒代尔布罗(Mandelbort)开始用信息论的方法研究词序分布规律,经过严格地数字推导,从理论上提出了如下公式:

(r+ m)·f= C(18)

式中,r 是词的等级;f 是频次;m、g 和 C 是取决于文

集的亥数。式(18)对于表现低序高频词更为适宜。但是式(18)同样也没有解决高序低频词的问题。1967 年 A.D.布思(Booth)提出了新的数学解析式,指出出现不同频次的词数,与文集所用的词长度和常数 C 无关,仅与频次不同的词汇 In 的频次 n 有关:

2

ln/ I = n(n + 1)

显然,式( 19)对于处理低频高序词是适宜的。但是 In 的 n 临界值为多大呢?式(19 )的适用范围应怎样规定呢? 1973 年 J.C. 多诺霍

(Donohue)提出一个判断式:

ln =

− 1 ±

1+ 8I1

2

式中,I1 为仅出现一次的词数,小于词频 In 的词均属于低频词。