（五）词频分布规律

科技信息是由符号有规律地排列而形成的。符号主要是文字，现代书面语言——文字主要是表意语言。由于表意语言的运用，人们就可以用自然语言把思想内容固定在可以携带的载体上，而不再单纯地依赖口叙和记忆力。语言本身是有其规律的，就其被人类运用而言也是这样。齐普夫在 1935 年经过大量数据的验证得出：如果在一个足够长的文集中，f 表示一个词汇出现的频率，r 是按 f 大小而姚列的顺序。那么，它们之积是一个常数：

f· r＝ C（17）

严格地说，式（17）仅仅对中频、中序的词才是有效的。50 年代初期，法国数学家 B.芒代尔布罗（Mandelbort）开始用信息论的方法研究词序分布规律，经过严格地数字推导，从理论上提出了如下公式：

（r+ m）·f= C（18）

式中，r 是词的等级；f 是频次；m、g 和 C 是取决于文

集的亥数。式（18）对于表现低序高频词更为适宜。但是式（18）同样也没有解决高序低频词的问题。1967 年 A.D.布思（Booth）提出了新的数学解析式，指出出现不同频次的词数，与文集所用的词长度和常数 C 无关，仅与频次不同的词汇 In 的频次 n 有关：

ln/ I = n(n + 1)

显然，式（ 19）对于处理低频高序词是适宜的。但是 In 的 n 临界值为多大呢？式（19 ）的适用范围应怎样规定呢？ 1973 年 J.C. 多诺霍

（Donohue）提出一个判断式：

ln =

− 1 ±

1+ 8I1

式中，I1 为仅出现一次的词数，小于词频 In 的词均属于低频词。