四、信息的度量

在物质世界里,所有的东西都可以计量。在信息世界里,信息也是有量的大小的。例如,一个突发事件,会成为新闻界的重大新闻,其信息量也就很大。因此,定性地说,信息量与其本身的概率成反比,与意外性和新颖性成正比。

例如大都市的交通问题日趋严重,由此发生的死亡事故,在大都市已属司空见惯。若死亡事故为零,就会做为一件信息量很大的新闻来加以报道。又例如,南方梅雨时期,每日都阴沉沉地下着雨,突然听到“明日天气

晴”的气象预报,这就是一件新闻。相反,若每日都晴朗,“明日天气晴” 所包含的信息量,自然要小于前者。

自然界和人类社会的现象是千差万别的,但所有的现象可以归结为三类:在一定条件下必然要发生的现象,如夏天来了,天气必然会变热,这种事件为必然事件,其概率为 1;第二类是在一定条件下必然不会发生的现象, 如太阳从西边升起,这是不可能事件,其概率为零;第三类现象是在相同条件下,可能发生也可能不发生的事件是随机事件,常用概率来表示随机事件可能性的大小,若用 P(A)表示 A 事件发生的概率,I(A)表示 A 事件的概率,则:

I(A)= K 1 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(1 )

P(A)

那么,计算信息量的单位是什么呢,我们把二种择一的信息视为信息量的最小单位。即(x,1)是一个基本问题,x1 .x2 出现的概率各为 1/2,如果一条信息能够回答 x1 ,x2 到底哪个出现,这就是一个单位的信息量。它的计量单位由于是二中择一,就叫做二进制单位,写作 Bit,读作比特。

下面对公式进行推导。

1 比特的信息量就是说两个事件为等概率,要消除其不确定性所需要的信息为 1 比特。即这一消息中只有两种可能性且概率相等——即 P(A)= 1/2。

1∴I(A)= K· =K· 2= 1

1

2

而− log

1 = log

P(A) = −

1 = 1 ⋯⋯(2)

2 P(A) 2

log2 ( 2 )

∴I(A)= log

1 = − log

P(A)

(A)

2 P(A) 2

此外,信息还有几个单位,对数以 e 为底,称为奈特;以 3 为底,称为铁特;以 10 为底,称为哈特。这些不同的单位可以互相转换,但最常用的是

比特。

更一般的情况是,事物各个状态发生的概率不相等。对于这种情形, C.E.Shannon 也有一个计算公式:

任意一个随机试验 X(离散的),有 N 个独立可能状态,以及各状态的概率为 P,

X: X1⋯⋯X2⋯⋯XN P:P1⋯⋯P2⋯⋯PN

其中 N 为任意正整数,0≤Pn≤1 n=1⋯⋯N

∑PN = 1

i=1

那么,为消除这个平均不定度所需的平均信息量为:

H(A)= ∑Pn log2 (Pn )

i=1

信息量又称为信息熵

以上所谈到的信息量,是申农在解决通信问题时提出的。这个方法成功地解决了通信过程有关信息量的各种问题。可是若把这一信息量的计算机方法引入“人”时,就出现了极大的局限性。申农信息论所解决的是通讯传播的信息。因此五分钟的广播,无论是新闻,还是轻音乐,对通讯系统来说, 传送的信息量是一样的。可是人们所关心的,不仅仅是通讯系统传送多少信息,更为重要的是人从中能得到多少信息。对同一事件,不同的观察者可能得到不同的信息量。60 年代以来有人就提出语用信息,模糊信息等概念,显然这些信息用申农的概率信息计量法就无法计算的。这就引出了广义信息量计量方法的研究。许多学者为此做了大量的工作,但是目前只提出了一个模糊信息的计算公式:

I(C, C*, R) = ∑Ci*

i=1

log CC *

  • Ci log Ci

其中事件 X 的可能运动状态为 X1⋯⋯Xn ,事件 X 取 Xi 的确定度为 Ci , R 为某个观察者,对于 R 来说,在观察 X 之前,对 X 有一个主观先验估计, 记为 C,通过观察,他知道 X 的实际确定分布为 C* ,那么,R 从 X 过程中得到的信息计算公式如上(推导过程从略)。

这只是广义信息量计算的一个小小的开端,还有大量的问题等待后人去攻克。