四、信息的度量
在物质世界里,所有的东西都可以计量。在信息世界里,信息也是有量的大小的。例如,一个突发事件,会成为新闻界的重大新闻,其信息量也就很大。因此,定性地说,信息量与其本身的概率成反比,与意外性和新颖性成正比。
例如大都市的交通问题日趋严重,由此发生的死亡事故,在大都市已属司空见惯。若死亡事故为零,就会做为一件信息量很大的新闻来加以报道。又例如,南方梅雨时期,每日都阴沉沉地下着雨,突然听到“明日天气
晴”的气象预报,这就是一件新闻。相反,若每日都晴朗,“明日天气晴” 所包含的信息量,自然要小于前者。
自然界和人类社会的现象是千差万别的,但所有的现象可以归结为三类:在一定条件下必然要发生的现象,如夏天来了,天气必然会变热,这种事件为必然事件,其概率为 1;第二类是在一定条件下必然不会发生的现象, 如太阳从西边升起,这是不可能事件,其概率为零;第三类现象是在相同条件下,可能发生也可能不发生的事件是随机事件,常用概率来表示随机事件可能性的大小,若用 P(A)表示 A 事件发生的概率,I(A)表示 A 事件的概率,则:
I(A)= K 1 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯(1 )
P(A)
那么,计算信息量的单位是什么呢,我们把二种择一的信息视为信息量的最小单位。即(x,1)是一个基本问题,x1 .x2 出现的概率各为 1/2,如果一条信息能够回答 x1 ,x2 到底哪个出现,这就是一个单位的信息量。它的计量单位由于是二中择一,就叫做二进制单位,写作 Bit,读作比特。
下面对公式进行推导。
1 比特的信息量就是说两个事件为等概率,要消除其不确定性所需要的信息为 1 比特。即这一消息中只有两种可能性且概率相等——即 P(A)= 1/2。
1∴I(A)= K· =K· 2= 1
1
2
而− log
1 = log
P(A) = −
1 = 1 ⋯⋯(2)
2 P(A) 2
log2 ( 2 )
∴I(A)= log
1 = − log
P(A)
(A)
2 P(A) 2
此外,信息还有几个单位,对数以 e 为底,称为奈特;以 3 为底,称为铁特;以 10 为底,称为哈特。这些不同的单位可以互相转换,但最常用的是
比特。
更一般的情况是,事物各个状态发生的概率不相等。对于这种情形, C.E.Shannon 也有一个计算公式:
任意一个随机试验 X(离散的),有 N 个独立可能状态,以及各状态的概率为 P,
X: X1⋯⋯X2⋯⋯XN P:P1⋯⋯P2⋯⋯PN
其中 N 为任意正整数,0≤Pn≤1 n=1⋯⋯N
∑PN = 1
i=1
那么,为消除这个平均不定度所需的平均信息量为:
H(A)= ∑Pn log2 (Pn )
i=1
信息量又称为信息熵
以上所谈到的信息量,是申农在解决通信问题时提出的。这个方法成功地解决了通信过程有关信息量的各种问题。可是若把这一信息量的计算机方法引入“人”时,就出现了极大的局限性。申农信息论所解决的是通讯传播的信息。因此五分钟的广播,无论是新闻,还是轻音乐,对通讯系统来说, 传送的信息量是一样的。可是人们所关心的,不仅仅是通讯系统传送多少信息,更为重要的是人从中能得到多少信息。对同一事件,不同的观察者可能得到不同的信息量。60 年代以来有人就提出语用信息,模糊信息等概念,显然这些信息用申农的概率信息计量法就无法计算的。这就引出了广义信息量计量方法的研究。许多学者为此做了大量的工作,但是目前只提出了一个模糊信息的计算公式:
I(C, C*, R) = ∑Ci*
i=1
log CC *
- Ci log Ci
其中事件 X 的可能运动状态为 X1⋯⋯Xn ,事件 X 取 Xi 的确定度为 Ci , R 为某个观察者,对于 R 来说,在观察 X 之前,对 X 有一个主观先验估计, 记为 C,通过观察,他知道 X 的实际确定分布为 C* ,那么,R 从 X 过程中得到的信息计算公式如上(推导过程从略)。
这只是广义信息量计算的一个小小的开端,还有大量的问题等待后人去攻克。