四、信息的度量

在物质世界里，所有的东西都可以计量。在信息世界里，信息也是有量的大小的。例如，一个突发事件，会成为新闻界的重大新闻，其信息量也就很大。因此，定性地说，信息量与其本身的概率成反比，与意外性和新颖性成正比。

例如大都市的交通问题日趋严重，由此发生的死亡事故，在大都市已属司空见惯。若死亡事故为零，就会做为一件信息量很大的新闻来加以报道。又例如，南方梅雨时期，每日都阴沉沉地下着雨，突然听到“明日天气

晴”的气象预报，这就是一件新闻。相反，若每日都晴朗，“明日天气晴” 所包含的信息量，自然要小于前者。

自然界和人类社会的现象是千差万别的，但所有的现象可以归结为三类：在一定条件下必然要发生的现象，如夏天来了，天气必然会变热，这种事件为必然事件，其概率为 1；第二类是在一定条件下必然不会发生的现象，如太阳从西边升起，这是不可能事件，其概率为零；第三类现象是在相同条件下，可能发生也可能不发生的事件是随机事件，常用概率来表示随机事件可能性的大小，若用 P（A）表示 A 事件发生的概率，I（A）表示 A 事件的概率，则：

I（A）= K 1 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯（1 ）

P(A)

那么，计算信息量的单位是什么呢，我们把二种择一的信息视为信息量的最小单位。即（x，1）是一个基本问题，x1 .x2 出现的概率各为 1/2，如果一条信息能够回答 x1 ，x2 到底哪个出现，这就是一个单位的信息量。它的计量单位由于是二中择一，就叫做二进制单位，写作 Bit，读作比特。

下面对公式进行推导。

1 比特的信息量就是说两个事件为等概率，要消除其不确定性所需要的信息为 1 比特。即这一消息中只有两种可能性且概率相等——即 P（A）= 1/2。

1∴I（A）= K· =K· 2= 1

而− log

1 = log

P(A) = −

1 = 1 ⋯⋯（2）

² P(A) ²

log₂ ( 2 )

∴I（A）= log

1 = − log

P(A)

（A）

² P(A) ²

此外，信息还有几个单位，对数以 e 为底，称为奈特；以 3 为底，称为铁特；以 10 为底，称为哈特。这些不同的单位可以互相转换，但最常用的是

比特。

更一般的情况是，事物各个状态发生的概率不相等。对于这种情形， C.E.Shannon 也有一个计算公式：

任意一个随机试验 X（离散的），有 N 个独立可能状态，以及各状态的概率为 P，

X： X1⋯⋯X2⋯⋯XN P：P1⋯⋯P2⋯⋯PN

其中 N 为任意正整数，0≤Pn≤1 n=1⋯⋯N

∑PN = 1

i=1

那么，为消除这个平均不定度所需的平均信息量为：

H（A）= ∑Pn log2 (Pn )

i=1

信息量又称为信息熵

以上所谈到的信息量，是申农在解决通信问题时提出的。这个方法成功地解决了通信过程有关信息量的各种问题。可是若把这一信息量的计算机方法引入“人”时，就出现了极大的局限性。申农信息论所解决的是通讯传播的信息。因此五分钟的广播，无论是新闻，还是轻音乐，对通讯系统来说，传送的信息量是一样的。可是人们所关心的，不仅仅是通讯系统传送多少信息，更为重要的是人从中能得到多少信息。对同一事件，不同的观察者可能得到不同的信息量。60 年代以来有人就提出语用信息，模糊信息等概念，显然这些信息用申农的概率信息计量法就无法计算的。这就引出了广义信息量计量方法的研究。许多学者为此做了大量的工作，但是目前只提出了一个模糊信息的计算公式：

I(C, C*, R) = ∑C^i*

i=1

log C^C *

Ci log Ci

其中事件 X 的可能运动状态为 X1⋯⋯Xn ，事件 X 取 Xi 的确定度为 Ci ， R 为某个观察者，对于 R 来说，在观察 X 之前，对 X 有一个主观先验估计，记为 C，通过观察，他知道 X 的实际确定分布为 C* ，那么，R 从 X 过程中得到的信息计算公式如上（推导过程从略）。

这只是广义信息量计算的一个小小的开端，还有大量的问题等待后人去攻克。