3.1.1 离散信源的度量

1.离散消息的自信息量

自信息量(简称“信息量”)指一个事件(消息)本身所包含的信息量,它是由事件的不确定性决定的。比如抛掷一枚硬币的结果是正面这个消息所包含的信息量。根据概率论知识,自信息量I(xi)与事件xi出现的概率P(xi)之间的关系应为

I(xi)代表两种物理含义:事件xi发生前,表示该事件xi发生的不确定性;事件xi发生后,表示该事件xi所提供的信息量。自信息量的单位和式(3-1-3)中对数的底a有关。若a=2时,信息量的单位为比特(bit);若a=e时,信息量的单位为奈特(nat);若a=10时,信息量的单位为十进制单位,单位为哈特(hat)。它们之间可应用对数换底公式进行互换,1bit=0.693nat=0.301hat。目前广泛使用的单位为比特,为了书写简洁有时把底数为2略去不写。

由信息量I(xi)与消息出现的概率P(xi)之间的关系可见,小概率事件所包含的不确定性大,信息量大;大概率事件所包含的不确定性小,信息量小。且自信息量具有如下的性质:

(1)I(xi)是非负的且是P(xi)的单调递减函数,即若P(xi)> P(xj)则有I(xi)<I(xj)。

(2)极限情况,当P(xi)=0时,I(xi)→ ∞。

(3)当P(xi)=1时,I(xi)=0,即概率为1的确定性事件,信息量为零。

(4)两个相互独立的事件所提供的信息量应等于它们分别提供的信息量之和,即信息量满足可加性I[P(x1)P(x2)…]=I[P(x1)]+I[P(x2)]+…

【例3-1】设二进制离散信源,以相等的概率发送数字0或1,则信源每个输出数字的信息量为多少?如果一个四进制离散信源(四种不同的码元0,1,2,3),独立等概发送,求传送每个符号的信息量

解 (1)由于每个符号出现的概率为P(xi)=1/2,i=1,2,故其信息量:

(2)由于每个符号出现的概率为P(xi)=1/4,i=1,2,3,4,故每个符号的信息量:

可见,独立等概时,四进制的每个码元所含的信息量,恰好是二进制每个码元包含信息量的2倍,这是因为四进制的每个码元需要用两个二进制码元来表示。推广可知,对于离散信源,M=2N个波形等概率(P=1/M)发送时,若每一个波形的出现是独立的,则传送M进制波形之一的信息量为

即M进制的每个码元所含的信息量等于用二进制码元表示时所需的二进制码元数目N。

2.离散信源的信息熵

对无记忆信源,通常由于每条消息xi发送的概率p(xi)是不相同的,因而每条消息包含的信息量也不相同,所以考察信源所有可能发送的消息后,需要计算信源的平均信息量。设离散信源是一个由n个符号组成的符号集,其中每个符号xi(i=1,2,3,…,n)出现的概率为P(xi)(i=1,2,3,…,n)且各个符号的输出概率总和应该为1,即。则每个符号所含信息量的统计平均值,即平均信息量H(X)为各消息信息量的概率加权平均值(统计平均值)

由于H同热力学中的熵形式一样,故通常又称它为信息源的信息熵,信息熵的单位和式(3-1-5)中对数的底a有关。若a=2时,信息熵的单位为比特/符号(bit/符号);若a=e时,信息熵的单位为奈特/符号(nat/符号);若a=10时,信息熵的单位为哈特/符号(hat/符号)。它们之间可应用对数换底公式进行互换。

信息熵具有以下两种物理含义:

(1)表示信源输出前信源的平均不确定性;

(2)表示信源输出后每个符号所携带的平均信息量。

【例3-2】由二进制数字1,0组成消息,P(1)=a,P(0)=1-a,试推导以a为变量的平均信息量,并绘出a从0到1取值时H(a)的曲线。

解 由平均信息量的定义式(3-1-5)有:

H(X)=-alog2a-(1-a)log2(1-a)

由H(X)的表达式绘制曲线,如图3-1所示。

由图3-1可知,最大平均信息量出现在a=0.5的时刻,因为这时每一个符号是等可能出现的,此时不确定性是最大的,如果a≠0.5,则其中一个符号比另一个符号更有可能出现,则信源输出那个符号的不确定性就变小,如果a=0或a=1,则不确定性就是0,因为可以确切地知道会出现哪个符号,此时该信源不提供任何信息。

图3-1 二进制时熵与概率的关系

这一结论可以推广到信源由M个符号组成的情况,即当M个符号等概独立出现时,信源的熵有最大值,即

H(X)max=log2M (bit/符号)  (3-1-6)

熵表示的是信源不确定性的大小,也是随机性的大小。熵越大,随机性也就越大。

熵这个名词是香农从物理学中的统计热力学借用过来的,在物理学中,热熵是表示分子混乱程度的一个物理量。