1、第12章信 息 论 基 础 12.1 概述 12.2 信息源与信息的测度 12.3 离散无记忆信源编码 12.4 离散无记忆信道(DMC)12.5 香农公式及其应用 12.6 网络信息理论简介 思考题 习题 第第12章章 信息论基础信息论基础 第12章信 息 论 基 础 12.1 概概 述述 信息论是一门用概率论和数理统计方法来研究信息处理和传输的科学。从广义的观点看,它不仅研究消息的传输和接收、数据的处理和量度、信息的量度等通信方面的问题,而且还研究语言的统计特性、图像的统计特性、消息接受器官的特性(如视觉和听觉的生理特点),等等。这里仅研究有关通信的一些最基本的理论。第12章信 息 论 基
2、 础 通信系统研究的两个最主要问题是有效性和可靠性。本章也是围绕着这两个问题进行研究的,着重讨论以下两个方面的问题:(1)介绍香农(Shannon)公式。该公式从理论上找到了通信系统中有效性和可靠性统一的依据,并能计算出通信系统的极限传输性能。(2)研究如何提高有效性的问题,即信源编码的问题。在数字通信中,信源编码是寻找一种很少或没有多余度的有效表示方法,将信源输出有效地变换为二进制数字序列,即如何用尽可能少的二进制代码表示信源输出的信息。第12章信 息 论 基 础 12.2 信息源与信息的测度信息源与信息的测度12.2.1 离散消息的统计特性离散消息的统计特性 离散消息的表现形式是符号的序列
3、,如文字、数字、字母等。例如,0010100110是一个以0、1作为符号的离散消息。连续消息的表现形式是连续变量的函数,例如话音是时间的函数f(t)。不管是离散消息还是连续消息,都是随机性的,在发信者没有发出消息之前,收信者是无法知道的,但是这些消息都有统计规律。此外,连续信号在所允许的“失真度”下通过抽样、量化后可以离散化。因此,我们把离散消息作为讨论问题的基础。离散消息的统计特性主要有:第12章信 息 论 基 础(1)组成离散消息的信息源的符号个数是有限的。例如,一篇汉文,尽管文字优美,词汇丰富,所用的词都是从常用10000个汉字里选出来的。一本英文书,不管它有多厚,总是从26个英文字母里
4、选出来,按一定词汇结构、文法关系排列起来的。第12章信 息 论 基 础(2)符号表中各个符号出现的概率不同。对大量的由不同符号组成的消息进行统计,结果发现符号集中的每一个符号都是按一定的概率在消息中出现的。例如在英文中,每一个英文字母都是按照一定概率出现的,符号“e”出现最多,“z”出现最少。中文电报中,10个阿拉伯数字出现的概率如表12.1所示。第12章信 息 论 基 础 第12章信 息 论 基 础 可以把上面的符号集及其对应的概率用一个概率空间或概率集来表示,设S为一个由q个符号组成的符号集,符号集中的符号si的概率为P(si),记作S:s1,s2,si,sq P(si):P(s1),P(
5、s2),P(si),P(sq)例如,如果si是中文电报中的符号“0”,则相应的概率P(si)=P(0)=0.155。第12章信 息 论 基 础(3)相邻符号的出现,有统计相关的特性。一般地说,每一个基本符号在消息中是按一定概率出现的,但是在具体的条件下还应做具体的分析。例如,在汉字中“义”字出现的概率比较小,但是在出现了“社会主”3个字后出现“义”的可能性就非常大;又如英文中出现字母h的概率约为0.043 05,这是指对大量文章统计后所得到的字母h出现的可能性,但是翻开英文字典查看,发现h紧接在t后面的单词特别多,而紧接在y后面的单词几乎没有。也就是说,在不同条件下,同一个基本符号出现的概率不
6、同。因此,做信源统计工作时,仅仅统计了每个独立的基本符号出现的概率是不够的,还必须统计出在一定条件下每个基本符号出现的概率。这个“一定的条件”可以是前一个符号出现以后,下一个符号为某一基本符号的概率;也可以是2个符号出现后,下一个符号为某一第12章信 息 论 基 础 基本符号的概率;一般是前几个符号出现后,下一个符号为某一基本符号的概率。要掌握这么多的资料,确实非常困难,尤其是汉字的统计工作,更为困难。所以,一般情况下常常只考虑在前一个符号出现的条件下,下一个符号为某一基本符号的概率。归纳起来,离散信源统计特性有三点:第一,离散消息是从有限个符号组成的符号集中选择排列组成的随机序列;第二,在形
7、成消息时,从符号集中选择各个符号的概率是不一样的;第三,组成消息的基本符号之间有一定的统计相关特性。前后符号之间有相关特性的信源称为离散有记忆信源;反之,前后符号之间不相关、相互独立的信源称为离散无记忆信源(DMS,Discrete Memoryless Source)。为了便于说明事物的性质,以后主要讨论离散无记忆信源。第12章信 息 论 基 础 12.2.2 信息的测度信息的测度任何一种通信方式,其目的都是传递消息。在信息论中,把各种有意义的消息的传递统称为信息的传递。信息是有量值的,即信息量,定义如下:假设由q个离散事件(或符号)s1,s2,si,sq所组成的事件集合为S,集合中发生的各
8、个事件si是独立的,发生事件si的先验概率为P(si),这个概率集可以表示为S:s1,s2,si,sq P(si):P(s1),P(s2),P(si),P(sq)其中0P(si)1,。第12章信 息 论 基 础 如果知道事件si已经发生,则收到的信息量可以定义为 信息量单位(12.1)第12章信 息 论 基 础 如果取以2为底的对数(log2=lb),则所得到的信息量的单位为比特,记作bit,即(bit)(12.2)如果取以e为底的对数,则所得到的信息量的单位为奈特,记作nat,即(nat)(12.3)第12章信 息 论 基 础 如果取以10为底的对数,则所得到的信息量的单位为笛特,记作Det
9、,即(Det)(12.4)归纳起来,如果取以r为底的对数,则有r进制单位(12.5)第12章信 息 论 基 础 以a为底的对数和以b为底的对数之间可以用下面的关系式进行换算:logbalogax=logbx (12.6)从信息量的定义可见,不同的概率所得到的信息量是不同的,必然事件的信息量等于零,不可能事件的信息量为无穷大,而P(si)=1/2的信息量为1 bit。信息量I(si)可以看成是接收端未收到消息前发送端发送消息si所具有的不肯定程度。接收端获得的信息量就等于不肯定程度的减少量。下面举例说明。第12章信 息 论 基 础 设有8个串联的灯泡s1,s2,s3,s4,s5,s6,s7,s8
10、,它们损坏的概率相等。现在有一只灯泡坏了,要把它找出来。在尚未检查之前,已经知道每一个灯泡损坏的概率是相等的,即P(si)=1/8。不管哪一只灯泡损坏的不肯定程度都是I(si)=lb1/P(si)=lb8=3 bit。现在用一只三用表量一下开头到中间的一段通不通,如果不通,则坏灯泡是前面4个中的一个;如果通,则后面4个中必定有一个坏了。经过这一次检查,不论通与不通,都使我们肯定了哪4个没有坏,所不知道的只是剩下的4只当中哪一只是坏的,所以不肯定程度由lb8=3 bit变成了lb4=2 bit,第一次检查获得的信息量=3-2=1 bit。第二次再用电表量开头到中间的一段通不通,总能肯定哪两个灯泡
11、没有坏,第12章信 息 论 基 础 剩下的两只灯泡中一定有一只是坏的,所以不肯定程度由lb4=2 bit变成了lb2=1 bit,第二次检查获得的信息量是2-1=1 bit。这样,通过两次检查,坏灯泡的范围越来越小,但还未完全肯定哪一只坏,因为所获得的信息量还不够。需要进行第三次检查,再一量,就知道是哪一只灯泡坏了。这时坏灯泡的不肯定程度为零,第三次检查获得的信息量为1-0=1 bit。三次检查共获得信息量3 bit。哪一只灯泡坏的不肯定程度减少量也是3 bit,它们是相等的。第12章信 息 论 基 础 如果把检查坏灯泡的方法改变一下,只检查si有没有损坏,则有可能一下子碰上了s1是坏灯泡,这
12、时所获得的信息量就是3 bit,但这种可能性比较小,它的概率只是1/8。更多的是s1是通的,而其余7只中有1只是坏的,这时坏灯泡的不肯定程度是lb7=2.8073 bit,所获得的信息量是3-2.8073=0.1926 bit,这种情况的可能性占7/8。平均起来看,这种检查方法第一次所获得的平均信息量为第12章信 息 论 基 础 而上面的“对半开”的检查方法第一次所获得的平均信息量为 当然,“对半开”的检查方法比“只只查”的方法好,人们常用的是前一种方法,因为获得的平均信息量大。第12章信 息 论 基 础 12.2.3 离散无记忆信源的平均信息量离散无记忆信源的平均信息量熵熵1)离散无记忆信源
13、(DMS)信源是产生消息的源泉。信源发出一连串的符号(字母、数字等)构成符号序列,这个符号序列就形成消息。符号序列中的各个符号是由信源符号表中选择出来的,各个符号的选择是根据符号的概率来进行的,这个概率假设与时间t无关。概率大的符号,在序列中出现的机会较多;概率小的符号,在序列中出现的机会较少。假设先后相继发出的符号之间互不相关即统计独立,则这一种信源就称为离散无记忆信源,其数学模型可以用信源符号表表示为S:s1,s2,si,sq P(si):P(s1),P(s2),P(si),P(sq)其中0P(si)1,。第12章信 息 论 基 础 2)平均信息量设DMS中的信源符号有q个,相应的概率为P
14、(si),如果有长度为N的符号序列,当N很大时,则该符号序列中出现符号s1的个数为NP(s1),出现符号s2的个数为NP(s2),出现符号si的个数为NP(si),等等。出现一个si符号得到的信息量为-lbP(si)bit,出现NP(si)个si符号共得到的信息量为-NP(si)lbP(si)bit。我们把收到各个符号所得到的信息量列出,如表12.2所示。第12章信 息 论 基 础 第12章信 息 论 基 础 N个符号全部的信息量为平均每个符号的信息量为(bit/符号)(12.7)第12章信 息 论 基 础 因为这个结果和统计热力学中熵的定义相似,所以称信源的平均信息量为熵(Entropy)。
15、熵的单位和信息量所取对数的底有关。例例1 由5个离散事件组成的概率集S:s1,s2,s3,s4,s5,对应的概率分别为1/2,1/4,1/8,1/16,1/16。求此信源的平均信息量H(S)。解解 (bit/符号)第12章信 息 论 基 础 3)熵的性质根据熵的定义可以知道:(1)H(S)是非负的。因为符号出现概率0P(si)1,所以lbP(si)的值总是负值,而熵公式前面有个负号,所以H(s)是非负的。(2)H(S)lbq,只有当q个符号等概出现时,H(S)=lbq,这时有最大熵(证明从略)。由此得到一个结论:对于有q个符号的符号表的无记忆信源,熵的最大值恰好是lbq,在q个符号等可能性的情
16、况下,才能达到这个最大值。第12章信 息 论 基 础 DMS中一个特别重要的例子是二进制无记忆信源。它的信源符号表中只有两个符号,一般以0,1表示,相应的概率分别为p,1-p,即:S:0,1;P(s):p,(1-p),则该信源的熵为H(s)=-p lbp-(1-p)lb(1-p)(12.8)第12章信 息 论 基 础 一旦p确定后,H(S)的值也就确定了。如果p是一个变量,那么H(S)就是p的函数,称为熵函数,记作H(p)。熵函数在信息论中应用较多,H(p)与p的对应关系常由专门的熵函数表给出,供大家查找。熵函数为H(p)=-p lbp-(1-p)lb(1-p)(12.9)H(p)p的关系曲线
17、如图12.1所示。第12章信 息 论 基 础 图12.1 H(p)p曲线第12章信 息 论 基 础 从图12.1中可看出熵函数有以下一些特点:(1)p在01范围内变化时,H(p)0。(2)p=0或p=1时,H(p)=0,表示信源输出符号是确知的情况下,不会得到什么信息量。(3)当信源符号以等概出现时,有最大熵。此时p=0.5,H(p)=lb2=1 bit/符号。(4)H(p)是对称于p=0.5纵轴的曲线,即H(p)=H(1-p)。第12章信 息 论 基 础 12.2.4 离散无记忆信源的扩展离散无记忆信源的扩展在讨论信源和信道问题时,常常要处理一组一组的符号而不是一个一个的符号。例如,中文电报
18、常用汉字有104个左右,每一个汉字都用4位十进制符号表示,而每一个十进制符号又用5位二进制符号表示,所以一个汉字要用20个二进制符号表示。以二进制符号为例,设信源S的符号为(0,1),则信源经第二次扩展后的新信源S2有4个符号(00,01,10,11),信源经第3次扩展后的新信源S3有8个符号(000,001,010,011,100,101,110,111)。如果一次信源S的0、1符号出现的概率是1/2,则它的每个符号的平均信息量为1 bit。二次扩展后的信源S2的每组符号出现的概率是1/4,每组符号的平均信息量为 2 bit。信源S3的每组符号出现的概率是1/8,平均信息量为3 bit。扩展
19、信源的平均信息量H(S3)和未扩展信源平均信息量H(S)之间有什么关系呢?从上面的特例看,前者每组符号的平均信息量为3 bit,后者每个符号的平均信息量为1 bit,有H(S3)=3H(S),可以证明 H(Sn)=nH(S)(12.10)第12章信 息 论 基 础 12.3 离散无记忆信源编码离散无记忆信源编码12.3.1 编码器的作用编码器的作用编码分为信源编码和信道编码两种。信道编码是在原有的信息基础上,按一定规律再加上一些多余度以提高信息传输的可靠性。而信源编码是减少信源的多余度,以提高信息传输的有效性。信源编码是利用编码器把信源的符号或符号序列变换成代码的过程,如图12.2所示。第12
20、章信 息 论 基 础 图12.2 编码示意图第12章信 息 论 基 础 假如输入信源符号S:s1,s2,sq 有q个符号,通过构成码字的符号表D可以编成代码符号表W。W由码字w1,w2,wq组成,码字的个数与信源符号的个数一一对应,这样才能把各种信源符号以其代码的形式发送。由此,编码器的基本作用应该是:(1)用码字符号表D构成代码符号表W,使信源符号与代码的码字之间一一对应,或者是信源经L次扩展后的符号序列与代码中的码字一一对应。第12章信 息 论 基 础 (2)编码效率要高。当信源给定时,所编码字的平均码长要尽量短。图12.2中的D是构成代码的码符表。例如,在PCM中,信源符号表中的S是已量
21、化的抽样值,如果量化级为128,即q=128;码字符号表中的D可取两个值,即0和1。用7位二进制码符就可编出128个代码。在中文电报中,信源符号表就是所用的汉字,码字符号表就是0,1,2,3,4,5,6,7,8,9。不管是哪种编码,都有共同的要求,即要求各个信源符号所对应的码字各不相同,而且信源经几次扩展后所对应的序列还是各不相同的,这样才能保证唯一可译。另外,希望编出的码字中,任何一个码字都不是另外一些码字的延长,或者说任何一个码字都不是另一些码字的前缀。满足上面一些条件的码,就能保证接收端收到的码字序列是唯一可译的,而且是收到一个码字即刻就能译出的即时码。表12.3举出5种码字来说明哪些码
22、是唯一可译的,哪些码是即时码(当然也是唯一可译的),哪些码不能用。第12章信 息 论 基 础 第12章信 息 论 基 础 码字:信源符号s2,s4对应着相同的码字11。当收信者收到11时,是译成s2还是译成s4呢?显然无法实现唯一可译。码字:看起来信源符号对应着各不相同的码字,应该是唯一可译的,但是从接收到的码字序列来看,如收到0011,则很难确定把它译成s1 s1 s2还是s3 s2。因为s1 s1 s2和s3 s2所发出的符号都是0011,所以码字也不是唯一可译的。第12章信 息 论 基 础 码字、:都是唯一可译的。码字中对应信源符号的每一个码字都是由相同的符号数组成的,称为等长码。例如常
23、用的电传机用的就是等长码。码字、中的码字有的长些,有的短些,对应着信源符号的码字长短不一,称为变长码。变长码的编码问题是信源编码的中心问题,它可以获得较好的性能,但是实现设备相对复杂,所以设备要求不太复杂的等长码应用很广泛。第12章信 息 论 基 础 码字和码字都是唯一可译的变长码。它们之间是否有区别?哪一种码字更好?先看码字。这种码字在一个码字结束时总要出现一个符号0,这个符号0就好像起逗号的作用,它能把码字序列中的各个码字分开。当我们收到一个码字序列时,一出现符号0,就知道该码字已结束,下一个码字就要开始。所以,码字又称为逗点码或即时码。第12章信 息 论 基 础 再看码字。当收到这种码字
24、序列时,要判断这个码字是否结束,必须等到下一个码字的第一个符号0收到后才能决定。例如已经收到两个符号01时,我们不能够肯定该码字是否结束,必须等下一个符号到来之后再决定,如果下一个符号是1,则还不能判断011是否是码字结束,还必须再等下一个符号,如果来0符号,则说明该码字已经结束。第12章信 息 论 基 础 比较码字和码字的区别,就在于码字一见到符号0出现,就即刻判断该码字结束,并译出相应的信源符号,而码字的码字,必须等下一个码字符号出现后才能判断上一个码字是否结束,这在判断时间上要比码字慢一个符号时间,它不是即时码。码字又称延长码或续长码,它的一个码字是另一个码字的延长,例如s3(011)是
25、 s2(01)的延长;或者说,一个码字是另一个码字的前缀,例如码字s2(01)是码字s3(011)的前缀。我们希望编出的码字是唯一可译的又是即时译出的,所以主要讨论即时码或非延长码的编码方法。第12章信 息 论 基 础 12.3.2 定长码的编码定理定长码的编码定理定长码的编码在码字长度不太长的情况下,所用设备比较简单且易于实现,因此应用较多。假设信源是离散、无记忆的,其信源符号表为s1,s2,sq,如图12.3所示。第12章信 息 论 基 础 图12.3 定长码的编码第12章信 息 论 基 础 经L次扩展后的信源符号表为1,2,qL,i表示扩展信源的一个符号,其长度为L,这种符号共有qL个,
26、而构成长度为N的码字数共有DN个。我们知道,编码器的作用之一是要求信源符号和代码中的码字一一对应,这样保证每一个信源符号(哪怕这个信源符号出现的可能性很小)都对应着一个码字的输出。要满足这一关系,就应该使扩展信源符号数目小于或等于码字数,即 qLDN(12.11)或 (12.12)第12章信 息 论 基 础 式中:N/L是每个信源符号所需的码符数目;lbq是信源在等概时的熵。常用的电传打字机有26个英文字母,还有回车、换行、字母键、数符键、空格等,共有31个信源符号。假如每个信源的符号序列是长度L=1的情况,在二进制D=2时,则每个代码的码字长度NL(lb31/lb2)=14.95/15,即每
27、个码字长度为5个码符长度才能保证输入信源符号和输出码字一一对应。如果N=3,DN=23=832,则不能保证每个信源符号所对应的码字各不相同,当然不能做到唯一可译。反过来,如果N=6,26=64,则有一半的码字空着不用,而每一个信源符号对应的码字长度为6,这当然对信息传输速率有影响,因为单位时间内所传输的信息数量减少了。第12章信 息 论 基 础 再看一个汉字编码的例子。通常使用的汉字约有8103104个,代码中的码字符号表D=0,1,2,3,4,5,6,7,8,9,共10个阿拉伯数字,可以算得NL(lbq/lbD)=1(lb(8103104)/lb10)=3.94。N应取整数4,即N取4位十进
28、制的数,而每一位十进制数可用5位二进制码符构成。5位二进制码符有32种组态,而阿拉伯数字只有10个,所以我们采用的是数字被保护的5中取3码,即5个码符中有3个“1”和2个“0”,这种码具有抗干扰的能力。第12章信 息 论 基 础 上面举的例子,信源符号都是长度为1的,即L=1。下面举一个二次扩展的例子。如图12.4所示,两路移频电报采用信源符号的二次扩展。设每一路的抬键为0,按键为1,经二次扩展后的信源符号为00,01,10,11。如用二进制符号编码,则N=2,编出的码字为00,01,10,11;如用四进制符号编码,则N=1,编出的码字为0,1,2,3。假如每个符号的长度都是T秒,则四进制符号
29、所编码字的信息传输速率比二进制的大一倍。第12章信 息 论 基 础 图12.4 二次扩展示例第12章信 息 论 基 础 12.3.3 变长码的编码定理变长码的编码定理定长码中各个码字的长度是相等的,但是在各个信源符号出现的概率不等的情况下,所得到的平均每个信符所需的码长比变长码时所得到的大。如果设P(s1)=1/2,P(s2)=1/4,P(s3)=P(s4)=1/8,则编码得到的平均码长为第12章信 息 论 基 础 现采用定长码编码,因此n1=n2=n3=n4=2。由此可得,平均码长码符/信符。如果用变长码编码,设n1=1,n2=2,n3=n4=3,则平均码长为 码符/信符第12章信 息 论
30、基 础 可见,变长码编码的平均码长比定长码编码的平均码长短。为什么变长码编码可以有较短的平均码长呢?这是因为利用了信符出现概率大的用短码表示,而信符出现概率小的用长码表示的缘故,这样平均码长可以减少。变长码的各个码字的长度是不同的,如何在接收到的一串码字序列中区分出各个码字呢?当然,最简单的方法是在各码字之间加隔开的码符,但是这样无疑会增加码字的平均长度,最好用表12.3所示的非延长码(即逗点码)做码字。非延长码的特点是一个码字不是另一个码字的延长,它便于从码字序列中识别各个码字。第12章信 息 论 基 础 怎样构成非延长码呢?比较直观的方法是利用树图,如图12.5所示。假设码符数有D个,从树
31、根开始,画出D条分支,每条分支代表一个码符,分支的端点叫做节,第一节有D个端点,每个端点对应一个码符;如果端点没有被选作码字,则每个端点又可画出D条分支,每条分支又代表一个码符,这时有两条联支的(称第二节)端点数有D2个,每个端点对应两个码符,以此类推。图12.5(a)是D=2的树图,图12.5(b)是D=3的树图。为了方便,图中假设联支数为3。第12章信 息 论 基 础 图12.5 树图第12章信 息 论 基 础 怎样利用树图构成非延长码呢?在如图12.6所示的变长码和等长码中,假设有4个码字,所选码字的长度n1=1,n2=2,n3=n4=3,设码符数D=2。利用图12.5(a),选码符数为
32、1的任一端点作为码字,已选做码字的端点叫做分支的终点(表示该端点以后不能再分支);再选码符数为2的任一端点作为码字(该端点以后也不能再有分支);选码符数为3的两个端点作为其余的两个码字,如图 12.6(a)所示,其中黑点表示被选中的终点。第12章信 息 论 基 础 图12.6 变长码和等长码第12章信 息 论 基 础 如果4个码字长度相等,即n1=n2=n3=n4=2,则可以选择码符数为2的4个端点做码字,如图12.6(b)所示。图12.6中所有的终点都用做码字,称为用尽的非延长码。用树图可以判断能否构成非延长码。如果4个码字的码长n1=1,n2=n3=2,n4=3,D=2,从树图看不可能构成
33、非延长码,如图12.7(a)所示,其中码字w4是码字w3的延长。如果D=3,则能构成非延长码,如图12.7(b)所示,此时终点未用尽,为使平均码长较短,可以使n1=n2=1,n3=n4=2,如图12.7(c)所示。第12章信 息 论 基 础 图12.7 非延长码的树图判断第12章信 息 论 基 础 树图还可以用来译码。例如,收到一串码字1 0 0 1 1 0 0 1 0,从图12.6(a)的树根开始,第一个符号是1,往右走一节,第二个符号是0,往左走一节,碰到了w2,这就得到了一个码字w2;再回到树根,从头开始,第三个符号是0,往左走一节,碰到w1;继续从树根开始,凡是碰到0,往左走一节,凡是
34、碰到1,往右走一节,碰到码字再回到树根。这样就可以将1 0 0 1 1 0 0 1 0译码,得到w2 w1 w3 w1 w2。根据Kraft不等式也可以判断是否存在非延长码。该不等式是 (12.13)第12章信 息 论 基 础 式中,nk是第k个码字的长度,k=1,2,;K表示共有K个码字;D为码符数。如果D=2,n1=1,n2=n3=2,n4=3,则有=1/2+1/4+1/4+1/8=9/81,说明不能构成非延长码,如图12.7(a)所示。如果D=3,则有=1/3+1/9+1/9+1/27=16/27P(a2),所以当收到符号b2后,比较肯定发送符号为 a2。第12章信 息 论 基 础(3)
35、强干扰情况:见图12.12(c),如果干扰很严重,它的转移概率就接近等概的情况。在二进制中,设P(b1|a1)=P(b2|a2)=0.5,根据式(12.17)和式(12.19)计算得到 P(b1)=P(b2)=1/2,P(a1|b1)=1/4,P(a2|b2)=3/4。结果说明,在收到符号b1之前,符号a1所具有的不肯定程度为2 bit,而收到符号b1之后,再看符号a1所具有的不肯定程度仍然是2 bit,不肯定程度没有任何减少。这样,收到符号b1与不收到符号b1时的情况一样,得不到任何信息量,当然也就谈不上通信了。第12章信 息 论 基 础 从上面三种情况的简单讨论中可以看出,接收到符号b1,
36、而不能完全肯定发送符号a1的原因是信道中存在干扰;干扰越小,越容易肯定;干扰越大,则后验概率越接近先验概率,越不容易肯定。第12章信 息 论 基 础 12.4.2 互信息量和平均互信息量互信息量和平均互信息量 根据信息量的定义以及前面讨论的结果,可以给互信息量下一个定义:互信息量就是发送符号为ai而接收到符号为bj时所获得的信息量。它等于未发送符号之前对ai的不肯定程度减去接收到符号bj后对ai的不肯定程度,即I(ai;bj)=lbP(ai)lbP(ai/bj)=lbP(ai)+lbP(ai/bj)(12.20)符号I(ai;bj)表示发送符号为ai而收到的符号为bj时所得的互信息量,或(12
37、.21)第12章信 息 论 基 础 因为对于特定的ai和bj,所得到的互信息量是不同的,例如在弱干扰情况的例子中,有第12章信 息 论 基 础 就是说,对于同一信道干扰是一定的,然而收到符号是b1而发送符号是a1所得到的互信息量,与接收符号是b2而发送符号是a2所得到的互信息量是不同的,所以不能从得到的互信息量的大小来判断信道干扰的大小。正确的方法是取统计平均值,即得到平均互信息量。对所有发送符号为ai而收到符号为bj取平均,即 (12.22)第12章信 息 论 基 础 式中:H(A)是先验熵,表示在没有收到输出符号之前,对输入符号集A中平均每个符号的不肯定程度;H(A|bj)表示在收到某个输
38、出符号bj以后,对输入符号集A中平均每个符号的不肯定程度;H(A|B)是条件熵,表示平均收到一个输出符号后,对输入符号集A中平均每个符号的不肯定程度。第12章信 息 论 基 础 条件熵H(A|B)又称为信道的不可靠性或信道疑义度,说明收到的符号对应于真正发送符号的不可靠程度。干扰越大,则信道的不可靠性愈大。从上面的例子可以知道:无扰信道的不可靠性为零,即H(A|B)=0;强干扰信道的不可靠性等于先验熵,即H(A|B)=H(A);弱干扰信道的不可靠性介于二者之间。第12章信 息 论 基 础 平均互信息量I(A;B)有如下性质:(1)平均互信息量是一个非负的量,即I(A;B0 (12.23)这一性
39、质告诉我们:通过观察一个信道的输出,平均来说,只会得到信息,不会丢失信息。只有当输入和输出符号集A和B是统计独立时,式(12.23)等号成立,平均互信息量才为零。第12章信 息 论 基 础 (2)平均互信息量满足交换性,即I(A;B)=I(B;A)。有 I(A;B)=H(A)-H(A|B)=H(B)-H(B|A)(12.24)式(12.24)左边的等式中,可以把H(A)看成是信源发出的平均信息量,H(A|B)是信道由于存在噪声而丢失的那部分平均信息量,H(A)与H(A|B)之差就是收到B后关于信源A的平均信息量。另外,从等式右边也可以认为H(B)是接收端所接收的总的平均信息量,H(B|A)是由
40、于噪声所引引起的假平均信息量,因此,从总的平均信息量中减去假平均信息量,就得到平均信息量。第12章信 息 论 基 础 下面介绍平均互信息量I(A;B),平均信息量H(A)、H(B),条件熵H(A|B)、H(B|A)与联合熵 H(A,B)之间的关系。联合熵H(A,B)用于测度联合事件(ai,bj)所发生的平均不肯定程度,满足H(A,B)=H(A)+H(B)-I(A;B)。为了便于记忆,将上述各量的关系用如图12.13所示的文氏图表示。左边的圆代表A的熵,右边的圆代表B的熵,两圆之间的重叠区是平均互信息量。它们之间的相互关系为H(A|B)=H(A)-I(A;B);H(B|A)=H(B)-I(A;B
41、)还可从图上看出或者直接从有关等式推算出:H(A,B)=H(A)+H(B|A);H(A,B)=H(B)+H(A|B)第12章信 息 论 基 础 图 12.13 各种熵之间的文氏图第12章信 息 论 基 础 12.4.3 信道容量信道容量 从平均互信息量的表示式来看,它不仅和信道特性(条件概率)有关,而且和输入端的符号概率有关。当传输信道确定时,信道的条件概率P(b|a)一定。不同的传输信道有不同的条件概率。此外,输入端符号集的概率分布不同,平均互信息量也不同。有些书上就把离散无记忆信道容量定义为最大的平均互信息量,即bit/符号 (12.25)第12章信 息 论 基 础 式中的最大值是对所有的
42、信源符号概率求最大而言。通常还是把信道容量定义为信道传输信息的最大速率,即(12.26)式中,rS是信源送入信道的符号速率,通常是已知的。根据平均互信息量的交换性 I(A;B)=I(B;A)及I(A;B)=H(A)-H(A|B)=H(B)-H(B|A),可以计算简单信道的信道容量。下面举一个例子加以说明,如图12.14所示。第12章信 息 论 基 础 图12.14 信道容量分析第12章信 息 论 基 础 设有一个二进制对称信道BSC,输入符号a1和a2的概率分别为P(a1)=,P(a2)=1-=,输入符号的速率为rS。p为错误传递概率,=1-p为正确传递概率。第12章信 息 论 基 础 首先求
43、出平均互信息量,然后使平均互信息量对所有输入符号的概率求极大值,再乘以符号传输速率rS,就可得到信道的最大信息传输速率,即信道容量。先求平均互信息量,因为I(A;B)=H(B)-H(B|A),而第12章信 息 论 基 础 所以 (12.27)第12章信 息 论 基 础 式中,为熵函数。而 (12.28)第12章信 息 论 基 础 故(12.29)当信道一定时,p也就一定了,则I(A;B)仅和输入符号概率有关。因为在BSC中,有,所以只要将I(A;B)对微分取极值后,就可以得到最大的平均互信息量。令,解得。因为,所以=0.5时,得到I(A;B)的极大值。将=0.5代入式(12.27),得到H(B
44、)=1,由此可以得到 (12.30)式中p为错误转移概率。第12章信 息 论 基 础 由此可以得到一个重要的结论:在BSC中,当输入信源符号等概时,可以得到最大平均互信息量,即信道容量。把它推广一下,可以得出对于对称的离散无记忆信道,当输入信源符号等概时,可以得到它的信道容量;反之,如果有一个信源符号的概率等于1,则平均互信息量应该为零。当信源输入符号速率为rS(符/秒)时,则BSC的最大传输信息速率即信道容量为Ct=rS1-H(p)bit/s (12.31)第12章信 息 论 基 础 式(12.31)表示二进制对称有扰信道的极限传输能力,它是在假设输入符号等概时得到的。实际上,输入符号不一定
45、是等概的。当信道给定时,实际上得到的平均互信息量也不一定是最大的,一般比Ct小。如果信源符号概率P(ai)和信道转移概率P(bj|ai)已知,那么实际信息传输速率Rt为Rt=rSH(A)-H(A|B)bit/s (12.32)进入信道输入端的信息速率为Din=rSH(A)bit/s(12.33)下面通过一个例子来计算离散无记忆信道的容量和传输速率。第12章信 息 论 基 础 例例3 设BSC信道如图12.15所示,错误传递概率p=0.1,rS=1000符号/秒。试计算信道容量Ct和信道实际传输信息速率Rt。解解 (1)信道容量Ct。当输入符号等概时有最大的信息传输速率,这时 Ct=rS1-H(
46、p)=10001-0.468 996=531 bit/s (2)信道实际传输信息速率。Rt=rSH(A)-H(A|B)式中第12章信 息 论 基 础 图12.15 BSC信道第12章信 息 论 基 础 经计算得到H(A|B)=0.39898,所以实际信息传输速率为Rt=1000(0.8112-0.39898)=412.22 bit/s这个信息传输速率就是接收端接收的有用信息速率。由信源符号送入信道输入端的信息速率为Din=rSH(A)=10000.8112=811.2 bit/s第12章信 息 论 基 础 为了提高信息传输速率,一方面要提高消息源的熵H(A),它可以是增加信源的符号数,例如二进
47、制变成多进制,也可以利用信源编码的方法,设法使新信源的符号以等概出现,并且是相互独立的,这样做当然设备要复杂多了;另一方面是减少信道的错误转移概率,它可以是减少信道干扰,例如适当选择传输媒质、工作时机,适当选取周围电气干扰小的地点,也可以增大信号功率或者降低接收机噪声,例如增加发送功率,提高天线增益,接收机用低噪声器件,等等。假如信道的错误转移概率p从0.1减少到0.001,则信道容量Ct=990 bit/s,信息传输速率Rt=800.6 bit/s,信息速率Din=811.2 bit/s。信息传输速率与进入信道的信息速率差不多相等了,当然,这种改善的程度是要付出代价的。第12章信 息 论 基
48、 础 通信理论中有一个重要的指导性定理称为有扰信道编码定理,它指出:对于一个有扰信道,对应着一个信道容量Ct,如果信息传输速率RtCt,则不可能找到这样的编译码方式。有关资料给出了平均译码错误概率Pee-nE(Rt),其中:n为码组长度,简称码长;Rt为信息传输速率;E(Rt)为误差指数,它和Rt的关系如图12.16所示,图中画出了对应不同Ct的两条 E(Rt)Rt曲线。如果Rt0,只要n足够大,就能使Pe趋近零。如果Rt接近Ct,则E(Rt)较小,需要更长的n才能使Pe趋于0。当然码长越长,设备的复杂性大为增加,时延也长了。有扰信道编码定理只是指出以误码率接近于零的、信息传输速率接近于信道容
49、量的通信的可能性,而没有给出具体的编译码方法。到目前为止,所有的编码方法都没有达到这个理想性能,它仍有待于人们去研究。第12章信 息 论 基 础 图12.16 Ct一定时E(Rt)与Rt的关系第12章信 息 论 基 础 12.5 香农公式及其应用香农公式及其应用 上一节讨论了编码信道中传输离散信息,研究了离散无记忆信道的信道容量以及提高信道容量的途径。这一节讨论在调制信道中传输连续消息的问题。研究调制信道的信道容量,主要是研究平均信号功率受限时的信道容量,这就是著名的香农(Shamnon)公式在通信中的应用。研究方法和研究离散消息时的情况相似。第12章信 息 论 基 础 12.5.1 连续消息
50、的熵连续消息的熵 如前所述,离散消息是由有限个离散符号组成的随机序列,离散消息的信源是一个有限的符号集。连续消息是时间的连续函数,因此连续消息的信源就是这些函数的集合,称为函数集。第12章信 息 论 基 础 对于连续消息,可以采用抽样定理将一个带限为fX、持续时间为T的连续信号以抽样速率大于或等于2fX的速率进行抽样。从抽样值中完全可以还原信号,没有任何信息损失。假设抽样速率为2fX,则得到抽样的样点数有n=2fXT个。在没有量化时,每一个样点值都是连续随机变量,有无限多的取值。因此一般而言,信号样点值序列是一个n维的随机矢量,或者说信号有n个自由度,在研究信号的熵时,严格地说,应该考虑n维的