剩余度
多余度
一个信源输出的符号前后有相关性时,信号输出的熵将减少,这就是一种形式的剩余。
熵的简介
熵(entropy)指的是体系的混乱的程度,它在控制论概率论数论天体物理生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。熵由鲁道夫·克劳修斯(Rudolf Clausius)提出,并应用在热力学中。后来在,克劳德·艾尔伍德·香农(Claude Elwood Shannon)第一次将熵的概念引入到信息论中来。 在信息论中,熵表示的是不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。
熵在信息论中的定义如下:
如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息为
Ie = − log2pi
(对数以2为底,单位是位元(bit))
Ie = − lnpi
(对数以e为底,单位是纳特/nats)
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为
而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为
整个系统的平均消息量为
这个平均消息量就是消息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。
如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。
实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。
I(A)度量事件A发生所提供的信息量,称之为事件A的自信息,P(A)为事件A发生的概率。如果一个随机试验有N个可能的结果或一个随机消息有N个可能值,若它们出现的概率分别为p1,p2,…,pN,则这些事件的自信息的平均值:[H=-SUM(pi*log(pi)),i=1,2…N]称为熵。
如英语有26个字母……(如上所述不再重复)
而汉字常用的有2500个……(如上所述不再重复)
整个系统的平均消息量为
H_s = sum_(i=1^n)p_i
I_e = -sum_(i=1^n) p_i * log_2 p_i
熵的特点:
(1)熵是体系的状态函数,其值与达到状态的过程无关;
(2)熵的定义式是:dS=dQ/T,因此计算某一过程的熵变时,必须用与这个过程的始态和终态相同的过程的热效应dQ来计算。(注:如果这里dQ写为dQR则表示可逆过程热效应,R为reversible;dQ写为dQI为不可逆过程的热效应,I为Irreversible。)
(3)TdS的量纲是能量,而T是强度性质,因此S是广度性质。计算时,必须考虑体系的质量;
(4)同状态函数U和H一样,一般只计算熵的变化。
相对熵
概率论信息论中,KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy)分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。一个实际信源输出的熵H(x)与其最大可能的熵Hmax(x)的比值定义为相对熵;
相对熵=H(x)/Hmax(x)
1与相对熵之差定义为剩余度,用E表示
E=剩余度=1-[H(x)/Hmax(x)]。
剩余度举例
以英文文本的信源为例,它由26个字母和一个空档组成27种符号的集合,它的最大符号熵H0=log227=4.76bit。再用统计逼近方法估算出无限记忆条件下符号极限熵
H∞≈1.4bit。
因此信源剩余
这可简单理解为若有100页英文书,其中71页是多余成分。即从理论上看,仅需传送29页即可。
对于中文的汉字文本,按二级汉字计,H0=log26724≈13bit,汉字的极限熵
H∞≈4.1bit
则剩余度
参考资料
最新修订时间:2023-12-24 20:03
目录
概述
熵的简介
参考资料