在信息论中,信息冗余是传输消息所用
数据位的数目与消息中所包含的实际信息的数据位的数目的差值。
数据压缩是一种用来消除不需要的冗余的方法,
校验和是在经过有限信道容量的噪声信道中通信,为了进行错误校正而增加冗余的方法。
在信息论中经常提及一种语言的“熵率”或者“
信息熵”。当信源是英文散文时这是正确的。由于无记忆信源的消息之间没有相互依赖性,所以无记忆信源的信息率为 。
即是消息空间基数的
对数值。这个公式也称作Hartley函数。这是传送用这个字母表表示的信息的最大信息率。其中对数要根据所用的测量单位选择合适的
底数。
当且仅当信源是无记忆的且均匀分布的时候,绝对信息率等于信息率。
称为相对信息冗余,它表示了最大的数据压缩率,这个压缩率用文件大小减小比例所表示。当用原始文件与压缩后的文件表示的时候, 表示能够得到的最大压缩率。与相对信息冗余互补的是效率 ,于是 。均匀分布的无记忆信源的冗余为0,效率为100%,因此无法压缩。
压缩数据的冗余是指 n}个消息的
期望压缩数据长度为(或期望数据熵率 )与熵值 (或熵率)的差。(这里我们假设数据是遍历的也是平稳的,例如无记忆信源。)虽然熵率之差 会随着 增加而任意小,实际的差 已不能(尽管理论上可以)在有限熵的无记忆信源情况下上界为 1。