语音编码器的主要功能就是把用户语音的PCM(
脉冲编码调制)样值编码成少量的比特(帧)。这种方法使得
语音在连路产生误码、
网络抖动和突发传输时具有健壮性(Robustness)。在接收端,
语音帧先被误码为PCM语音样值,然后再转换成语音波形。
简介
在IP语音技术(VOIP)中常用的
编码解码器,它们常被称为编码解器、语音编码器或者简称为编码器。
分类
语音编码器分为三种类形:(a)波形编器;(b)
声码器;(c)混合编码器。
波形
编码器会尽可能构出包括背景噪单在内的模拟波形。由于波形
编码器作用于所有输入信号,因此会产生高质量的样值。然而,波形
编码器工作在高
比特率。例如:ITU-G.711规范(PCM)用的
比特率为64Kbps。
声码器(vocoder)不会再生原始波形。这组
编码器会提取一组
参数,这组
参数被送到接收端,用来导出
语音产生模形。
线性预测编码(LPC)用来获取一时变
数字滤波器的参数。这个
滤波器用来模拟说话人的声道输出[WEST96]。在
电话系统中使用
声码器,
语音质量不够好。在VOIP中常用的语音
编码器是混合编码器,它融入了波形编码器和声器的长处,它的另一特点是它
工作在非常低的
比特率(4-6Kbps)。混合编码器采用合成分析(AbS)。
线性预测合成分析
最常用的比特率在4.8kbps~16 kbps之间的语音编码器是基于模型编码器的,这些编码器都是线性预测合成分析(LPAS)方法。为了随着时间的变化模拟语音信号,线性预测语音产生模型必须用适当的信号来激励。每隔一段固定时间(如每隔20ms),语音模型参数和激励参数都必须做一次估计和更新,并用来控制语音模型。
压缩质量
有损编解码
在软件界有许多相对更加流行的编解码器是有损的,意味着它们压缩过程牺牲了一定的质量。通常这种压缩实际上同未被压缩的声音或图像没区别。更小的数据集缓解了相对高昂的存储器。较低的数据率也降低了花销并在数据传输过程中提升了品质。
无损编解码
也有许多的无损压缩,特别应用于在需要原始流中所有信息时压缩模式下获取数据。如果保留数据流的原始品质比削减相应的更大数据更加重要,那么无损压缩更佳。连续使用多种编解码器或者编码体系也会显著的降低质量。不断下降的存储空间开销和网络带宽正使得有损压缩的需求下降。
评价
评估编码器的性能时要考虑几个重要因素。这些因素如下提示:
帧大小:帧的大小表示语音流量的时间长度,也称为帧时延。 帧是语音信号的分立部件,且每帧是根据语音样点更新的。本 介绍的编码器都是一次处理一帧。每帧信息各放在各语音分组 中,并传送给接收端。
处理时延:它表示在编码器中对一帧语音做编码算法处理所 需时间。它通常简单计入帧时延。处理时延好称为算法时延。
前视时延:编码器为了对当前帧的编码提供帮助而检查下一 帧的一定长度,此长度就称为前视时延。前视的想法是为了利 用相邻语音帧之间的密切相关性。 帧长度:这个值表示经编码处理后的字节数(不包括帧头)。
语音比特率:当编码器的输入是标准
脉冲编码调制的语音 码流(比特率为64 kbit/s)时,编解码器的输出速率。