LPCM,即线性
脉冲编码调制,是一种非压缩
音频数字化技术,是一种未压缩的原音重现,在普通CD、
DVD及其他各种要求最高音频质量的场合中已经得到广泛的应用。
音频数字化主要有压缩与非压缩两种方式。较早出现的数字音频播放机,如CD唱机和DAT
录音机,均采用线性PCM编码来存储音乐信号,为非压缩方式。在高质量要求的音频工作站和数字录像机(如
DVCPRO)上,也采用非压缩的格式。
常见的
MPEG、Dolby Digital、DTS等则为压缩方式。压缩分为
有损压缩和
无损压缩。有损压缩的目的是提高
压缩率,降低占用系统资源。可以根据实际需要选用不同的采样速率、样本分辨力精度和
数据率。
如今
杜比数字作为由FCC为
美国选定的ATSC数字电视标准的一部分,为
高清晰度电视HDTV和标准清晰度电视SDTV广播的标准。MPEG为欧洲数字视频广播DVB、数字
音频广播
DAB和日本广播电视业的音频标准。DVD则支持3种主要标准:Dolby digital(杜比数字)、
MPEG-2和线性PCM(LPCM)。其他格式,如DTS(Digital Theatre Sound)、SDDS(Sony Dynamic Digital Sound)等为任选格式。
声音重放技术的发展路程,是沿着单声(Monophonic)、双声道立体声(Stereophonic)到4通道立体声,再到
环绕立体声(Stereo surround),一般为5.1模式。其根本目的,就是更逼真地再现原声场。本国电视大量采用的单声道已远远跟不上人们生活的需要。如何以量低的数据率,最有效地传送多声道、高质量的声音,是数字化的发展方向。所谓5.1模式,即录制、解码和放声中采用5个声道:左L、中C、右R、左环绕LS、右环绕RS,再加上一个低频效果通道(LFE),就可以达到真正的立体
环绕声效果——宽阔的场景深度感和总体真实感。5.1模式为
ATSC和
DVB的标准声道。
声音之所以能够数字化,是因为人耳所能听到的声
音频率不是无限宽的,主要在20kHz以下。按照
抽样定理,只有抽样频率大于40kHz,才能无失真地重建原始声音。如CD采用44.1kHz的抽样频率,其他则主要采用48kHz或96kHz。
PCM(
脉冲编码调制)是一种将模拟语音
信号变换为数字信号的
编码方式。主要经过3个过程:抽样、量化和编码。抽样过程将连续时间
模拟信号变为离散时间、连续幅度的抽样信号,量化过程将抽样信号变为离散时间、离散幅度的数字信号,编码过程将量化后的信号编码成为一个二进制码组输出。
量化分为线性量化和非线性量化。线性量化在整个量化范围内,量化间隔均相等。非线性量化采用不等的量化间隔。量化间隔数由编码的
二进制位数决定。例如,CD采用16bit线性量化,则量化间隔数L=65536。位数n越多,精度越高,
信噪比SNR=6.02n+1.76(dB)也越高。但编码的二进制位数不是无限制的,需要根据所需的
数据率确定。比如:CD可以达到的数据率为2×44.1×16=1411.2Kbit/s。
常用的编码码组有3种:自然二进制码组NBC、
折叠二进制码组FBC、格雷二进制码组RBC。国际PCM标准主要使用FBC。
PCM虽然为
无损压缩,但由典型的
音频信号表示的信号特性没有达到最佳,也没有很好的适应人耳听觉系统的特定要求。PCM的数据量过高,从而造成存储和传输方面的障碍,因此必须使用相应的技术降低数字信号源的
数据率,又尽可能不对节目造成损伤,这就是
压缩技术。
人耳的听觉心理有两个特性:频率掩蔽和时间掩蔽特性。人耳在安静的环境中有一个静听阈(门限),即对应于人耳能听到的频率范围能被感觉到的最低声音强度。频率掩蔽,即当一个单音单元出现时,产生一个新的
听阈曲线(同听阈),在此频率附近的频段内,门限均有不同程度的提高,以中心频率为最高。时间掩蔽,即当一个强信号出现时,其前后一段时间内,业已存在的弱音可以被掩蔽不被听见。在听阈以下的
音频信号不需要编码。