语音增强是指当语音信号被各种各样的
噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
定义
语音编码和语音识别研究常常是在实验室条件下进行的,也就是在信噪比很高或无噪声的环境中进行的。因此当语音处理从实验室走向实际应用时,由于实际环境噪声与干扰的存在,会使许多方法无法使用,性能急速下降。因此研究对受噪降质语音改善其听觉效果或提髙信噪比的处理,是面临的必须解决的实际问题。
实际语音遇到的干扰可以分以下几类:①周期性噪声,例如电气干扰,发动机旋转部分引起的干扰等,这类干扰表现为一些离散的窄频峰;②冲激噪声,例如-些电火花、放电产生的噪声干扰;③宽带噪声,这是指高斯噪声或白噪声一类的噪声,它们的特点是频带宽,几乎覆盖整个语音频带;④语音干扰,例如话筒中拾入其它人的说话,或者传输时遇到串音引起的语音。对付上述各种不同类型的噪声,增强技术亦是不一样的。
周期性噪声可以用滤波方法滤除,而设计的滤波器,在滤除干扰的同时应不产生影响语音可懂度的副作用。一般可以采用固定滤波器、自适应滤波器和傅里叶变换滤波器等。冲激噪声可以通过相邻的样本值,采取内插方法将其除去,或者利用非线性滤波器滤除。宽带噪声是难以消除的一种干扰,因为它与语音具有相同的频带,在消除噪声的同时将影响语音的质量,现在常用的方法有减谱法、自相关相减法、最大似然估计法、自适应抵消法,以及其它一些自适应技术。此外还可以利用一些试验性能改善听觉效果的经验方法,这些方法是基于听觉感知器官的某些特性来增强语音的。但是对于这类噪声,尽管使用了很复杂的处理技术,改善的听觉效果却是有限的,只是不再十分吵人而已。语音噪声的消除,也是很困难的,一般是利用不同说话人有不同基音频率的特点,采用自适应技术跟踪某说话人的基音,形成梳状滤波器,这种方法对元音语音处理是显著的,但是这是一件很费时的处理过程。
语音增强应用范围很广,对于处于特殊环境的语音系统,一般都要在不同程度上采取一些增强措施。例如直升机机舱内的通信语音处理、舰艇机舱内的通话系统等都需要用语音增强技术。
意义
1. 日常生活中,经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话,旁人的喧闹声,马路旁和市场里的公用电话等。
2.
军事通信中,指挥员的作战命令和战斗员的战情汇报都需要用语音来表达,由于战斗环境中的声环境恶劣,特别是炸弹产生的冲击性噪声,使有用信号完全淹没在噪声中。
(3)窃听技术中需要语音增强。
(4)语音识别技术需要语音增强。
在实际生活中,语音信号无时无地不受各种噪声干扰。人们正常的生活环境就是一个声级为60dB左右的噪声环境。被强噪声污染的场合,噪声达120dB以上。
目的
语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪音,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是,这是一种客观度量。这两个目的往往不能兼得。目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著地降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下降。
方法分类
常用的语音增强算法分为如下几类:基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。这里只是介绍一下各种语音增强方法流程,待确定方向之后再深入研究。
语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学范畴。再者,噪声的来源众多,因应用场合而异,它们的特性也各不相同。所以必须针对不同噪声,采用不同的语音增强对策。某些语音增强算法在实际应用中己经证明是有效的,它们大体上可分为四类:噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。