语言声学是指研究语言的形、声、意的关系和应用的一门声学分支学科。研究范围包括语音的发音过程和机理、语言的物理性质、语言的感知、语言的处理、语音通信的质量和效率以及特殊条件下的语言通信等问题。此外它还研究机器自动识别和理解语言及语言和文字的相互转换等问题。
由来
语言是既具有自然属性又具有社会属性的复杂的信号系统。声学方法不但直接用于研究语言信号的声学特性本身,而且用于研究语言的心理特性和生理特性。语言分析、合成和感知是语言声学研究的主要方法。在研究语言时,声学特性是主要的;在研究音节时,便要考虑到音节结构;而在研究词句时,则又需要考虑语法和语意。因此,在语言声学研究中,还涉及到语言学和信息论。
历史发展
早在一二千年以前,人们便对语言进行了研究。由于没有适当的仪器设备,长期以来,一直是由耳倾听和用口模仿来进行研究。因此,这种语言研究常被称为“口耳之学”,所以对语声只是停留在定性的描写上。
19世纪60年代,亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言声学的基础;1876年电话的发明,以及电话通信的飞速发展,促进了语言信号的声学特性及其与语言感知的关系的研究。电子技术的发展,为语声的定量研究,提供了有力的手段。
20世纪40年代,一种语言声学的专用仪器——语图仪问世了。它可以把语声的声学特征用语图表示出来,从而得出了“可见语言”。这对语言声学的发展作出了重要贡献。50年代对语言产生的声学理论开始有了系统的论述,到了60年代语言声学研究得到了计算技术的帮助,使得过去受人力、时间限制的大量的话声统计分析工作,得以在电子计算机上进行。在此基础上,语言声学不论在基础研究方面,还是在技术应用方面,都取得了突破性的进展。
语图仪
40年代出现的语图仪,可以把可听的语言描绘成可见图样——语图。这便是所谓“可见语言”。语图能表现语声的三维特性,横轴代表时间,纵轴代表频率,而饱和度代表强弱。语言频谱显示设备可以在一个电视屏幕上把说的话用语图的形式显示出来。此外,还发展了许多用于语言分析的专用软件,以便于利用计算机进行语言分析。
用人工模拟语言产生的过程,以合成出语言来,供直接应用或进行研究。当初是用机械的方法来模拟人讲话。在18世纪便做出了可以产生连续语言的机器。一直到20世纪30年代还在研制结构更为复杂的机械发声装置。它们所发出的语声的音质都很不好。
1939年出现了所谓语言合成仪。它是用电子线路来模拟发声器官的动作。其工作方式很像电子琴。一个受过训练的人,可以用它“演奏”出可以听懂的语言。另一种语言合成方法称为语图还音。把语图用墨线画在透明胶带上,再用一个音轮调制线光源来照射走动的胶带。根据胶带透射过去的光通量的变化放出语声来。由于在绘制语图时改动方便,所以语图还音装置曾在语言合成中起过重要作用。
20世纪50年代采用传输线来模拟声道。既能整体模拟,又可以分段模拟。由一个适当电源激励,经过放大器与扬声器,便能发出语声来。改变传输线参量,就可以发出不同的语声。,利用电子计算机、根据语言产生的原理、把它写成一些发声规则和参量,再将其组合成语言。
自动语言识别的实现,面对着三个重大的语言声学基础课题:首先,语言知觉的基本单位是什么,是音素、音节还是单词;其次,是否存在音素的心理常量,如果有,它是什么;最后,如何对连续语言进行分段。有限的词汇、在一定条件中适用的自动语言识别装置,已进入了实际应用。适用于大多数发话人的、不怕环境噪声干扰与无限词汇的自动语言识别系统还有待于大量的基础研究。
产生
主要研究发声器官产生语声的声学过程及声学特性。根据声学观点,语言的产生可分成三个部分:声源激励、声道调制和声波辐射。其中决定语声性质的是声源激励和声道调制。语言产生的研究内容包括:激励声源的特性、发声器官的工作状态和声道的声学性质等。所采用的研究方法,大多是用电-力-声类比的方法,以建立声带波产生的模型、声道模型和语言产生的参量模型。
在声学理论的指导下,自50年代以后,对语声描写从定性走向定量。实验表明,由声道形状决定的共振峰,是主要的信息要素。从语声中准确地分离出声源特性和声道调制特性来,还存在许多困难。为研究语言的产生,除对语声的物理特性进行研究之外,还对发声生理进行研究,如利用肌电图配合声学测量,来研究发声器官的肌肉活动(见生理声学)。
语言分析
是用分析的方法来研究语言的自然特性。主要内容是:分析语声的时间特性和波长特性,以及发声器官的发声分析。在说话时,语声是处在语流之中的。 从一个短暂的时间窗口去观察语声的声学特性,便是短时频谱分析,而长时平均频谱则表示语言的统计平均特性。共振峰分析,是根据语音的频谱和语言产生的原理,推算出声道的共振波长。基波分析,是从语言波中提取出基本波长,其方法既可以是测量基波本身,也可以是利用谐波来求出基波。基波随时间的变化方式,构成了声调和语调,它们是重要的语声特征。在专用的语言分析设备问世以前,曾采用浪纹计和示波器分析语言波形,以后又使用滤波器组或波长分析仪。但是,对于大量的多变的语声来说,这些分析方法都有很大的局限性。因此,对语言特性的认识也受到一定的限制。40年代出现的语图仪,可以把可听的语言描绘成可见的图样──语图。这便是所谓“可见语言”(见彩图)。
语图能表现语声的三维特性,横轴代表的时间,纵轴代表的频率,而饱和度代表的强弱。而语言频谱显示设备可以在一个电视屏幕上把说的话用语图的形式显示出来。此外,还发展许多用于语言分析的专用软件,以便用计算机进行语言分析。
语言合成
用人工模拟语言产生的过程,以合成出语言来,供直接应或进行研究。最初是用机械的方法来模拟人讲话。在18世纪便做出了可以产生连续语言的机器。一直到20世纪30年代还在研制结构更为复杂的机械发声装置。它们所发出的语声的音质都很不好。1939年出现了所谓语言合成仪(voder)。它是用电子线路来模拟发声器官的动作。其工作方式很像电子琴。一个受过训练的人,可以用它“演奏”出可以听懂的语言。另一种语言合成方法称为语图还音。把语图用墨线画在透明胶带上,再用一个音轮调制线光源来照射走动的胶带。根据胶带透射过去的光通量的变化放出语声来。由于在绘制语图时改动方便,所以语图还音装置曾在语言合成中起过重要作用。20世纪50年代开始采用传输线来模拟声道。既可以整体模拟,也可以分段模拟。由一个适当的电源激励,经过放大器和扬声器,便可发出语声来。改变传输线的参量,便可以发出不同的语声。利用电子计算机,根据语言产生的原理,把它写成一些发声规则和参量,再将其组合成语言。这种按规则的语言合成,已做出了由文字合成语言的系统。使用者按键输入文字,机器便发出比较自然的语言。合成具有个人特征的语言还在研究中。语言合成技术已经用在或准备用在下述方面:自动应答装置、股票报价、查询电话号码、货物清单报告等。此外,语言合成还可以用来检验分析所得到的参量,哪些参量比较重要、参量变化了会有什么影响。
语言识别
是根据语言信号的声学待征,有时加上语言的结构规则和语意线索,由机器认出输入的语言来。可以根据使用要求,由机器以不同的方式作出响应,如打印出与该语声相应的文字、符号,完成规定的动作等。它分为孤立单词自动识别和连续语言自动识别。自20世纪50年代开始系统而广泛的研究。对单个人小量词汇(例如200个词)的自动识别已取得了较大的进展;但是,很快便在更换发话人和扩大词汇容量方面遇到了困难。自动语言识别的实现,面对着三个重大的语言声学基础课题:①语言知觉的基本单位是什么,是音素、音节还是单词;②是否存在音素的心理常量,如果有,它是什么;③如何对连续语言进行分段。经过一个低潮以后,由于计算技术,特别是语言声学基础研究和信号处理技术的发展,到了70年代自动语言识别又获得了新的进展,并开始进入了一个更高的发展阶段──连续语言自动识别。,有限词汇的、在一定条件下适用的自动语言识别装置,已进入实际应用。可以接受口令输入的电子计算机,正在研究发展中。适用于多数发话人的、不怕环境噪声干扰的和无限词汇的自动语言识别系统还有待于大量的基础研究。
也称为发话人鉴别,它包括两个方面:发话人鉴定和发话人辨别。发话人鉴定是根据发话人已存贮的嗓音(口声)材料与发话人现时提供的材料相比较,鉴定是不是发话人本人在说话。这可用于银行业务中,存款人用嗓音代替印鉴,以便于通过电话来办理存取手续。发话人辨别是从大量的已存的嗓音样本中,辨别出哪一个与发话人的嗓音最相似或者与它们都不相似。与自动语言识别不同,嗓音鉴别在于利用语声当中代表发话人个性特征的部分,而自动语言识别则是利用不同发话人或同一发话人在不同时刻发同一语声时的共性特征。嗓音鉴别多采用听音—看图法,即由有训练的专业人员审听嗓音材料、检视语图特征,以作出判断,借助电子计算机进行自动嗓音鉴别也正在发展中。嗓音鉴别已在法律程序中作为一种证据使用。
声码器
是一种自动分析—合成电话系统。它在发送端把语言信号加以分析,提取出负载信息的诸参量加以编码传送,在接收端经解码后,再用这些参量去调制本地激励源,合成出原发送的语言信号。这种方法不但可以大量压缩语言信号在传递过程中占有的信号容量,还可以赋予语言通信保密能力。
2400b/s(比特/秒)的声码器已被普遍应用,数码率更低(到800b/s)的已有发展。声码器是H.达德利在1939年发明的。由于语音质量较差、体积庞大、造价高昂,以致很长时间未能获得广泛应用。应用
大规模集成电路做成的声码器,已可随身携带,其音质与普通电话相仿。因而不只可用于政府首脑通信和军事通信,而开始进入商用通信。根据工作原理,声码器分为:通道声码器、半声码器(语声激励声码器)、相关声码器、谐和声码器、共振峰声码器、线性预测声码器和同态声码器等多种,发展较多的是通道声码器和线性预测声码器。用声码器来压缩语言信号的数码率,是实现人—机对话的重要手段。一个中国设计的通道声码器的方框图示于上图。