语音识别系统
一种将人类语音转换为文本或命令的技术
语音识别系统(Speech Recognition System),是一种将人类语音转换为文本或命令的技术。
发展历史
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术还无法支持不限领域,不限说话人的听写机应用。
应用领域
电话语音拨号
特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
汽车语音控制
由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。
工业与医疗领域
当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。
个人数字助理
个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。
智能玩具
通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于降低语音芯片的价格。
家电遥控
用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控起来,这样,可以让令人头疼的各种电器的操作变得简单易行。
除了上文中所提到的应用以外,语音识别专用芯片在其他方面的应用可以说是不胜枚举。随着语音识别专用芯片的技术不断提高,将给人们带来极大的方便。
功能特点
对比语音识别技术的两个发展方向,由于基于不同的运算平台,因此具有不同的特点。大词汇量连续语音识别系统一般都是基于PC机平台,而语音识别专用芯片的中心运算处理器则只是一片低功耗、低价位的智能芯片,与一台甚至多台PC机相比起来,其运算速度,存储容量都非常有限,因而这些由专用芯片实现的语音识别系统有如下几个特点:
1、多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才有连续数码或连续字母语音识别专用芯片实现。
2、一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习而直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。
3、由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。
4、多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。
5、除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。
参考资料
最新修订时间:2024-12-03 16:13
目录
概述
发展历史
参考资料