连续语音识别
计算机科学术语
连续语音识别,是指针对连续音频流(即来自说话人直接录入的语音,或者电话或其他音视频领域的音频信号)进行识别,将音频信息自动转化成文字。
介绍
语音识别是人机交互的一项关键技术,在过去的几十年里取得了飞速的进展。传统的声学建模方式基于隐马尔科夫框架,采用混合高斯模型( Gaussian mixturemodel,GMM) 来描述语音声学特征的概率分布.由于隐马尔科夫模型属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,在海量数据下其性能受到限制。
连续语音识别,是指针对连续音频流(即来自说话人直接录入的语音,或者电话或其他音视频领域的音频信号)进行识别,将音频信息自动转化成文字。在输入的声音中,检测出可靠的语音,排除静音、背景噪声、音乐等,判断男女,实时送入语音识别解码器进行识别。
方法
1、隐式马尔科夫模型
隐马尔科夫模型是一种统计模型,它用来描述 1 个含有隐含未知参数的马尔科夫过程,广泛运用于语音识别中。1系统首先由大量的文字生成语音模型,然后提取声学特征,经过 Viterbi解码得到识别结果。
2、基于卷积神经网络的方法
卷积神经网络通过卷积器对局部特征进行分析,通过聚合层加强抽取出来的特征鲁棒性,最后通过全网络层建立模型得到最后的分类结果。卷积神经网络通过卷积层对局部特征进行观察,再经过全网络层的信息整合最终得到输出概率,相比深层神经网络具有更好的物理意义。
应用
1、在安全领域,相关部门结合相关业务提出了相应的需求;在教育领域,大人群的普通话水平测试与口语评估迫切需要客观的、自动的评估技术;
2、在电信领域,国内外语音识别技术和部门进入了中国市场;
3、在手机、汽车导航等嵌入式市场,对语音识别技术需求也日益增长;
4、在人机交互领域,语音伴侣、移动终端的语音搜索等得到广泛的应用。
因此,语音识别技术作为非常重要的人机交互的技术,有着非常广阔的前景。
最新修订时间:2022-08-25 12:48
目录
概述
介绍
方法
参考资料