语音识别是人机交互的一项关键技术,在过去的几十年里取得了飞速的进展。传统的声学建模方式基于隐马尔科夫框架,采用混合高斯模型( Gaussian mixturemodel,GMM) 来描述语音声学特征的概率分布.由于隐马尔科夫模型属于典型的浅层学习结构,仅含单个将原始输入信号转换到特定问题空间特征的简单结构,在海量数据下其性能受到限制。
连续语音识别,是指针对连续音频流(即来自说话人直接录入的语音,或者电话或其他音视频领域的音频信号)进行识别,将音频信息自动转化成文字。在输入的声音中,检测出可靠的语音,排除静音、背景噪声、音乐等,判断男女,实时送入语音识别解码器进行识别。
隐马尔科夫模型是一种统计模型,它用来描述 1 个含有隐含未知参数的马尔科夫过程,广泛运用于语音识别中。1系统首先由大量的文字生成语音模型,然后提取声学特征,经过 Viterbi解码得到识别结果。
卷积神经网络通过卷积器对局部特征进行分析,通过聚合层加强抽取出来的特征鲁棒性,最后通过全网络层建立模型得到最后的分类结果。卷积神经网络通过卷积层对局部特征进行观察,再经过全网络层的信息整合最终得到输出概率,相比深层神经网络具有更好的物理意义。