基于HMM/BP语音识别系统的研究与实现
【摘要】:随着现代计算机技术的发展,人与计算机之间交流的界面早已不局限于鼠标和键盘。越来越多的新的交流手段被引入到计算机中来,而语音数字处理和语音识别技术的进展使语音逐渐成为了一种有效的计算机输入手段。
语音识别技术关系到多学科的研究领域,包括声学,语言学,数字信号处理,计算机科学,人工神经网络等不同领域上的研究成果都对语音识别的发展作出了贡献。语音信号本身的特点造成了语音识别的困难,这些特点包括多变性、动态性、瞬时性和连续性等。计算机对语音识别的过程和人对语音的识别过程基本上一致。目前主流的语音识别技术是基于统计模式识别的基本理论。
本文介绍了语音识别的基本概念、孤立词语音识别的一般方法和特点,分别从时域和频域两个方面对语音信号特征参数LPCC 和MFCC 的提取进行了分析,通过分析端点检测对语音识别系统的影响,并结合提高语音识别系统稳健性的方案,对传统的端点检测方法做了小的改进,采用动态窗长端点检测方法提高语音识别系统稳健性。同时从HMM 模型三个基本问题(评估问题、解码问题、训练问题)着手详细分析其作为当前语音识别主流模型的基本原理,并对在语音识别中的应用进行了分析。将最大似然聚类应用于模板训练过程,以加快HMM 参数优化速度并做了相应的改进。
本文以Java 语言实现了一个小词汇量,孤立词的跨平台语音识别系统。此系统实现了语音特征参数的提取,语音模型参数的训练以及对录入的语音进行识别等基本功能。该文在采用MFCC 为特征参数,隐马尔可夫模型(HMM)为基本语音模型的基础上,用JOONE 神经网络开发工具引入BP 神经网络进行二次识别,有效的利用了隐Markov模型的强时序信号处理能力和BP 神经网络的强模式分类和泛化性能,改善了孤立词识别系统的抗噪性能。同时对维吾尔语的语音识别系统的建立进行了研究。