收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

连续语音识别中声学模型的建立

谢磊  
【摘要】: 语音识别是近年来高速发展的一项技术。让计算机听懂人说话,甚至和人进行交流是我们梦寐以求的梦想。在不久的将来,这个梦想会变成现实。现今语音识别的研究工作大多集中在连续语音识别的范畴。本文的工作是中国和比利时的科技合作项目“现实世界的机器视觉和语音技术”的一部分。首要工作是建立一个用语音识别结果驱动的三维人脸(TalkingHead)。本人的主要工作是为连续语音识别系统建立声学模型。 本文首先介绍了在语音识别建模中广泛应用的隐马尔可夫模型的基础理论。同时,为了将该模型引入语音识别的实际应用,需要讨论三个主要问题。本文较为详细的分析了这三个核心问题。而后介绍了连续密度隐马尔可夫模型的原理和隐马尔可夫模型的种类。 接着在隐马尔可夫模型理论的基础上,阐述了本文所建立的连续语音识别系统的基本框架和组成部分,包括语音声学分析、HMM模型的建立以及识别器的设计。详细探讨了声学HMM模型的建立过程,包括基本建模单元的选择、英语基本音素集合和HMM模型的训练。嵌入式训练算法是这部分的重点。 在基本HMM模型建立之后,考虑对模型进行改进和优化。首先提出了一种上下文相关模型-三音素模型,然后对这种模型进行优化。例如:增加高斯混合分量,模型状态的捆绑等。以决策树为基础的自顶向下的模型状态捆绑策略是本文的重点。这种方法使用声学-语言学问题对模型状态进行分类,最终达到参数的捆绑或共享。 本文的最后部分是识别实验和结论部分。比较上述改进和优化方法的识别率的影响。实验表明,考虑上下文的模型可以较大程度的提高系统性能;决策树参数捆绑策略可以达到训练数据和模型精确度之间的一种动态平衡。最后对下一步的工作进行了展望。 本文的大部分工作是本人在比利时布鲁塞尔自由大学电子与信息处理系(ETRO,VUB)完成的。


知网文化
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978