收藏本站
《电子科技大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语音识别基元声学整体结构特征的识别模型研究

贺苏宁  
【摘要】:语音识别的研究目标是实现“语音-文字”的正确转换。基于Bayes原理的语音识别模型涉及声学层和语言层知识的适当表示和运用。多年的研究表明,根据具体研究对象的特点确定识别基元、进行准确的端点检测、提取能够更多的表现不同识别基元相互之间声学差异、对多种干扰因素有较强免疫力的特征参数、在此基础上建立具有最小重叠空间分布的识别模型对于提高语音识别率具有重要的意义。本文主要致力于自然和电话语音的端点检测、汉语音节整体结构声学识别模型的构造、低信噪比下稳健的英语数字识别模型设计与性能分析,并通过反复的实验证明新的算法和模型是可行有效的,部分研究成果已经用于设备型号研制。 本文主要包括以下创新之处: (1)针对高信噪比汉语连续语音端点模糊问题,提出了基于汉字音节短时峰谷点能量的端点检测算法。该算法简单易用,检测准确度高。实验数据显示汉语音节端点的检测率达到96%以上。 (2)在分析了汉语连续语音的协同发音产生的弱化发音现象和时域端点检测算法的缺陷之后,设计了基于多子带谱特征的汉语端点检测算法。该算法利用语谱带上的分层信息精确捕捉相邻汉字音节的局部跳变时间点,可以检测到一般的检测算法极易疏漏的弱化音节的端点。该算法的平均检测率大于97%。 (3)根据电话信道数字语音信噪比低和噪音特性随机多变的特点,设计了适合窄带电话的帧时域能量与主频带能量(300~1500Hz)的混合脉冲检测模式,通过对脉冲序列的整形、滤除合并、位置微调确定数字端点。该算法突出的优点是适应的信噪比动态范围较宽,即使信噪比只有3.5dB,也能准确地检测到边缘时间点。 (4)在深入分析DTW和HMM模型的基础上,结合汉语语音结构特点,设计了一种新的基于汉字音节整体MFCC向量模型。该模型能够根据各个音节的持续时间动态地调整帧长,更加完整地表现了语音时频信息的演化过程。在同样的测试条件下,固定帧数比固定帧长的识别率提高3.0%以上。文中还分析了几个主要影响汉语识别率的参数:滤波器组数、语音帧数、MFCC向量维数、距离加权系数、中值滤波器阶数、输入滤波器带宽等,这些参数恰当地设置对于识别率有积
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TN912.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 鞠时光;;GKS国际标准简介[J];计算机应用与软件;1988年01期
2 任先大;;严羽兴趣说新探[J];湖南大众传媒职业技术学院学报;2006年03期
3 孙健;王作英;;基于DDBHMM的LVCSR系统的单步搜索算法[J];清华大学学报(自然科学版);2006年10期
4 叶千军;;主题、概念、语词用作检索标志时的差别[J];图书馆理论与实践;1987年03期
5 王楠;欧阳丹彤;孙善武;;基于本体的分层抽象模型[J];计算机科学;2011年02期
6 钱锋;孟晨;朱俊;;基于STD标准的信号构建方法研究[J];仪表技术;2008年09期
7 卢胜军;真溱;;本体匹配基本理论框架研究[J];现代图书情报技术;2007年11期
8 张敏霞;;图书馆知识转移模式分析[J];图书馆;2008年01期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 袁舍利;;阿凡提形象与有传统幽默性格的维吾尔族人[A];西域文学论集[C];1997年
中国重要报纸全文数据库 前1条
1 微软亚洲研究院副院长 张峥;你好,HAL[N];中国经营报;2010年
中国博士学位论文全文数据库 前1条
1 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前4条
1 张宝奇;基于切分的汉语连续语音识别技术研究[D];解放军信息工程大学;2010年
2 葛慧敏;罗兰·巴特叙事观念的转变及意义[D];复旦大学;2011年
3 孟坤;平面设计中诗性思维的研究[D];西安美术学院;2011年
4 欧阳军辉;高中古代散文教学初探[D];华中师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026