收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于混淆网络的汉语语音检索技术研究

黄湘松  
【摘要】:随着互联网和多媒体技术的快速发展,每天都会涌现海量的音频文件,如何对这些语音文档进行有效地检索和分类成为信息处理领域中的一个热点问题。目前语音检索技术的研究主要是基于统计模式识别的基础理论,对连续语音信号的处理从声学层和语言层两个方面进行考虑。网格技术作为一种新兴的信息检索技术,其结构恰好能够描述这两方面的内容。它是以文本的形式把检索过程中得到的多个候选结果保留下来,特别适合用于与任务无关的语音文档检索中。对网格进行剪枝后得到的混淆网络,在结构上更为紧凑,能够提高识别的准确率。因此把网格作为一个语音检索系统的输入是非常有前景的,基于网格和混淆网络的语音检索技术正受到越来越多的重视。 网格的建立和查询搜索阶段的索引策略构成了语音检索技术中两个重要的组成部分。本论文首先针对语音信号检索中混淆网络的生成、检索过程中的搜索策略以及置信度的计算等方面的问题进行了研究。之后重点讨论了如何在混淆网络中进一步丰富声学层面以及语言学层面的信息,提出了在声学模型中附加声调信息模型和在语言模型中附加韵律信息模型的方法。论文所做工作主要集中在以下几个方面: 首先,由于在低信噪比环境下,连续语音信号分割效果不理想,因此提出了一种基于投票选择机制的连续语音信号分割方法。该方法对几种不同的分割结果进行投票选择,以提高语音分割的准确率。实验结果表明,该方法在低信噪比条件下对语音信号的分割结果更接近人工标注的分割结果。 其次,针对基于网格结构的语音检索技术,提出了基于枢纽路径的混淆网络生成方法,在不降低检索性能的前提下,使网格结构更为紧凑,缩减了索引尺寸,并且使附加信息更加丰富。同时针对搜索策略提出了改进的DMLS方法,在检索过程中用最小编辑距离来补偿音节识别器中的插入、删除、替代等错误。另外,针对语音检索中置信度的计算问题,提出了以互信息量作为置信度的方法,并结合后验概率得到了一个全新的置信度。最后通过仿真实验,验证了所提出方法的有效性。 再次,为了使混淆网络中的信息更加全面,从而提高语音检索系统的整体性能,提出将声调模型融合到混淆网络中。并且用声调核子代替全音节进行声调特征的提取,在此基础上建立了基于声调核子的MSD-HMM声调模型。将该模型与混淆网络中原有声学模型结合,在语言模型不变的情况下进行了语音检索实验。得到的仿真结果证明了声调特征在语音检索中作为辅助信息的有效性。 最后,提出在混淆网络中附加韵律学特征信息,来提高语音检索的性能。先针对韵律事件的检测问题进行了研究,分别利用声学特征、词汇特征和句法特征进行韵律事件的检测。将建立起来的韵律模型融合到现有混淆网络的声学模型和语言模型中。进行的语音检索仿真实验表明,附加韵律事件特征有助于提高语音检索的性能。 综上所述,本论文研究了基于混淆网络的连续汉语语音的检索问题,主要针对混淆网络的生成和检索阶段的搜索策略进行了改进。提出了基于枢纽路径的混淆网络生成算法和基于改进DMLS的检索方法。另外,分别针对混淆网络中的声学模型和语言模型,采取附加特征信息的方法来提高语音检索的性能。在声学模型中结合了声调方面的信息,在语言模型中结合了韵律学方面的信息。得到的实验结果表明,本文中所提出的方法均能够得到较好的效果,对语音文档检索有性能上的改善和提高。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TN912.3

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 冯彦君;靳鸿;章晓眉;;应用MATLAB分析语音信号[J];光电技术应用;2011年03期
2 段晓明;李婧;陈朝辉;;基于声卡的语音信号采集系统设计[J];数字技术与应用;2011年07期
3 代少升;马东鸽;;基于DSP的语音信号自适应滤波系统的设计与实现[J];重庆邮电大学学报(自然科学版);2011年04期
4 刘琦;;语音信号短时能量及短时幅值对比分析[J];网络安全技术与应用;2011年09期
5 焦剑;;浅析基于小波和EMD的语音信号去噪[J];华章;2011年15期
6 廖建军;郭秋萍;;多媒体信息处理与检索技术教学中培养学生创新能力[J];出国与就业(就业版);2010年02期
7 胡津津;;基于信息极大化的ICA混合语音信号盲分离算法的研究[J];池州学院学报;2011年03期
8 季云云;杨震;;基于主分量分析的语音信号压缩感知[J];信号处理;2011年07期
9 何凡;康勇;;集群通信加密语音技术的研究[J];科技传播;2011年16期
10 宣鸿伟;林善法;詹孟斯;傅凯丽;吕银音;陈竹幽;;基于FM1182芯片的便携消噪麦克风系统研制[J];现代电子技术;2011年16期
中国重要会议论文全文数据库 前10条
1 史笑兴;王太君;何振亚;;基于主元分析的语音特征提取[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
2 梁满贵;肖彦;阮秋琦;;双源谐波模型的语音信号清浊音分离[A];中国声学学会2006年全国声学学术会议论文集[C];2006年
3 刘锡华;;40HzAERP在临床法医学鉴定中的应用[A];中国法医学会全国第九次法医临床学学术研讨会论文集[C];2006年
4 洪弘;王新龙;陶智勇;李佩笑;;基于倒谱和EMD的语音基音周期的提取[A];2009年度全国物理声学会议论文集[C];2009年
5 邓立新;杨震;郑宝玉;;一种判别语音静、清、浊三态的新方法[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
6 邓立新;杨震;;一种基于人耳听觉两分性的语音信息隐藏方法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 杜安丽;王茜;余磊;孙洪;;基于小波树结构的语音信号压缩感知恢复算法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
8 涂哲民;俞铁城;;改变语音信号基音周期波形的精细结构对语音特征的影响[A];第四届全国人机语音通讯学术会议论文集[C];1996年
9 赵安新;李白萍;;语音信号压缩编码技术的研究与软件仿真[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
10 马树娟;王宪百;;语音分析软件包[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
中国重要报纸全文数据库 前10条
1 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
2 博超;商用检索凸显商机[N];计算机世界;2005年
3 记者 杨柳纯;HYT携手清华大学研发语音信号技术[N];深圳特区报;2009年
4 钟言;李彦宏 缔造百度神话的“乖孩子”[N];证券日报;2005年
5 钟涛;百度“框计算”推出中文拆字搜索服务[N];中国高新技术产业导报;2010年
6 记者 林若飞通讯员 侯移门;中国首块“会芯”深圳问世[N];深圳商报;2008年
7 杨文生;IP PBX的三代历程[N];计算机世界;2004年
8 杨文生;IP PBX三代变迁[N];网络世界;2004年
9 华哥 摘译;语音录音和回放芯片APR 9600应用[N];电子报;2005年
10 张鸣 曹德本;留心办公自动化设备泄“天机”[N];解放军报;2004年
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 王海艳;基于统计模型的语音增强算法研究[D];吉林大学;2011年
3 刘柏森;基于HHT复杂环境下低信噪比语音检测及增强方法研究[D];哈尔滨工程大学;2011年
4 洪弘;基于Hilbert-Huang变换的汉语动态特征分析[D];南京大学;2010年
5 付强;语音的参数表示和质量客观评价研究[D];西安电子科技大学;2000年
6 杨杰;基于感知的语音编解码系统研究[D];华中科技大学;2010年
7 李宏民;模拟小波基的构造及其对数域电路实现与应用研究[D];湖南大学;2008年
8 郭海燕;基于稀疏分解的单通道混合语音分离算法研究[D];南京邮电大学;2011年
9 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
10 田岚;增强电子耳蜗听感知的处理策略研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 童波;特定对象汉语语音转换系统的研究[D];华北电力大学(北京);2010年
2 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
3 林建钢;基于复数负熵最大化的语音盲抽取研究[D];大连理工大学;2010年
4 李宁;鼻腔共鸣障碍儿童客观评估中的声学参数研究[D];华东师范大学;2010年
5 赵桂艳;基于虚拟仪器技术的语音信号分析仪的设计研究[D];长春理工大学;2002年
6 丁晓敏;强噪声环境下语音增强算法的研究及其DSP实现[D];南京航空航天大学;2010年
7 盛英;基于小波变换的语音信号降噪研究[D];哈尔滨工程大学;2007年
8 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
9 张宝峰;基于DSP的语音识别算法研究与实现[D];兰州理工大学;2011年
10 王永琦;基于听觉模型反演方法的语音信号的分析及其应用[D];苏州大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026