收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于混淆网络的汉语语音检索技术研究

黄湘松  
【摘要】:随着互联网和多媒体技术的快速发展,每天都会涌现海量的音频文件,如何对这些语音文档进行有效地检索和分类成为信息处理领域中的一个热点问题。目前语音检索技术的研究主要是基于统计模式识别的基础理论,对连续语音信号的处理从声学层和语言层两个方面进行考虑。网格技术作为一种新兴的信息检索技术,其结构恰好能够描述这两方面的内容。它是以文本的形式把检索过程中得到的多个候选结果保留下来,特别适合用于与任务无关的语音文档检索中。对网格进行剪枝后得到的混淆网络,在结构上更为紧凑,能够提高识别的准确率。因此把网格作为一个语音检索系统的输入是非常有前景的,基于网格和混淆网络的语音检索技术正受到越来越多的重视。 网格的建立和查询搜索阶段的索引策略构成了语音检索技术中两个重要的组成部分。本论文首先针对语音信号检索中混淆网络的生成、检索过程中的搜索策略以及置信度的计算等方面的问题进行了研究。之后重点讨论了如何在混淆网络中进一步丰富声学层面以及语言学层面的信息,提出了在声学模型中附加声调信息模型和在语言模型中附加韵律信息模型的方法。论文所做工作主要集中在以下几个方面: 首先,由于在低信噪比环境下,连续语音信号分割效果不理想,因此提出了一种基于投票选择机制的连续语音信号分割方法。该方法对几种不同的分割结果进行投票选择,以提高语音分割的准确率。实验结果表明,该方法在低信噪比条件下对语音信号的分割结果更接近人工标注的分割结果。 其次,针对基于网格结构的语音检索技术,提出了基于枢纽路径的混淆网络生成方法,在不降低检索性能的前提下,使网格结构更为紧凑,缩减了索引尺寸,并且使附加信息更加丰富。同时针对搜索策略提出了改进的DMLS方法,在检索过程中用最小编辑距离来补偿音节识别器中的插入、删除、替代等错误。另外,针对语音检索中置信度的计算问题,提出了以互信息量作为置信度的方法,并结合后验概率得到了一个全新的置信度。最后通过仿真实验,验证了所提出方法的有效性。 再次,为了使混淆网络中的信息更加全面,从而提高语音检索系统的整体性能,提出将声调模型融合到混淆网络中。并且用声调核子代替全音节进行声调特征的提取,在此基础上建立了基于声调核子的MSD-HMM声调模型。将该模型与混淆网络中原有声学模型结合,在语言模型不变的情况下进行了语音检索实验。得到的仿真结果证明了声调特征在语音检索中作为辅助信息的有效性。 最后,提出在混淆网络中附加韵律学特征信息,来提高语音检索的性能。先针对韵律事件的检测问题进行了研究,分别利用声学特征、词汇特征和句法特征进行韵律事件的检测。将建立起来的韵律模型融合到现有混淆网络的声学模型和语言模型中。进行的语音检索仿真实验表明,附加韵律事件特征有助于提高语音检索的性能。 综上所述,本论文研究了基于混淆网络的连续汉语语音的检索问题,主要针对混淆网络的生成和检索阶段的搜索策略进行了改进。提出了基于枢纽路径的混淆网络生成算法和基于改进DMLS的检索方法。另外,分别针对混淆网络中的声学模型和语言模型,采取附加特征信息的方法来提高语音检索的性能。在声学模型中结合了声调方面的信息,在语言模型中结合了韵律学方面的信息。得到的实验结果表明,本文中所提出的方法均能够得到较好的效果,对语音文档检索有性能上的改善和提高。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TN912.3

【引证文献】
中国期刊全文数据库 前1条
1 陆明明;张连海;屈丹;牛铜;;一种融合音位属性的语音文档索引方法[J];计算机工程;2012年19期
中国博士学位论文全文数据库 前2条
1 飞龙;蒙古语语音关键词检测技术的研究[D];内蒙古大学;2013年
2 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年
中国硕士学位论文全文数据库 前2条
1 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
2 金惠琴;基于维吾尔语语音关键词检索的研究[D];新疆大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 陈亮,张雄伟;基于分形维数实现语音分割和增强[J];北京邮电大学学报;2003年S1期
2 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
3 胡光锐,韦晓东;基于倒谱特征的带噪语音端点检测[J];电子学报;2000年10期
4 李晋;刘甫;王玲;许慧燕;;改进的语音端点检测技术[J];计算机工程与应用;2009年24期
5 王朋,塔维娜,陈树中;带噪汉语语音识别的端点检测方法[J];计算机工程;2003年17期
6 程葳,赵军,徐波,刘非凡;一种面向汉英口语翻译的双语语块处理方法[J];中文信息学报;2003年02期
7 刘鹏;宗成庆;;人机互助的交互式口语翻译方法[J];中文信息学报;2009年03期
8 李 沐,吕学强,姚天顺;一种基于E-Chunk的机器翻译模型[J];软件学报;2002年04期
9 罗骏;欧智坚;;一种高效的语音关键词检索系统[J];通信学报;2006年02期
10 郑铁然;韩纪庆;;基于音节Lattice的汉语语音检索技术及其索引去冗余方法[J];声学学报(中文版);2008年06期
中国博士学位论文全文数据库 前1条
1 孙成立;语音关键词识别技术的研究[D];北京邮电大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 陈蕴谷;;基于谱减法和经验模式分解的语音增强[J];安庆师范学院学报(自然科学版);2010年01期
2 施俊强,池明敏;基于TMS320C54x DSKplus的实时TCM语音编解码算法的实现[J];半导体技术;2001年08期
3 邓勇,施文康;基于TMS320C50的语音频谱分析仪[J];兵工自动化;2000年03期
4 徐俊晓,谢锋,江建平,莫运明,郑中华;我国12种无尾类的鸣叫特征参数[J];动物学杂志;2005年03期
5 冯成林,吴淑珍;一种噪声环境下的语音识别方法(线性预测误差法)的研究[J];北京大学学报(自然科学版);2000年05期
6 黄新宇,吴淑珍;基于单边自相关线性预测噪声中汉语语音识别[J];北京大学学报(自然科学版);2000年05期
7 刘敬伟,程乾生;基于动态时间规划的基因芯片数据识别[J];北京大学学报(自然科学版);2002年05期
8 段新,黄新宇,吴淑珍;与文本无关的说话人辨认系统中一种新的使用基音周期方法研究[J];北京大学学报(自然科学版);2003年05期
9 王炜,刘峰,吴淑珍;RASTA滤波在语音通信质量客观评价中应用的研究[J];北京大学学报(自然科学版);2003年05期
10 刘惠华,潘建军,周冰,范京;稀疏谱线合成对元音频域信息分布的探讨[J];北京机械工业学院学报;2005年01期
中国重要会议论文全文数据库 前10条
1 韩志艳;王健;伦淑娴;王旭;;基于小波包变换的语音信号鲁棒特征提取[A];第二十九届中国控制会议论文集[C];2010年
2 董静;刘健刚;;英语寂语声信号检测[A];2011'中国西部声学学术交流会论文集[C];2011年
3 李曼曼;杨鸿武;洪宁;杨硕;刘亚丽;;基于EMD的带噪语音端点检测[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 黄晓丹;洪青阳;李琳;李稀敏;梁大伟;陈万里;吕伟辰;丘敬云;王薇;;声纹识别语音数据库建设的探讨[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 牛建伟;谢磊;路晓明;周祥增;张艳宁;;基于多置信特征融合语音识别拒识算法的设计与实现[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
7 郭巧;张立伟;陆际联;;汉语语音信号的端点检测与切分[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
8 张连海;王杰锋;王炳锡;;基于语音多带激励模型的基音周期估计算法研究[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
9 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
10 牟峰;俞铁城;杨道淳;;新型半波语音编解码的实现[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 李凤杰;汉英对比韵律系学中的若干问题[D];南开大学;2010年
2 洪弘;基于Hilbert-Huang变换的汉语动态特征分析[D];南京大学;2010年
3 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
4 曾庆虎;机械传动系统关键零部件故障预测技术研究[D];国防科学技术大学;2010年
5 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
6 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
7 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
8 高二中;对话电话语音的话者确认研究[D];中国科学技术大学;2011年
9 梁彦霞;低速率多带激励线性预测语音编码技术的研究[D];西安电子科技大学;2011年
10 李烨;基于多带激励模型的低速率语音编码技术研究[D];西安电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 王春力;基于P2P的网络音频捕获与多路混音算法研究[D];山东科技大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
4 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
5 徐雯;VDR音频数据数字水印算法研究[D];哈尔滨工程大学;2010年
6 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
7 张磊;音频样例检索技术研究[D];哈尔滨工程大学;2010年
8 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
9 孙大为;数字化单边带水声语音通信系统的研究与实现[D];哈尔滨工程大学;2010年
10 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张晶;范明;冯文全;董金明;;基于MFCC参数的说话人特征提取算法的改进[J];电声技术;2009年09期
2 张士峰;混合正态分布参数极大似然估计的EM算法[J];飞行器测控学报;2004年04期
3 邢永康;马少平;;统计语言模型综述[J];计算机科学;2003年09期
4 范新伟,申瑞民,杜彦蕊;用LPC及DTW进行语音模式比较的设计与实现[J];计算机工程;2004年01期
5 孔英会;景美丽;;基于混淆矩阵和集成学习的分类方法研究[J];计算机工程与科学;2012年06期
6 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
7 那斯尔江·吐尔逊;吾守尔·斯拉木;;基于隐马尔可夫模型的维吾尔语连续语音识别系统[J];计算机应用;2009年07期
8 张永亮;张先庭;鲁宇明;;基于FMFCC和HMM的说话人识别[J];计算机仿真;2010年05期
9 黄顺珍,方棣棠;基于拼音模型的声学层识别的研究[J];中文信息学报;2002年03期
10 倪崇嘉;刘文举;徐波;;汉语大词汇量连续语音识别系统研究进展[J];中文信息学报;2009年01期
中国重要会议论文全文数据库 前2条
1 陈伟;李成荣;浦剑涛;;基于LVCSR的关键词检测技术的研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
2 孟猛;梁家恩;徐波;;基于语音样本的口语电话语音关键词检出算法的改进研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前6条
1 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
2 孙成立;语音关键词识别技术的研究[D];北京邮电大学;2008年
3 王欢良;基于混淆网络和辅助信息的语音识别技术研究[D];哈尔滨工业大学;2007年
4 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年
5 戴东波;序列数据的相似性查询研究[D];复旦大学;2009年
6 敖敏;基于韵律的蒙古语语音合成研究[D];内蒙古大学;2012年
中国硕士学位论文全文数据库 前10条
1 吴长君;基于旋律的音乐检索系统设计与实现[D];北京邮电大学;2011年
2 陆冬;语音到语音的检索系统研究[D];哈尔滨工程大学;2011年
3 郑海树;面向语音检索的汉语关键词识别技术研究及应用[D];浙江大学;2005年
4 包世恩;蒙古语非特定人大词汇量连续语音识别系统的研究与实现[D];内蒙古大学;2005年
5 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
6 毕力格图;基于HMM建模的蒙古语连续语音识别系统的研究与实现[D];内蒙古大学;2006年
7 王洪海;基于声学特征的自动语言辨识研究[D];北京邮电大学;2007年
8 艾霞;面向语音识别的蒙古语语言模型的研究[D];内蒙古大学;2007年
9 哈斯其劳;面向语音识别的蒙古语声学模型的研究[D];内蒙古大学;2008年
10 祝平平;离散余弦变换快速算法的研究[D];华中科技大学;2008年
【二级引证文献】
中国期刊全文数据库 前1条
1 蒲宇;;基于Oracle的应用软件系统检索性能的优化[J];电子技术与软件工程;2014年07期
【二级参考文献】
中国期刊全文数据库 前10条
1 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
2 赵庆卫,王作英,陆大 ;汉语连续语音识别中上下文相关的识别单元(三音子)的研究[J];电子学报;1999年06期
3 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
4 王作英,肖熙;基于段长分布的HMM语音识别模型[J];电子学报;2004年01期
5 武薇;范影乐;庞全;;基于广义维数距离的语音端点检测方法[J];电子与信息学报;2007年02期
6 李晋;王玲;;一种改进的孤立词端点检测方法[J];计算机工程与应用;2006年30期
7 马龙华;臧义华;刘利强;;车内噪声环境下的语音端点检测和增强技术[J];计算机工程与应用;2007年36期
8 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
9 黄河燕,陈肇雄,宋继平;一种人机互动的多策略机器翻译系统IHSMTS的设计与实现原理[J];中文信息学报;1999年05期
10 刘芳,赵铁军,于浩,杨沐昀,方高林;基于统计的汉语组块分析[J];中文信息学报;2000年06期
中国重要会议论文全文数据库 前3条
1 欧智坚;罗骏;谢达东;赵贤宇;林晖;王作英;;多功能语音/音频信息检索系统的研究与实现[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
2 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 鲁川;;信息处理用汉语句子语序的认知研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 雷震春;支持向量机在说话人识别中的应用研究[D];浙江大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 董力,陈宏钦,马争鸣;基于小波变换的语音段起止端点检测算法[J];中山大学学报(自然科学版);2005年03期
2 周曦;戴蓓蒨;陈雁翔;李辉;;基于纯度和BBN算法的无监督的话者聚类[J];模式识别与人工智能;2005年04期
3 钟山;刘加;;MLLR特征的SVM语种识别算法[J];清华大学学报(自然科学版);2009年S1期
4 张俊星;刘宇;;基于二级搜索模型的有声出版物语音分割算法[J];吉林大学学报(工学版);2009年S2期
5 卢颖;;《人民日报》元旦社论的语音修辞[J];新闻爱好者;2010年19期
6 罗元;李嘉穗;徐秉铮;;汉语语音“通—断”模型的统计分析[J];电信科学;1987年07期
7 王炜;吕萍;颜永红;;一种改进的基于层次聚类的说话人自动聚类算法[J];声学学报(中文版);2008年01期
8 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期
9 范冰冰;荀殿栋;;模拟语音置乱保密系统的安全性[J];军事通信技术;1988年03期
10 李庆明,秦菊贤;采用单片机技术设计CAI通用智能控制器[J];华北工学院学报;1994年01期
中国重要会议论文全文数据库 前10条
1 陈立春;董长宝;;具有网络监控管理功能的铁路运输语音记录仪的研究[A];《铁路车务设备信息管理系统研讨会》论文集[C];2011年
2 张金爽;于洪志;郑文思;吕士良;;言语呼吸韵律分析平台的设计与实现[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
4 肖熙;王侠;王作英;;非齐次HMM语音段长模型的Forward-Backward算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 沈亚强;程仲文;任德官;;带噪语音信号的信号模型参数和噪声模型参数的辨别[A];第三届全国人机语音通讯学术会议论文集[C];1994年
7 李鹏伟;穆道生;唐晓刚;;基于多特征值的静音检测算法在G.729中的应用研究[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)[C];2010年
8 康恒;刘文举;;基于Sinusoidal+全极点模型的语音频谱平滑[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 魏维;马海燕;;用时域及幅度域修正方法提升基于线性预测的信包丢失后重建语音信号质量[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
10 李建民;方棣棠;;语音端点检测中门限阈值的自动确定及音节切割的新判据[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
中国重要报纸全文数据库 前5条
1 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
2 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
3 曲豆;声纹鉴定找到敲诈人[N];北京科技报;2004年
4 ;与“小超人”对话[N];中国计算机报;2001年
5 上海 孙焕挺;OTP型语音电路应用[N];电子报;2003年
中国博士学位论文全文数据库 前10条
1 赵腊生;语音情感特征提取与识别方法研究[D];大连理工大学;2010年
2 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
3 杨于村;基于公众移动通信网的端到端加密语音传输技术研究[D];华南理工大学;2009年
4 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
5 田岚;增强电子耳蜗听感知的处理策略研究[D];天津大学;2009年
6 王海艳;基于统计模型的语音增强算法研究[D];吉林大学;2011年
7 方瑜;语音增强相关问题研究[D];北京邮电大学;2012年
8 周文君;舰船VDR人声识别技术研究[D];哈尔滨工程大学;2009年
9 王娜;基于小波变换与约束方差噪声谱估计的语音增强算法研究[D];燕山大学;2011年
10 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
2 邸燕君;基于感知哈希的语音内容认证方法研究[D];兰州理工大学;2013年
3 王冲;无人机语音指令控制系统技术研究[D];南京航空航天大学;2012年
4 郭永亮;嵌入式语音指令处理与识别方法的研究[D];南京航空航天大学;2010年
5 陈英;基于语音反演机器学习方法的声道模型研究[D];南京邮电大学;2013年
6 李海忠;语音增强算法研究与应用[D];西华大学;2010年
7 卓露;语音增强算法的研究与实现[D];湖北工业大学;2011年
8 李秀珍;语音识别算法及应用技术研究[D];重庆大学;2010年
9 杨典兵;端到端保密通信中的类语音调制解调研究[D];解放军信息工程大学;2009年
10 杨斌;机载数字化音响中的降噪技术研究[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026