收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于混淆网络的汉语语音检索技术研究

黄湘松  
【摘要】:随着互联网和多媒体技术的快速发展,每天都会涌现海量的音频文件,如何对这些语音文档进行有效地检索和分类成为信息处理领域中的一个热点问题。目前语音检索技术的研究主要是基于统计模式识别的基础理论,对连续语音信号的处理从声学层和语言层两个方面进行考虑。网格技术作为一种新兴的信息检索技术,其结构恰好能够描述这两方面的内容。它是以文本的形式把检索过程中得到的多个候选结果保留下来,特别适合用于与任务无关的语音文档检索中。对网格进行剪枝后得到的混淆网络,在结构上更为紧凑,能够提高识别的准确率。因此把网格作为一个语音检索系统的输入是非常有前景的,基于网格和混淆网络的语音检索技术正受到越来越多的重视。 网格的建立和查询搜索阶段的索引策略构成了语音检索技术中两个重要的组成部分。本论文首先针对语音信号检索中混淆网络的生成、检索过程中的搜索策略以及置信度的计算等方面的问题进行了研究。之后重点讨论了如何在混淆网络中进一步丰富声学层面以及语言学层面的信息,提出了在声学模型中附加声调信息模型和在语言模型中附加韵律信息模型的方法。论文所做工作主要集中在以下几个方面: 首先,由于在低信噪比环境下,连续语音信号分割效果不理想,因此提出了一种基于投票选择机制的连续语音信号分割方法。该方法对几种不同的分割结果进行投票选择,以提高语音分割的准确率。实验结果表明,该方法在低信噪比条件下对语音信号的分割结果更接近人工标注的分割结果。 其次,针对基于网格结构的语音检索技术,提出了基于枢纽路径的混淆网络生成方法,在不降低检索性能的前提下,使网格结构更为紧凑,缩减了索引尺寸,并且使附加信息更加丰富。同时针对搜索策略提出了改进的DMLS方法,在检索过程中用最小编辑距离来补偿音节识别器中的插入、删除、替代等错误。另外,针对语音检索中置信度的计算问题,提出了以互信息量作为置信度的方法,并结合后验概率得到了一个全新的置信度。最后通过仿真实验,验证了所提出方法的有效性。 再次,为了使混淆网络中的信息更加全面,从而提高语音检索系统的整体性能,提出将声调模型融合到混淆网络中。并且用声调核子代替全音节进行声调特征的提取,在此基础上建立了基于声调核子的MSD-HMM声调模型。将该模型与混淆网络中原有声学模型结合,在语言模型不变的情况下进行了语音检索实验。得到的仿真结果证明了声调特征在语音检索中作为辅助信息的有效性。 最后,提出在混淆网络中附加韵律学特征信息,来提高语音检索的性能。先针对韵律事件的检测问题进行了研究,分别利用声学特征、词汇特征和句法特征进行韵律事件的检测。将建立起来的韵律模型融合到现有混淆网络的声学模型和语言模型中。进行的语音检索仿真实验表明,附加韵律事件特征有助于提高语音检索的性能。 综上所述,本论文研究了基于混淆网络的连续汉语语音的检索问题,主要针对混淆网络的生成和检索阶段的搜索策略进行了改进。提出了基于枢纽路径的混淆网络生成算法和基于改进DMLS的检索方法。另外,分别针对混淆网络中的声学模型和语言模型,采取附加特征信息的方法来提高语音检索的性能。在声学模型中结合了声调方面的信息,在语言模型中结合了韵律学方面的信息。得到的实验结果表明,本文中所提出的方法均能够得到较好的效果,对语音文档检索有性能上的改善和提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 董力,陈宏钦,马争鸣;基于小波变换的语音段起止端点检测算法[J];中山大学学报(自然科学版);2005年03期
2 周曦;戴蓓蒨;陈雁翔;李辉;;基于纯度和BBN算法的无监督的话者聚类[J];模式识别与人工智能;2005年04期
3 钟山;刘加;;MLLR特征的SVM语种识别算法[J];清华大学学报(自然科学版);2009年S1期
4 张俊星;刘宇;;基于二级搜索模型的有声出版物语音分割算法[J];吉林大学学报(工学版);2009年S2期
5 卢颖;;《人民日报》元旦社论的语音修辞[J];新闻爱好者;2010年19期
6 罗元;李嘉穗;徐秉铮;;汉语语音“通—断”模型的统计分析[J];电信科学;1987年07期
7 王炜;吕萍;颜永红;;一种改进的基于层次聚类的说话人自动聚类算法[J];声学学报(中文版);2008年01期
8 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期
9 范冰冰;荀殿栋;;模拟语音置乱保密系统的安全性[J];军事通信技术;1988年03期
10 李庆明,秦菊贤;采用单片机技术设计CAI通用智能控制器[J];华北工学院学报;1994年01期
11 肖大光;多功能数字式录音机设计[J];电子技术;1997年02期
12 赵跃进,刘海城,钱永强;单片机在小型变电站故障检测与报警中的应用[J];计算机工程与设计;1997年06期
13 孟军,陈日新;ISD语音芯片应用开发环境研究[J];计算技术与自动化;1999年01期
14 李祖鹏,姚佩阳;一种语音段起止端点检测新方法[J];电讯技术;2000年03期
15 贾强;;基于51单片机的语音控制系统[J];天津科技;2009年01期
16 顾亚强;赵晖;吴波;;一种语音信号端点检测的改进方法[J];计算机仿真;2010年05期
17 陈日新,孟军,李思昆;一种基于语音段管理的语音芯片体系结构设计[J];常德师范学院学报(自然科学版);1999年01期
18 张毅,唐红;用ISD器件实现现场语音分段录音与随机组合放音[J];电子技术应用;2002年03期
19 马震;李建磊;陈延萍;;基于TMS320DM6446的MELP/CELP混合编码方法研究与实现[J];电子器件;2007年06期
20 郑铁然;韩纪庆;;基于音节Lattice的汉语语音检索技术及其索引去冗余方法[J];声学学报(中文版);2008年06期
中国重要会议论文全文数据库 前10条
1 陈立春;董长宝;;具有网络监控管理功能的铁路运输语音记录仪的研究[A];《铁路车务设备信息管理系统研讨会》论文集[C];2011年
2 张金爽;于洪志;郑文思;吕士良;;言语呼吸韵律分析平台的设计与实现[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
4 肖熙;王侠;王作英;;非齐次HMM语音段长模型的Forward-Backward算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 沈亚强;程仲文;任德官;;带噪语音信号的信号模型参数和噪声模型参数的辨别[A];第三届全国人机语音通讯学术会议论文集[C];1994年
7 李鹏伟;穆道生;唐晓刚;;基于多特征值的静音检测算法在G.729中的应用研究[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(下册)[C];2010年
8 康恒;刘文举;;基于Sinusoidal+全极点模型的语音频谱平滑[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 魏维;马海燕;;用时域及幅度域修正方法提升基于线性预测的信包丢失后重建语音信号质量[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
10 李建民;方棣棠;;语音端点检测中门限阈值的自动确定及音节切割的新判据[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
中国博士学位论文全文数据库 前10条
1 赵腊生;语音情感特征提取与识别方法研究[D];大连理工大学;2010年
2 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
3 杨于村;基于公众移动通信网的端到端加密语音传输技术研究[D];华南理工大学;2009年
4 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
5 田岚;增强电子耳蜗听感知的处理策略研究[D];天津大学;2009年
6 王海艳;基于统计模型的语音增强算法研究[D];吉林大学;2011年
7 方瑜;语音增强相关问题研究[D];北京邮电大学;2012年
8 周文君;舰船VDR人声识别技术研究[D];哈尔滨工程大学;2009年
9 王娜;基于小波变换与约束方差噪声谱估计的语音增强算法研究[D];燕山大学;2011年
10 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 何明哲;语音片段检索算法的研究与应用[D];华南理工大学;2012年
2 邸燕君;基于感知哈希的语音内容认证方法研究[D];兰州理工大学;2013年
3 王冲;无人机语音指令控制系统技术研究[D];南京航空航天大学;2012年
4 郭永亮;嵌入式语音指令处理与识别方法的研究[D];南京航空航天大学;2010年
5 陈英;基于语音反演机器学习方法的声道模型研究[D];南京邮电大学;2013年
6 李海忠;语音增强算法研究与应用[D];西华大学;2010年
7 卓露;语音增强算法的研究与实现[D];湖北工业大学;2011年
8 李秀珍;语音识别算法及应用技术研究[D];重庆大学;2010年
9 杨典兵;端到端保密通信中的类语音调制解调研究[D];解放军信息工程大学;2009年
10 杨斌;机载数字化音响中的降噪技术研究[D];电子科技大学;2011年
中国重要报纸全文数据库 前5条
1 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
2 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
3 曲豆;声纹鉴定找到敲诈人[N];北京科技报;2004年
4 ;与“小超人”对话[N];中国计算机报;2001年
5 上海 孙焕挺;OTP型语音电路应用[N];电子报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978