收藏本站
《解放军信息工程大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

说话人分段与聚类技术研究

张力  
【摘要】:说话人分段与聚类主要解决“谁在什么时候说话”的问题,即在一段音频数据中区分出不同说话人的说话区段,并将其一一标注出来。说话人分段与聚类技术在很多领域都有广泛的应用,是目前研究的热点之一。本文主要从语音/非语音检测、说话人分段与聚类算法等方面展开研究,主要研究成果如下: 针对基于模型的语音/非语音检测方法需要大量训练语料且鲁棒性不强的问题,本文提出了一种鲁棒性层次化语音/非语音检测方法。该方法采用层次化的检测结构,首先,在第一层利用基于模型的语音/非语音检测方法对测试数据进行粗分类;其次,在第二层利用粗分类结果,通过计算短时平均能量和高过零率比率特征,从中选取训练数据建立静音和可听非语音初始模型,再利用维特比分段后的数据建立语音检测模型;最后,更新三个自适应检测模型进行语音/非语音检测,并根据BIC准则对结果进行修正。与传统基于模型的检测方法进行对比测试表明,该方法检测性能更高且鲁棒性更强。 针对说话人分段与聚类算法中先验知识不足的问题,利用基于IB准则与基于HMM/GMM模型的方法间的互补性,提出了一种基于特征层融合的说话人分段与聚类算法。该算法,首先将基于IB准则算法的输出结果进行对数变换和PCA降维处理;然后利用变换后的特征与传统MFCC特征分别训练说话人GMM模型,并在得分域对说话人类别间的ΔB IC得分进行加权融合;最后根据融合的得分,进行基于HMM/GMM模型的说话人分段与聚类。实验表明,融合后的特征可以为系统提供更多的先验信息,有效降低说话人误配率。 针对说话人分段与聚类过程中说话人模型间的相似度高、容易混淆的问题,提出了一种基于MMI准则的说话人分段与聚类方法。该方法在MLE准则的基础上,利用MMI准则训练说话人模型。在此过程中,改进了竞争集的选择方式,只将难以区分的语音数据划分到竞争集中,减少了运算量;同时对聚类的停止准则进行变换,使得BIC准则与MMI准则能够更好结合并应用于说话人分段与聚类中。实验结果表明,该方法能够增加说话人模型间的区分性,有效地降低说话人误配率。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TN912.34

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 杨继臣;贺前华;李艳雄;王伟凝;;一种两步判决的说话人分割算法[J];电子与信息学报;2010年08期
2 郑铁然;李海峰;刘先;韩纪庆;;基于预分割的说话人分割方法[J];通信学报;2009年02期
中国博士学位论文全文数据库 前2条
1 屈丹;电话信道下语言辨识技术研究[D];中国人民解放军信息工程大学;2005年
2 刘聪;声学模型区分性训练及其在LVCSR系统的应用[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前5条
1 庄海燕;基于支持向量机的新闻音频分类[D];天津大学;2007年
2 王发智;说话人识别方法的研究[D];哈尔滨工程大学;2008年
3 颜凯;基于高斯混合模型的说话人识别算法研究[D];南京理工大学;2009年
4 付强;基于高斯混合模型的语种识别的研究[D];中国科学技术大学;2009年
5 潘镭;基于混合高斯模型的说话人识别[D];中国科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 陈蕴谷;;基于谱减法和经验模式分解的语音增强[J];安庆师范学院学报(自然科学版);2010年01期
2 牛滨;孔令志;罗森林;潘丽敏;郭亮;;基于MFCC和GMM的个性音乐推荐模型[J];北京理工大学学报;2009年04期
3 刘刚;叶大田;;针对汉语声母发音的辅助教师系统的研究[J];北京生物医学工程;2008年02期
4 张志勇;宋阳;;基于嵌入式下的语音机器人的设计与实现[J];长春师范学院学报(人文社会科学版);2008年10期
5 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
6 张余生;夏秀渝;杨莎;;基于神经网络和卡尔曼滤波算法的说话人识别[J];成都信息工程学院学报;2008年04期
7 冀常鹏;高茉;;嘈杂环境下语音信号端点检测方法研究[J];成都信息工程学院学报;2011年03期
8 吴晶;柳洪轶;;基于子带编码的数字音频水印算法研究[J];长春工程学院学报(自然科学版);2008年03期
9 张东;林晖;;基于子带编码的数字音频隐藏算法研究[J];长春工程学院学报(自然科学版);2009年04期
10 赵立业;;数字助听器系统中的回声消除方法[J];传感器与微系统;2009年11期
中国重要会议论文全文数据库 前10条
1 董静;刘健刚;;英语寂语声信号检测[A];2011'中国西部声学学术交流会论文集[C];2011年
2 李曼曼;杨鸿武;洪宁;杨硕;刘亚丽;;基于EMD的带噪语音端点检测[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 黄晓丹;洪青阳;李琳;李稀敏;梁大伟;陈万里;吕伟辰;丘敬云;王薇;;声纹识别语音数据库建设的探讨[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 王刚;邬晓钧;郑方;王琳琳;张陈昊;;基于参考说话人模型和双层结构的说话人辨认[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
5 方杰;李英;陶泯;;语音信号的一种加权的鲁棒特征参数W_RAS_MFCC[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
6 马治飞;徐望;王炳锡;王兴斌;;一种基于概率模型和倒谱差分的特征补偿算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 王兴斌;徐望;王炳锡;马治飞;;噪声环境下语音能量的MMSE估计及其在语音识别中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 徐小峰;胡央芳;刘守快;郑翔;俞一彪;王宇岭;王庆才;戴云;李道明;;基于VQ算法的病症脉象识别[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
9 杨威明;;基于阈值的小波变换语音增强方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 潘欣裕;董兴法;赵鹤鸣;;基于谱能比例加权的谱减法语音增强研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
3 曾庆虎;机械传动系统关键零部件故障预测技术研究[D];国防科学技术大学;2010年
4 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
5 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
6 梁彦霞;低速率多带激励线性预测语音编码技术的研究[D];西安电子科技大学;2011年
7 李烨;基于多带激励模型的低速率语音编码技术研究[D];西安电子科技大学;2011年
8 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年
9 高翔;浅埋地层探地雷达信号处理与目标识别研究[D];中国海洋大学;2011年
10 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 王萍;语音情感识别研究[D];山东科技大学;2010年
2 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
3 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
4 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
5 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
6 孙大为;数字化单边带水声语音通信系统的研究与实现[D];哈尔滨工程大学;2010年
7 陈伟伟;基于鼾声检测的睡眠呼吸暂停低通气综合症诊断[D];大连理工大学;2010年
8 翟文博;基于SIP协议框架的语音通信系统的研究与设计[D];大连理工大学;2010年
9 杨青;手势识别技术的研究[D];大连理工大学;2010年
10 时筱惠;大连方言语音对英语语音习得的影响[D];辽宁师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱晓园;一个对隐马尔可夫模型用于自由语句说话人的研究[J];北方交通大学学报;1997年01期
2 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期
3 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期
4 郭春霞,裘雪红;基于MFCC的说话人识别系统[J];电子科技;2005年11期
5 史静朴,陈际,陈向东,陈川,王守觉;用神经计算机的说话人确认系统及其应用[J];电子学报;1999年10期
6 刘鸣,戴蓓倩,李辉,陆伟,李霄寒;鲁棒性话者辨识中的一种改进的马尔科夫模型[J];电子学报;2002年01期
7 黄伟,戴蓓蒨,李辉;基于分类特征空间高斯混合模型和神经网络融合的说话人识别[J];电子与信息学报;2004年10期
8 浦昭邦,杨帆,陈炳义,陈世哲;虹膜识别技术的发展与应用[J];光学精密工程;2004年03期
9 桑立锋,吴朝晖,杨莹春;基于GMM的语音帧得分上的重优化[J];广西师范大学学报(自然科学版);2003年01期
10 刘强;吴京慧;;优化初始聚类中心的K-means算法[J];信息技术;2009年02期
中国博士学位论文全文数据库 前2条
1 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
2 鄢志杰;声学模型区分性训练及其在自动语音识别中的应用[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前5条
1 张晓枫;基于小波变换与GMM的说话人识别研究[D];西安电子科技大学;2002年
2 许允喜;语音特征空间映射提高说话人识别性能[D];苏州大学;2004年
3 刘金福;基于关键词检出的说话人自适应技术研究[D];解放军信息工程大学;2004年
4 张荣强;说话人识别中特征提取的方法研究[D];大连理工大学;2005年
5 谷志新;基于声纹信息的身份认证模式与算法的研究[D];东北林业大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期
2 勾轶,刘晓丽,陈长征;基于小波与神经网络的说话人身份识别[J];沈阳工业大学学报;2005年01期
3 田松乾;语用学在英语语法教学中的作用[J];现代情报;2000年05期
4 夏菁,尹俊勋,黄建成,黄锋;基于正弦加噪声模型的说话人转换方法[J];电声技术;2005年02期
5 黄金明;说话人身份识别系统的设计与实现[J];计算机工程;2004年S1期
6 俞振利,张礼和;从任意连续语音中实时提取说话人特征及三维显示[J];浙江大学学报(理学版);1992年04期
7 岳喜才,伍晓宇,郑崇勋;用神经阵列网络进行文本无关的说话人识别[J];声学学报(中文版);2000年03期
8 彭煊,王炳锡;基于高斯混合模型差别度量的说话人聚类[J];计算机工程与应用;2005年05期
9 杜江,朱柯;智能麦克风阵列语音分离和说话人跟踪技术研究[J];电子学报;2005年02期
10 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期
中国重要会议论文全文数据库 前10条
1 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
2 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
3 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
4 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
5 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
6 蒋冬梅;赵荣椿;;基于尺度描述的说话人归一化语音特征[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
7 周绍良;;修绠山房梓《宣和遗事》跋[A];水浒争鸣(第一辑)[C];1982年
8 欧贵文;邓英;;基于说话人的对话语音分割[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 屈丹;魏鑫;王炳锡;;说话人归一化技术用于语言辨识系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
10 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 ;美科学家要研制无声感应“手机”[N];新华每日电讯;2005年
2 张申 蔡莲红;富于表情的虚拟人脸合成[N];计算机世界;2007年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 中国科学院自动化研究所模式识别国家重点实验室 辛乐陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年
5 曹文彪;生气与高致[N];文学报;2006年
6 中国科学院自动化研究所模式识别国家重点实验室 周密陶建华;与电脑面谈[N];计算机世界;2007年
7 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
8 刘喜喜;让视频会议多一些人工智能[N];中国计算机报;2008年
9 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
10 秋水;挑吃“绿色” 敲响食品安全警钟[N];中国改革报;2006年
中国博士学位论文全文数据库 前10条
1 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
2 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
3 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
4 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
5 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
6 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
7 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年
8 闵星雅;助动词“能”和“会”的认知研究[D];上海师范大学;2007年
9 祝东平;汉语时间感知模式与相关汉语因素研究[D];吉林大学;2009年
10 李海辉;电视访谈中话语缓和的语用研究[D];广东外语外贸大学;2008年
中国硕士学位论文全文数据库 前10条
1 默盼;论宋代说话人[D];渤海大学;2012年
2 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年
3 张力;说话人分段与聚类技术研究[D];解放军信息工程大学;2012年
4 高娅;说话人转变检测的研究与实现[D];南京邮电大学;2013年
5 赵洪刚;基于对话型语音的说话人在线识别技术研究[D];黑龙江大学;2010年
6 李向格;关于“レてもぃぃ”与“レてぃぃ”的意义分析[D];吉林大学;2012年
7 黄雪莲;韩国语‘(?)’的话语功能分析[D];延边大学;2012年
8 毛永刚;基于相关向量机的说话人判别研究[D];电子科技大学;2012年
9 徐晨;基于支持向量机的说话人辨别研究[D];陕西师范大学;2013年
10 陈芝;基于人工神经网络模型的说话人转换算法研究[D];南京邮电大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026