收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

说话人信息分析及其在多媒体检索中的应用研究

杨继臣  
【摘要】: 随着网络技术和流媒体技术的发展,多媒体信息以爆炸的方式增长。多媒体人工标注成本昂贵且缺少有效的索引方法,大部分的多媒体只是简单的存储起来,对它们的进一步使用变得非常困难。目前只接受文本关键词作为检索条件的搜索引擎,已不能适应多媒体信息检索的要求。于是基于内容的多媒体检索技术成了发展的主流。 人是社会的主体,任何事件,只有人参与其中,该事件才有存在的意义。按说话人检索是一种很有效的多媒体检索方式,例如特定人的演讲或表演。本文以说话人信息分析为研究对象,具体探索了说话人信息在说话人改变检测、新闻联播故事分割和多媒体检索中的关键说话人发现中的应用,主要贡献如下: (1)针对贝叶斯信息准则(BIC)说话人改变检测算法存在检测精度低、计算量大等问题,提出了一种改进的BIC说话人改变检测算法。该算法通过提高可测度来提高检测精度;通过限制分析窗内第一个数据窗的最大长度来降低计算量。实验结果表明,与传统的BIC说话人改变检测算法相比,偏移误差范围由0.1~0.5秒减少到0.03~0.2秒;分析窗长越大时,越节省计算时间(当分析窗长为40秒时,节省了约75%的计算时间)。 (2)为了提高改进的BIC说话人改变检测算法的检测准确率,在分析MFCC特征性别差异的基础上,综合考虑性别信息和静音信息在说话人改变检测中的作用,提出了一种两步判决的说话人改变检测算法。第一步利用基频信息、性别模型进行说话人改变判决,第二步将男性和女性说话人分别对待,使用基于性别的改进T2距离公式对说话人改变进行判决。实验结果表明,与改进的BIC说话人改变检测算法相比,F1度量值提高了8.74%。对于短时长(小于2秒)语音段的说话人改变检测,在漏检率方面,比改进的BIC说话人改变检测算法减少了16%。 (3)为了准确检测新闻联播的故事边界,在归纳新闻联播的结构、统计分析不同故事的类型特点和新闻标题的作用基础上,提出了一个基于音视频特征的三步判决的新闻联播故事分割方法。该方法将有主持人的和无主持人的新闻故事分别对待,采用不同的判决方法寻找故事的开始边界。实验结果表明,该方法对有主持人的新闻故事(通过检测主持人),比单独使用视频特征得到的准确率提高了6.92%(达到了95.66%),解决了单独使用视频特征无法去除误判的主持人问题;对无主持人的新闻故事边界检测方面,与只利用静音信息检测相比,误差范围由1.5~2.5秒降为0~0.5秒,解决了只使用静音信息检测开始边界容易丢失静音对应的视频帧的缺陷;故事分割的总准确率为93.12%。 (4)为了发现多媒体检索中的关键说话人,基于说话人频率、说话人持续时间、平均每次说话人时长和说话人位置因子四个因素综合定义了说话人关键度,用以判断说话人的重要性,把每个故事中说话人关键度最大的人作为关键说话人。首先使用惩罚距离与GMM说话人超级矢量对说话人进行索引,然后寻找故事中的关键说话人。实验结果表明,使用惩罚距离与GMM说话人超级矢量得到的说话人索引准确率(SIA)为88.24%和说话人数量准确率(SNA)为90.17%;采用说话人关键度的方法可以找到95%的关键说话人。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TN912.34

手机知网App
【引证文献】
中国博士学位论文全文数据库 前1条
1 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王勇烈;积分对Jensen不等式的隔离[J];北京联合大学学报;1994年03期
2 杨继臣;贺前华;潘伟锵;徐益君;李艳雄;;一种改进的BIC说话人改变检测算法[J];华南理工大学学报(自然科学版);2009年09期
3 徐新文;李国辉;甘亚莉;;基于播音员识别的新闻视频故事分割方法[J];计算机工程与应用;2008年19期
4 杨继臣;王伟凝;;一种基于随机段的固定音频检索方法[J];计算机应用;2010年01期
5 孙吉红;刘伟成;焦玉英;;多媒体信息检索研究与展望[J];计算机应用研究;2008年03期
6 马宇飞,白雪生,徐光祐,史元春;新闻视频中口播帧检测方法的研究[J];软件学报;2001年03期
7 付中华;张艳宁;;在线无监督说话人检索中稳健的模型自举算法[J];软件学报;2007年03期
8 王宁敏;;语音身份识别及其在犯罪侦查中的运用[J];人民检察;2009年08期
9 张卫强;刘加;;网络音频数据检索技术[J];通信学报;2007年12期
10 郑贵滨;韩纪庆;李海峰;郑铁然;;基于分段的实时声频检索方法[J];声学学报;2006年02期
中国博士学位论文全文数据库 前7条
1 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
2 郑贵滨;基于内容的音频信息检索技术研究[D];哈尔滨工业大学;2006年
3 刘明辉;基于GMM和SVM的文本无关的说话人确认方法研究[D];中国科学技术大学;2007年
4 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年
5 王坚;语音识别中的说话人自适应研究[D];北京邮电大学;2007年
6 郭武;复杂信道下的说话人识别[D];中国科学技术大学;2007年
7 李艳雄;自然口语语音中非文字音频事件检测方法研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前2条
1 李默;新闻视频场景分割技术研究[D];中国人民解放军信息工程大学;2005年
2 张箭;基于内容的新闻视频检索系统研究[D];西安电子科技大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
2 张聪;;储粮害虫声信号编解码系统的设计与实现[J];安徽农业科学;2006年21期
3 陈蕴谷;;基于谱减法和经验模式分解的语音增强[J];安庆师范学院学报(自然科学版);2010年01期
4 孔令志;罗森林;张冰;王耀威;;纯音乐与语音-音乐混合片段的高准确识别方法[J];北京理工大学学报;2009年01期
5 牛滨;孔令志;罗森林;潘丽敏;郭亮;;基于MFCC和GMM的个性音乐推荐模型[J];北京理工大学学报;2009年04期
6 张娟;韩殿元;黄心渊;;自然背景下的梅花图像分割算法研究[J];北京林业大学学报;2012年03期
7 杨得国;姜金娣;曹文泉;曾玥;万红娟;;基于音频特征和逼近信号统计特征的数字零水印算法[J];江西师范大学学报(自然科学版);2011年06期
8 刘琨;金文标;;基于脉冲耦合神经网络的孤立词语音识别研究[J];重庆邮电大学学报(自然科学版);2008年02期
9 冯哲;孙吉贵;张长胜;王岩;;汉语语音合成的研究进展[J];吉林大学学报(信息科学版);2007年02期
10 刘筠;卢超;;一种新型语音识别系统[J];成都大学学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前10条
1 边红昌;程德福;祁玉林;张坤;;基于DSP和ZigBee无线智能语音控制系统设计[A];第二十六届中国控制会议论文集[C];2007年
2 董静;刘健刚;;英语寂语声信号检测[A];2011'中国西部声学学术交流会论文集[C];2011年
3 田业;贾珈;江建博;蔡莲红;;汉语普通话声调增强算法的研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 李曼曼;杨鸿武;洪宁;杨硕;刘亚丽;;基于EMD的带噪语音端点检测[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
5 刘博;杨鸿武;甘振业;李曼曼;孙红英;;面向藏语机读音标SAMPA-T的字音转换[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 黄晓丹;洪青阳;李琳;李稀敏;梁大伟;陈万里;吕伟辰;丘敬云;王薇;;声纹识别语音数据库建设的探讨[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 吴倩;史萍;;新闻视频中主持人帧检测方法的研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
8 方杰;李英;陶泯;;语音信号的一种加权的鲁棒特征参数W_RAS_MFCC[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
9 安镇宙;杨鉴;王红;余映;;一种新的基于分段排序裁剪的分层构筑DTW识别算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
10 杨威明;;基于阈值的小波变换语音增强方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
4 王晓松;复杂背景下树木图像提取研究[D];北京林业大学;2010年
5 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
6 俞凯;计算机书法若干关键技术研究[D];浙江大学;2010年
7 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
8 夏丁胤;互联网图像高效标注和解译的关键技术研究[D];浙江大学;2010年
9 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
10 曾庆虎;机械传动系统关键零部件故障预测技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 周雪梅;基于颜色和形状特征的图像检索技术研究[D];河南理工大学;2010年
2 王萍;语音情感识别研究[D];山东科技大学;2010年
3 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
4 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
5 曹唯伟;基于拼音编码的水下语音通信发射端的设计与实现[D];哈尔滨工程大学;2010年
6 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
7 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
8 孙大为;数字化单边带水声语音通信系统的研究与实现[D];哈尔滨工程大学;2010年
9 陈伟伟;基于鼾声检测的睡眠呼吸暂停低通气综合症诊断[D];大连理工大学;2010年
10 翟文博;基于SIP协议框架的语音通信系统的研究与设计[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张磊,韩纪庆,王承发;变异语音处理的研究进展[J];电子学报;2003年03期
2 陈果;;非线性时间序列的动力学混沌特征自动提取技术[J];航空动力学报;2007年01期
3 徐利敏;唐振民;何可可;钱博;;基于自适应直方图均衡化的鲁棒性说话人辨认研究[J];自动化学报;2008年07期
4 文颖;施鹏飞;;一种基于共同向量结合2DPCA的人脸识别方法[J];自动化学报;2009年02期
5 赵力,钱向民,邹采荣,吴镇扬;语音信号中的情感识别研究[J];软件学报;2001年07期
6 金赟;赵艳;黄程韦;赵力;;耳语音情感数据库的设计与建立[J];声学技术;2010年01期
7 王素品,万明习,倪小珂,钱明;病变语音信号的谐波噪声比分析[J];西安交通大学学报;1996年09期
8 张家騄;超音段特征间的相互作用[J];声学学报;1993年04期
9 邹原,万明习,牛海军,赵守国,王素品;嗓音源谐波噪声独立分量分离估计方法[J];声学学报;2001年06期
10 吕成国,韩纪庆,王承发;动态时间规正与差别子空间相结合的变异语音识别方法[J];声学学报;2005年03期
中国博士学位论文全文数据库 前4条
1 唐发明;基于统计学习理论的支持向量机算法研究[D];华中科技大学;2005年
2 刘明辉;基于GMM和SVM的文本无关的说话人确认方法研究[D];中国科学技术大学;2007年
3 解焱陆;基于特征变换和分类的文本无关电话语音说话人识别研究[D];中国科学技术大学;2007年
4 任双桥;支撑矢量机理论与应用研究[D];国防科学技术大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 何俊;贺前华;张清华;孙国玺;肖明;左敬龙;;基于共同向量的非常态语音说话人识别算法[J];计算机工程与科学;2014年08期
【二级参考文献】
中国期刊全文数据库 前10条
1 甄斌,吴玺宏,刘志敏,迟惠生;语音识别和说话人识别中各倒谱分量的相对重要性[J];北京大学学报(自然科学版);2001年03期
2 王炜,刘峰,吴淑珍;RASTA滤波在语音通信质量客观评价中应用的研究[J];北京大学学报(自然科学版);2003年05期
3 李超;熊璋;朱成军;;基于距离相关图的音频相似性度量方法[J];北京航空航天大学学报;2006年02期
4 李虎生,杨明杰,刘润生;汉语数码语音识别自适应算法[J];电路与系统学报;1999年02期
5 李霄寒,戴蓓倩,方绍武,刘鸣;基于子带HMM和MLP的话者确认系统的噪声鲁棒性研究[J];电路与系统学报;2002年02期
6 杜利民;自动语言辨识研究(下)[J];电子科技导报;1996年05期
7 史静朴,陈际,陈向东,陈川,王守觉;用神经计算机的说话人确认系统及其应用[J];电子学报;1999年10期
8 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
9 何磊,武健,方棣棠,吴文虎;最大后验估计和最近邻线性回归结合的说话人自适应方法[J];电子学报;2000年11期
10 王守觉;仿生模式识别(拓扑模式识别)——一种模式识别新模型的理论与应用[J];电子学报;2002年10期
中国重要会议论文全文数据库 前1条
1 潘复平;赵庆卫;颜永红;;一个基于语音识别的音频检索系统的实现[A];第八届全国人机语音通讯学术会议论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 付中华;说话人识别系统鲁棒性研究[D];西北工业大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 吕声,尹俊勋;同语种说话人转换的实现[J];移动通信;2004年S3期
2 勾轶,刘晓丽,陈长征;基于小波与神经网络的说话人身份识别[J];沈阳工业大学学报;2005年01期
3 田松乾;语用学在英语语法教学中的作用[J];现代情报;2000年05期
4 夏菁,尹俊勋,黄建成,黄锋;基于正弦加噪声模型的说话人转换方法[J];电声技术;2005年02期
5 黄金明;说话人身份识别系统的设计与实现[J];计算机工程;2004年S1期
6 俞振利,张礼和;从任意连续语音中实时提取说话人特征及三维显示[J];浙江大学学报(理学版);1992年04期
7 岳喜才,伍晓宇,郑崇勋;用神经阵列网络进行文本无关的说话人识别[J];声学学报(中文版);2000年03期
8 彭煊,王炳锡;基于高斯混合模型差别度量的说话人聚类[J];计算机工程与应用;2005年05期
9 杜江,朱柯;智能麦克风阵列语音分离和说话人跟踪技术研究[J];电子学报;2005年02期
10 宁飞,陈频;说话人识别的几种方法[J];电声技术;2001年12期
中国重要会议论文全文数据库 前10条
1 林会杰;贾珈;王晓慧;蔡莲红;;基于B/S模式的3D双语虚拟说话人的研究与实现[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
2 吴敏玲;;くゐ·いく’‘~てくゐ·ていく’表动作空间范畴移动语言形式的日语语言特点——和汉语“来、去”、“~来、~去”比较[A];福建省外国语文学会2002年会论文集[C];2002年
3 刘大力;赵力;;与文本无关说话人识别系统的性能比较[A];2004年全国物理声学会议论文集[C];2004年
4 尹巧萍;赵力;;利用语音基音统计特征的说话人性别判识的研究[A];2007’促进西部发展声学学术交流会论文集[C];2007年
5 邓英;;基于说话人的对话语音分割[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
6 蒋冬梅;赵荣椿;;基于尺度描述的说话人归一化语音特征[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
7 周绍良;;修绠山房梓《宣和遗事》跋[A];水浒争鸣(第一辑)[C];1982年
8 欧贵文;邓英;;基于说话人的对话语音分割[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 屈丹;魏鑫;王炳锡;;说话人归一化技术用于语言辨识系统[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
10 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 ;美科学家要研制无声感应“手机”[N];新华每日电讯;2005年
2 张申 蔡莲红;富于表情的虚拟人脸合成[N];计算机世界;2007年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 中国科学院自动化研究所模式识别国家重点实验室 辛乐陶建华;说话人头像技术:让语音可视[N];计算机世界;2007年
5 曹文彪;生气与高致[N];文学报;2006年
6 中国科学院自动化研究所模式识别国家重点实验室 周密陶建华;与电脑面谈[N];计算机世界;2007年
7 北京大学信息科学中心视觉与听觉信息处理国家重点实验室 吴玺宏;声纹识别听声辨人[N];计算机世界;2001年
8 刘喜喜;让视频会议多一些人工智能[N];中国计算机报;2008年
9 唐志强;不听别人说话,也能模仿其口音[N];新华每日电讯;2010年
10 秋水;挑吃“绿色” 敲响食品安全警钟[N];中国改革报;2006年
中国博士学位论文全文数据库 前10条
1 杨继臣;说话人信息分析及其在多媒体检索中的应用研究[D];华南理工大学;2010年
2 陈凌辉;说话人转换建模方法研究[D];中国科学技术大学;2013年
3 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
4 潘逸倩;声纹密码技术研究[D];中国科学技术大学;2012年
5 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
6 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
7 金乃高;音视频联合说话人定位与跟踪方法研究[D];大连理工大学;2008年
8 孙洪威;现代汉语转折副词语义功能研究[D];吉林大学;2014年
9 闵星雅;助动词“能”和“会”的认知研究[D];上海师范大学;2007年
10 祝东平;汉语时间感知模式与相关汉语因素研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前10条
1 默盼;论宋代说话人[D];渤海大学;2012年
2 陆亮;多信道条件下的说话人认证[D];北京邮电大学;2010年
3 张力;说话人分段与聚类技术研究[D];解放军信息工程大学;2012年
4 高娅;说话人转变检测的研究与实现[D];南京邮电大学;2013年
5 赵洪刚;基于对话型语音的说话人在线识别技术研究[D];黑龙江大学;2010年
6 李向格;关于“レてもぃぃ”与“レてぃぃ”的意义分析[D];吉林大学;2012年
7 黄雪莲;韩国语‘(?)’的话语功能分析[D];延边大学;2012年
8 毛永刚;基于相关向量机的说话人判别研究[D];电子科技大学;2012年
9 徐晨;基于支持向量机的说话人辨别研究[D];陕西师范大学;2013年
10 陶艺丞;幽默,说话人的意图和听话人的理解失败[D];广东外语外贸大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026