收藏本站
《国防科学技术大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

音频分类与分割技术研究

白亮  
【摘要】:随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有很重要的地位。 原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在认真总结前人研究成果的基础上,着重解决了音频结构分析、音频特征分析与抽取、基于SVM的音频分类器和基于熵和动态规划算法的音频分割方法这四个方面的问题。 本文工作和研究成果主要包括以下几个方面: (1) 深入考察了音频信息的主要来源,在此基础上分析了音频的语义内容,明确了音频信息中主要的音频类型,据此将音频分为:纯语音,含背景音的语音,音乐,环境音,噪音,静音六类。定义了不同层次的音频结构单元,在此基础上提出了一个新的层次化音频结构分析框架。音频分类本质上是一个模式识别过程,根据模式识别理论,设计了音频分类与分割的技术流程,并对其中所涉及到的关键技术进行了探讨。 (2) 从帧层次上和clip层次上深入研究了不同类别音频之间的区别性特征。针对分类中存在的误分类情况,提出了四个新的特征——静音比率、High-ZCR比率、Low-Frequency Energy比率和频谱流量。深入研究了抽取的特征在本文提出的基于SVM的分类器中的分类性能。 (3) 深入研究了SVM的训练算法。SVM的训练算法是实现基于SVM分类器的核心问题,通过研究比较了不同训练算法的优缺点,确定了性能最优的一种训练算法,为基于SVM分类器的设计实现提供了坚实的基础。分析了传统的基于规则的分类器的缺点,结合决策树的思想提出了一种SVM决策树方法,利用该方法构造了一种适合于音频分类的基于SVM决策树的多类分类器。并结合实际分类问题,综合基于规则的和基于SVM的分类器的优点,设计实现了一个混合音频分类器。 (4) 分析了传统的基于滑窗的分割算法的缺点,提出了一种基于熵和动态规划算法的动态音频分割方法,通过实验分析了该方法的分割性能。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TN912.3

【引证文献】
中国期刊全文数据库 前5条
1 容宝华;;基于最小距离的音频分类方法的研究[J];电声技术;2012年11期
2 刘建辉;曾丽辉;许金凤;刘遵雄;;基于最小二乘支持向量机的乐器音乐分类[J];华东交通大学学报;2009年06期
3 张新彩;张德同;耿国华;王小凤;吴江;;基于PCA和CHMM的音频自动分类[J];计算机应用研究;2009年04期
4 郑怡文;;典型的音频分类算法[J];计算机与现代化;2007年08期
5 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
中国博士学位论文全文数据库 前2条
1 何新;基于内容的音频信息分类检索技术研究[D];南京理工大学;2007年
2 关欣;音乐信号自动分类相关算法研究[D];天津大学;2009年
中国硕士学位论文全文数据库 前10条
1 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
2 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
3 刘婷婷;基于SSVM的音频识别的研究[D];华南理工大学;2011年
4 张浩;连续音频流分割分类系统研究[D];郑州大学;2011年
5 朱健康;基于支持向量机的音乐自动分类[D];天津大学;2010年
6 徐星;基于最小一范数的稀疏表示音乐流派与乐器分类算法研究[D];天津大学;2012年
7 邬显康;基于内容的音频检索技术研究与系统实现[D];西安电子科技大学;2007年
8 王超;基于小波和隐马尔可夫模型的音频分类[D];西北工业大学;2007年
9 孙庆欣;基于支持向量机的集成学习音频分类算法[D];吉林大学;2007年
10 周先发;嵌入式媒体库的设计与实现[D];重庆大学;2007年
【参考文献】
中国期刊全文数据库 前2条
1 卢坚 ,陈毅松 ,孙正兴 ,张福炎;语音/音乐自动分类中的特征分析[J];计算机辅助设计与图形学学报;2002年03期
2 卢坚 ,陈毅松 ,孙正兴 ,张福炎;基于隐马尔可夫模型的音频自动分类[J];软件学报;2002年08期
【共引文献】
中国期刊全文数据库 前10条
1 巩玉志;王士杰;武换娥;;支持向量机在深层搅拌桩复合地基承载力预测中的应用研究[J];四川建筑科学研究;2008年02期
2 曹玉茹;郑戟明;;局部紧锥上的一类平衡问题[J];安徽大学学报(自然科学版);2011年04期
3 何朝林,王旭;证券组合模型系数的二次规划求解[J];安徽机电学院学报;2001年02期
4 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
5 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
6 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
7 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
8 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
9 王彬;牟欣;李敬明;;全球通手机“套餐”资费方案模型[J];白城师范学院学报;2009年03期
10 王丽颖;赵连丽;赵连忠;;多目标规划模型的应用研究[J];白城师范学院学报;2010年06期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 洪弘;基于Hilbert-Huang变换的汉语动态特征分析[D];南京大学;2010年
9 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
10 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 王春力;基于P2P的网络音频捕获与多路混音算法研究[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 楼侃;基于DSP的语音信号环境噪声降噪处理技术的研究[D];长春理工大学;2010年
5 张增银;基因表达式编程与HMM融合技术应用研究[D];广西师范学院;2010年
6 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
7 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
8 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
9 靳志强;报告厅环境下语音增强方法研究[D];郑州大学;2010年
10 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陈小平,胡泽;听觉临界频带及其在声频信号处理中的应用[J];北京广播学院学报(自然科学版);2004年02期
2 杜伟韬,杨占昕;AAC编码器的滤波器组——原理与实现[J];北京广播学院学报(自然科学版);2005年01期
3 郑继明;邢峰;吴渝;李婧;;基于小波变换和支持向量机的音频分类[J];重庆邮电大学学报(自然科学版);2008年02期
4 潘明清,周晓军,杨辰龙,庞茂;基于信息谱熵的支持向量机机械状态识别[J];传感技术学报;2005年02期
5 高友福;;语音的线性预测分析原理与算法[J];长江工程职业技术学院学报;2006年04期
6 董春曦,杨绍全,饶鲜,汤建龙;支持向量机推广能力估计方法比较[J];电路与系统学报;2004年04期
7 常梦星;;多媒体数据库中基于内容的音频分类综述[J];电脑编程技巧与维护;2010年14期
8 罗夙;G.729语音编码标准及其应用[J];电声技术;2002年03期
9 黄春明,陈常谦;心理声学模型及其在MPEG-2AAC中的应用[J];电声技术;2004年11期
10 王海涛;马建仓;;广播电视监播系统简介[J];电声技术;2006年12期
中国重要会议论文全文数据库 前1条
1 李净;徐明星;张继勇;郑方;吴文虎;方棣棠;;汉语连续语音识别中声学模型基元比较:音节、音素、声韵母[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 钟金宏;基于音节的汉语连续语音声调识别方法研究[D];合肥工业大学;2001年
2 王辰;多媒体融合分析技术的研究与实现[D];中国人民解放军国防科学技术大学;2002年
3 俞一彪;基于互信息理论的说话人识别研究[D];上海大学;2004年
4 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年
5 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
6 唐发明;基于统计学习理论的支持向量机算法研究[D];华中科技大学;2005年
7 朱胜利;Mean Shift及相关算法在视频跟踪中的研究[D];浙江大学;2006年
8 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
9 郑贵滨;基于内容的音频信息检索技术研究[D];哈尔滨工业大学;2006年
10 何灵敏;支持向量机集成及在遥感分类中的应用[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 高翔;超球支持向量机在语音识别中的应用研究[D];太原理工大学;2011年
2 温正东;基于视觉手势识别的人—机器人交互系统研究[D];华南理工大学;2011年
3 石雅笋;改进的SURF图像配准算法研究[D];电子科技大学;2011年
4 魏渊洁;基于视频的人机交互方式研究[D];浙江工业大学;2011年
5 夏肇霖;新闻视频故事单元分割[D];南京理工大学;2012年
6 彭宇翔;基于小波变换和线性子空间的人脸识别技术研究[D];浙江大学;2012年
7 李强;基于内容的视频检索研究[D];南京理工大学;2012年
8 张凤羽;基于内容的分布式音频检索技术研究与实现[D];北京邮电大学;2012年
9 董冠宇;数字编码技术在视音频领域中的应用研究[D];东北师范大学;2002年
10 刘志华;基于关系数据库的多媒体资源管理与发布系统的设计与实现[D];国防科学技术大学;2002年
【二级引证文献】
中国期刊全文数据库 前6条
1 常梦星;;多媒体数据库中基于内容的音频分类综述[J];电脑编程技巧与维护;2010年14期
2 容宝华;;基于最小距离的音频分类方法的研究[J];电声技术;2012年11期
3 俞玉莲;郭世杰;;基于支持向量机的多类音频分类[J];计算机应用与软件;2010年04期
4 王池社;张燕;;基于内容的音频数据库的构建与应用[J];微计算机信息;2010年33期
5 孙孟方;张立文;高火涛;;基于支持向量机的字符编码识别系统[J];武汉大学学报(理学版);2013年03期
6 张雁;吕丹桔;王红崧;;基于主动学习的环境音分类研究[J];计算机技术与发展;2014年06期
中国博士学位论文全文数据库 前2条
1 徐奂;基于支持向量机的开放式作物模型(SBOCM)研究[D];浙江大学;2012年
2 唐磊;基于内容和用户历史的音乐可视分析[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 张瑞杰;广播新闻音频结构化技术研究[D];解放军信息工程大学;2009年
2 姬鹏宇;色情视频的音频辅助识别[D];北京邮电大学;2011年
3 史兆印;音频检索技术在数字语音教学系统中的应用与研究[D];南京理工大学;2011年
4 张浩;连续音频流分割分类系统研究[D];郑州大学;2011年
5 徐永俊;基于混沌和SVR的短时交通流预测方法研究[D];西南交通大学;2011年
6 蔡彩;音频结构化技术研究[D];解放军信息工程大学;2009年
7 徐星;基于最小一范数的稀疏表示音乐流派与乐器分类算法研究[D];天津大学;2012年
8 蔡微;基于GMM和人耳听觉特征的歌手识别系统算法研究[D];天津大学;2012年
9 时美子;微弱信号检测与辨识机制研究[D];辽宁工程技术大学;2011年
10 高彦;基于相似度的音频检索系统的设计与实现[D];复旦大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 ;SonyVegas精彩案例任你挑[J];电脑爱好者;2005年18期
2 潘亮;陈川;侯建军;;音频处理大师Audition 2.0使用方法与技巧概览(下)[J];电视字幕(特技与动画);2007年08期
3 李遵义;林水生;李广军;;SSI接口技术及其在音频处理中的应用[J];单片机与嵌入式系统应用;2008年07期
4 邹鹏;;数字音频中的Dither——利用噪声消除噪声[J];现代电视技术;2009年03期
5 popo;;Premiere跟我学——音频处理篇[J];数字世界;2003年01期
6 徐方;;构建网络数字音频工作站系统[J];中国电化教育;2005年12期
7 李夕红;祝忠明;;基于DSP5402的音频处理设计与实现[J];电声技术;2006年12期
8 孙兆辉;;浅谈基于DSP的音频处理及语音识别系统的设计[J];黑龙江科技信息;2008年31期
9 徐俊毅;;CEVA为高清晰音频应用推出业界最高效的单核DSP解决方案[J];电子与电脑;2009年02期
10 赵雪梅;;以太网数字音频终端系统的设计[J];电脑知识与技术;2009年14期
中国重要会议论文全文数据库 前10条
1 王兴国;蒋伟峰;刘济林;顾伟康;;现代音频处理的DSP方案[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 徐波;;海量音频处理及嵌入式语音交互[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
3 廉明涛;;音频处理在中波转播台的应用[A];2005年广播电视技术论文汇编[C];2005年
4 魏增来;;浅探现代多媒体会议系统的设计及其趋势[A];2005年声频工程学术交流会论文集[C];2005年
5 郑亚斌;刘知远;孙茂松;;中文歌词的统计特征及其检索应用[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 孔建民;;音频处理器的原理及在广播系统中作用[A];2007第二届全国广播电视技术论文集2(上)[C];2007年
7 杨琳;程道来;关磊;郭健翔;仪垂杰;;小波变换在驾驶舱话音记录器开关声分析中的应用[A];第二届中国航空学会青年科技论坛文集[C];2006年
8 杨静;;直播用数字调音台的选型和ONAIR3000在音频网络中的典型应用[A];2009年声频工程学术交流年会论文集[C];2009年
9 杨静;;直播用数字调音台的选型和ONAIR3000的网络应用[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(下篇)[C];2009年
10 沈伟;邹建峰;;基于滑动窗口的语音混合算法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 ;德州仪器推出全新DSP[N];人民邮电;2006年
2 ;音频处理[N];电脑报;2001年
3 四川 贺学金;网影HD360全高清多媒体播放器音频、视频信号处理电路分析与故障检修(下)[N];电子报;2011年
4 主持人 诸玲珍;音频IC多样化 主流厂商频出招[N];中国电子报;2007年
5 刘共华;如何选购液晶电视[N];卫生与生活报;2006年
6 记者  李倩;国产高清芯片呼唤“第三方”救市[N];中国电子报;2006年
7 ;音乐文件的编辑、混音及修复[N];中国国门时报;2006年
8 山佳;准专业声卡添新丁[N];计算机世界;2003年
9 顾旭飞;课件制作工具总动员[N];中国电脑教育报;2007年
10 方中;DVD核心技术及功能[N];北京科技报;2000年
中国博士学位论文全文数据库 前9条
1 焦玉华;音频感知哈希算法研究[D];哈尔滨工业大学;2010年
2 冯哲;基于内容的视频检索中的音频处理[D];复旦大学;2004年
3 朱梦尧;数字电视音频子系统设计与音频处理算法研究[D];浙江大学;2009年
4 雷敏;音频数字水印与隐写分析算法研究[D];北京邮电大学;2011年
5 王翠平;基于统计分析的音频隐写分析研究[D];中国科学技术大学;2011年
6 李辉;改进的离散余弦反变换迭代算法研究与音频DSP核设计[D];电子科技大学;2010年
7 赵津晨;高性能音频Delta-Sigma数据转换器的设计与优化技术研究[D];浙江大学;2013年
8 刘宇翔;基于内容的音乐分析研究[D];清华大学;2011年
9 黄雄华;基于内容的数字音频水印技术研究[D];西南交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 蔡彩;音频结构化技术研究[D];解放军信息工程大学;2009年
2 张瑞杰;广播新闻音频结构化技术研究[D];解放军信息工程大学;2009年
3 刘华;音频处理关键模块算法的研究与优化[D];中国海洋大学;2012年
4 姬鹏宇;色情视频的音频辅助识别[D];北京邮电大学;2011年
5 代微璐;数字音频矩阵音频处理模块设计[D];电子科技大学;2012年
6 陈海浪;量化哈希音频指纹技术研究[D];湘潭大学;2011年
7 郭泽华;音频处理感知模型新算法研究[D];西安电子科技大学;2010年
8 欧阳娣;基于嵌入式的音频处理和播放系统的设计[D];中南大学;2013年
9 徐艳;基于压缩感知的车辆音频特征识别研究[D];长安大学;2013年
10 谭钢;基于AFDX的机载数字音频系统设计与实现[D];电子科技大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026