收藏本站
《中国海洋大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

极小化标注的音频分类和句子切分的研究

赵群  
【摘要】: 语音库的自动建设在可训练的语音合成中占有很重要的地位,它要求对输入的音频进行类别的区分来进行不同的处理,并将处理后的音频分割为句子作为后续的音段切分系统的输入。音频分类和句子切分技术是解决这一问题的关键。此外,已有的音频分类和句子切分技术都需要大量的人工标注数据来训练模型和测试分类结果,但人工标注费时费力,很大程度上增加了系统构建的成本。在这种背景下,极小化标注的音频分类和句子切分的研究有很高的理论研究及使用价值。对此,本论文在基于内容的音频分类和不依赖语音识别的句子切分方面,包括特征选择、极小化标注、关键技术改进以及相关技术应用,进行了深入而系统的研究,本论文具体的研究工作和研究成果如下。 1)深入分析了音频信息的主要来源和音频的语义内容,根据所采用的新闻朗读音频的特点,将音频分为:纯语音,纯音乐和音乐和语音的混合三类。从帧层次上和段层次上深入研究了不同类别音频之间的区别性特征,除了频域能量、过零率、MFCC参数等基础特征,还采用了新的特征:静音比率、High-ZCR比率和Low frequency energy比率。本文的一个创新点是,通过深入分析协同训练算法co-training在极小化标注数据量并保证分类精度方面的优势,采用基于最大熵分类的co-training算法进行音频分类。通过实验证明了co-training在音频分类上的性能。 2)为实现极小化标注,深入研究了基于最大熵(Maxent)分类的协同训练算法co-training。Co-training是实现极小化标注的核心,通过研究比较了不同参数设置对分类精度的影响,综合时间代价及计算代价进行分析,确定了性能最优的一组参数。同时,针对音频分类和句子切分的数值分类方式,对Maxent分类器的分类方式进行调整。通过实验证明了co-training算法在极小化可用的人工标注数据量和二元分类方面的性能,为极小化标注的音频分类和句子切分的实现提供了坚实的基础。 3)通过对依赖语音识别的句子切分方法的缺点的分析,深入研究韵律特征对句子切分的重要作用,据此对音频进行帧水平上的元音/辅音/停顿的分类,并采用了韵律特征、停顿特征和语速两个特征集,对音频进行基于语义的句子切分。为了实现句子切分的无标注特性,引入一种基于强制对齐和语音识别的带有检错机制的标注数据生成方法用于自动提供标注数据,并采用基于最大熵分类的co-training算法,解决了标注数据不足对分类精度的影响,实现了无标注的不依赖识别的句子边界探测。最后,针对无法确定探测出的句子边界是否为真正的边界的问题,提出一种检错机制,通过比对文本和元音/辅音/停顿分类后的音频上的元音个数的相应比例对句子切分的结果进行检错,以确定绝对准确的句子边界,直接用于后续的处理过程和系统中。本文的第二个创新点是实现了句子切分系统的无标注特性,并提出一种检错机制来确定和提取真正的句子边界。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈剑赟,李云浩,吴玲达,老松扬,白亮;辅助足球视频切分的音频自动分类与分段[J];国防科技大学学报;2004年06期
2 朱爱红,李连;基于内容的音频检索综述[J];微机发展;2003年12期
3 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
4 郑继明;李瑞仙;蒲兴成;;基于单状态HMM的音频分类方法研究[J];计算机应用;2009年02期
5 陈姗姗;;未来广播中的音频检索技术[J];视听界(广播电视技术);2010年03期
6 俞玉莲;郭世杰;;音频分类中的特征分析[J];信息技术;2009年06期
7 齐俊英,孙劲光,高爱东;基于内容的音频自动分类方法[J];辽宁工程技术大学学报;2005年S1期
8 胡艳芳;吴及;刘慧星;;基于MLER的语音/音乐分类方法[J];清华大学学报(自然科学版);2008年S1期
9 史东承;韩玲艳;于明会;;基于HMM/SVM的音频自动分类[J];长春工业大学学报(自然科学版);2008年02期
10 白云晖;;基于内容的音频检索[J];广播与电视技术;2007年06期
11 康健辉;吴渝;郑继明;;基于向量空间模型的改进音频分类算法[J];河南师范大学学报(自然科学版);2008年06期
12 张瑞杰;李弼程;张连海;屈丹;;基于VQ-GMM的音频分类[J];信息工程大学学报;2008年04期
13 郑继明;俞佳;;基于小波变换和支持向量机的音频分类[J];计算机工程与应用;2009年11期
14 刘遵雄;许金凤;曾丽辉;;基于核Logistic回归的乐器音乐辨识[J];华东交通大学学报;2010年04期
15 练芝飞;徐荣聪;;最近特征线在音频分类中的应用[J];计算机工程;2011年02期
16 王清亮;常青;薛向阳;;音频信息检索综述[J];计算机科学;2004年06期
17 俞玉莲;郭世杰;;基于支持向量机的多类音频分类[J];计算机应用与软件;2010年04期
18 于俊清;崔玉强;何云峰;;足球比赛中的音频信息提取与自动分类[J];华中科技大学学报(自然科学版);2007年10期
19 颜景斌;吴石;伊戈尔·艾杜阿尔达维奇;;基于单类支持向量机的音频分类[J];计算机应用;2009年05期
20 季春;;音频信息检索技术的发展及应用[J];现代情报;2007年01期
中国重要会议论文全文数据库 前10条
1 杨靓;苗振江;;WEB音频自动分类的研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
2 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 梁伟;姜洪臣;张树武;徐波;;一种快速的音频分割与分类技术[A];第八届全国人机语音通讯学术会议论文集[C];2005年
4 芮瑞;鲍长春;;基于概率神经网络的语音与音乐分类[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
5 何新;史迎春;黄兵;周献中;;基于SVM/HMM混合模型的音频分类方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
6 郑李磊;谢磊;王晓暄;卢咪咪;杨玉莲;张艳宁;;中文新闻字幕自动生成系统的设计与实现[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
7 潘复平;赵庆卫;颜永红;;一个基于语音识别的音频检索系统的实现[A];第八届全国人机语音通讯学术会议论文集[C];2005年
8 吕萍;颜永红;;广播新闻语料自动识别系统[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 陈荆勇;谢湘;刘家康;;基于最近特征线法的语音/音乐分类[A];第八届全国人机语音通讯学术会议论文集[C];2005年
10 胡艳芳;吴及;刘慧星;;基于MLER的语音/音乐分类方法[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 冉捷;共同基金在欧美的发展[N];中国建材报;2003年
2 记者 卢晓平;外资银行看好中国汇率机制改革[N];上海证券报;2005年
3 林宗辉;移动电话微型天线的设计[N];电子资讯时报;2007年
4 吕阳;电力企业应重视风险管理[N];中国电力报;2003年
5 ;国外城市基础设施建设运营的理论与实践[N];中国房地产报;2003年
6 陈颐;爱普生:环境经营争先锋[N];经济日报;2004年
7 黄伟明;赵普的读书方法[N];信息时报;2000年
8 漏丹;ABB:切开中国能源蛋糕[N];经济观察报;2006年
9 余卫华;三星电子率先量产1600万色DDI[N];电子资讯时报;2007年
10 崔宏;管好事务所的“法则”[N];中国财经报;2000年
中国博士学位论文全文数据库 前10条
1 王荣燕;复杂音频分类中的关键问题研究[D];北京邮电大学;2011年
2 王荣燕;复杂音频分类中的关键问题研究[D];北京邮电大学;2011年
3 王昱洁;音频隐写分析机理与关键技术研究[D];中国科学技术大学;2011年
4 何新;基于内容的音频信息分类检索技术研究[D];南京理工大学;2007年
5 冀中;基于多模态信息的新闻视频内容分析技术研究[D];天津大学;2007年
6 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
7 汤林勰;多媒体广告计算[D];中国科学技术大学;2011年
8 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
10 王科平;自动图像标注的关键技术研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
2 黄千;基于支持向量机的音频分类技术研究与应用[D];北京邮电大学;2010年
3 吴顺妹;音频分类技术研究[D];哈尔滨工业大学;2009年
4 涂悦;基于内容的音频分类技术及其在多媒体检索中的应用[D];华南理工大学;2012年
5 杨靓;互联网才艺表演音频分类的研究[D];北京交通大学;2011年
6 朱志婷;基于SVM的音频分类理论研究及应用[D];华南理工大学;2012年
7 李荣杰;基于音频词袋和MPEG-7特征的暴力视频快速分类算法研究[D];上海交通大学;2010年
8 江超;视频语义提取分析研究[D];西安电子科技大学;2011年
9 郭世杰;基于支持向量机的多类分类问题的研究[D];上海师范大学;2005年
10 孙国成;基于内容的音频检索研究[D];华中科技大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978