收藏本站
收藏 | 论文排版

融合运动学和声学特征的语音情感识别研究

任国凤  
【摘要】:随着人工智能技术的迅猛发展,人们对人机交互技术提出了更高的要求,希望具有识别人类情感能力的智能产品能够为人机交互用户提供流畅的人机接口。因此,语音情感识别成为了人工智能领域的一个研究热点。为了使计算机可以清晰地感知人类情感并与人类顺畅地交流,必须充分利用语音、面部表情和发音器官运动数据等信号分析和研究语音的情感。另外,情感语音中的发音器官运动学研究成果可以应用于言语康复训练和计算机辅助语言学习中,研究运动学特征向声学特征的转换有助于开展情感语音的产生、识别和合成等方面的研究。综上所述,研究融合运动学和声学特征的语音情感识别对深入研究情感语音的发音机理和人机交互技术具有重大的实际意义和应用价值。本文主要围绕融合运动学和声学特征的语音情感识别系统展开研究,具体内容包括融合运动学和声学特征的双模态情感语音数据集的设计、情感语音中运动学和声学特征的提取及分析、运动学向声学特征的转换系统研究、特征融合及情感识别研究等。首先,本文设计了融合运动学和声学特征的表演型汉语普通话双模态情感语音数据集;其次,对情感语音作运动学特征和声学特征的提取及分析,并对二者的相关性进行研究;再次,提出了基于PSO-LSSVM的运动学-声学特征转换算法,实现了由运动学特征向第二共振峰及12维MFCC特征转换的运算;最后,提出了基于DBM的混合多模态融合方法,并将融合特征应用于情感识别研究中。主要研究内容及创新成果如下所述:(1)设计了包含声学数据和运动学数据的汉语普通话双模态情感语音数据集。本文对融合运动学数据和声学数据的已有常见语音库从建立方法和数据内容的角度进行了对比分析,采用表演法录制了包含四种情感(生气、高兴、伤心和中性)的汉语普通话情感语音集。进而,利用主观和客观评价方法相结合的综合模糊评价模型对声学数据进行评价并筛选,同时根据RMSE对运动学数据进行筛选,最终得到有效的,符合人们日常交流习惯的,包含单元音、双音节词和句子的汉语普通话双模态情感语音数据集,应用于后续的研究中。(2)突破传统的单音节限制,研究了基于运动学-声学特征的双音节词级和句子级情感语音。本文结合声调语言特点,分别以双音节词和包含完整语义的句子为研究对象,分析双模模态情感语音中的运动学特征和声学特征受情感变化的影响,并对运动学特征和声学特征之间的相关性进行分析。在对运动学数据进行特征提取前,对运动学数据进行基于普氏变换的说话人归一,归一后的数据可以消除不同说话人的生理区别。经过研究发现,音节越多情感对运动学特征的影响越显著,比声学特征受情感的影响更显著。同时,随着音节数量的增多,发现舌根和左右嘴角的运动速度受情感影响更加显著。句子级和双音节词级情感语音的运动学-声学特征分析可以证明多音节比单音节或者元音拥有更丰富的情感信息,音节数量越多,情感对运动学特征的影响就越显著。同时,研究表明舌和唇的运动速度与声学的共振峰、基频和振幅等特征间存在强烈的相关性,而且情感的表现越强烈,运动学和声学特征之间的相关性就越强。(3)基于PSO-LSSVM算法提出了双模态情感语音中的运动学-声学特征转换模型。结合运动学-声学特征分析结果,分别应用GMM模型和PSO-LSSVM算法实现了由运动学特征分别向第二共振峰和12维MFCC的转换,并对转换模型进行了理论分析和公式推导。将转换生成的特征与实际的声学特征进行对比,实验结果证明转换精度较高。(4)提出了基于DBM的混合多模态融合方法,并将其应用于情感识别中。本文研究了语音情感识别中的混合融合方法,并对其进行理论分析和公式推导,利用随机森林和支持向量机实现了情感的识别。实验结果表明,混合融合后的识别结果明显优于单一模态情感识别的结果,也优于对声学特征和运动学特征作特征级融合后的识别结果;同时,对K-近邻、支持向量机和随机森林分类器的识别结果进行对比发现,采用随机森林作为识别器的识别效果要优于支持向量机和K-近邻的识别效果。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 王延花;;临夏“花儿”的声学特征分析[J];甘肃教育;2017年05期
2 А.П.Молотков;陈尚森;;拉伸过程中化学纤维的声学特征变化[J];国外纺织技术(化纤、染整、环境保护分册);1987年01期
3 韩明明;巴图格日勒;格根塔娜;德格吉呼;;青海土语乌图美仁话边音/l/的声学特征研究[J];西北民族大学学报(自然科学版);2016年04期
4 孟晓红;张梦翰;;发声态45种声学特征的综合效应分析[J];南开语言学刊;2017年02期
5 邹晨晓;;几种基础情绪下汉语语音的声学特征分析[J];青年作家;2014年18期
6 江海燕;刘岩;卢莉;;维吾尔语疑问语调的声学特征[J];清华大学学报(自然科学版);2008年S1期
7 郑日新;耳鸣声学特征与中医证型关系的初步研究[J];安徽中医学院学报;2005年05期
8 何其超,房斌,龙建忠,许天宏;草原鼠兔呜叫声的观察和声学特征分析[J];声学学报;1996年S1期
9 王永华,甘雨,丁水耿;耳鸣的虚实辨证及声学特征分析[J];中国中西医结合耳鼻咽喉科杂志;1996年03期
10 邓见光;潘晓衡;林玉志;;基于声学特征的乐器识别综述[J];东莞理工学院学报;2012年03期
11 幸晓峰;黄建秋;沈博;王其书;杨永富;廖韧;;良渚文化反山遗址出土玉璧音乐声学特征的初步探讨[J];中华文化论坛;2008年02期
12 钱昆;房玉琢;许志勇;许辉杰;;两个声学特征区分不同鼾声信号的性能比较(英文)[J];电子器件;2013年04期
13 姜铭礼;刘著;蒋仁贵;高瑛;张小刚;;二胡声学特征应用研究[J];乐器;1993年04期
14 王永华;刘哲明;许金凯;于化东;张成春;穆罕默德·艾冲;;聚氨酯制备总质量对其声学特征参数的影响分析[J];长春理工大学学报(自然科学版);2018年05期
15 易斌;;维吾尔语元音/y/的声学特征分析[J];南京师范大学文学院学报;2005年04期
16 刘韶华;胡燕花;何江;;维吾尔语无声间歇的声学特征[J];新疆职业大学学报;2010年01期
17 石锋;;苏州话浊塞音的声学特征[J];语言研究;1983年01期
18 王茂林;;中国人、荷兰人和美国人之间英语元音声学特征的对比研究[J];暨南大学华文学院学报;2006年02期
19 幸晓峰;三星堆遗址出土石璧的祭祀功能和音乐声学特征(下)[J];中华文化论坛;2005年02期
中国重要会议论文全文数据库 前10条
1 吴洁敏;;汉语基调的二维九宫矩阵及其声学参数(论文提要)[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年
2 郑日新;;耳鸣声学特征与中医证型相关性的初步研究[A];中华中医药学会耳鼻咽喉科分会第十二次学术研讨会暨嗓音言语听力医学专题学术研讨会论文集[C];2005年
3 古力努尔·艾尔肯;艾斯卡尔·艾木都拉;;维吾尔语双音节词中元音和谐的声学特征分析[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
4 高迎明;张劲松;解焱陆;;基于DNN的发音偏误趋势检测[A];第十三届全国人机语音通讯学术会议(NCMMSC2015)论文集[C];2015年
5 江海燕;刘岩;卢莉;;维吾尔语疑问语调的实验分析[A];第九届全国人机语音通讯学术会议论文集[C];2007年
6 俞振利;王开志;祖漪清;岳东剑;陈贵林;;基于音节信号声学特征的中文TTS系统中拼接单元的挑选方法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
7 张皖志;陶建华;;基于声韵母基元声学特征的中文TTS系统中音库的量化压缩策略[A];第八届全国人机语音通讯学术会议论文集[C];2005年
8 崔效义;李敬阳;王莉;;采样率对共振峰等声学特征提取的影响[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
9 张祺;;密堆颗粒固体在直剪作用下的声学特征[A];第七届全国液体和软物质物理学术会议程序册及论文摘要集[C];2010年
10 蒋丹宁;蔡莲红;;汉语疑问语气的声学特征研究[A];第六届全国现代语音学学术会议论文集(上)[C];2003年
中国博士学位论文全文数据库 前10条
1 任国凤;融合运动学和声学特征的语音情感识别研究[D];太原理工大学;2019年
2 刘正晨;结合发音特征与深度学习的语音生成方法研究[D];中国科学技术大学;2018年
3 张盛;汉语语音情绪识别[D];中国科学技术大学;2007年
4 孟凡博;连续语流中焦点重音的分析与生成[D];清华大学;2013年
5 谢尔曼;2D-Haar声学特征超向量生成及大规模说话人识别技术研究[D];北京理工大学;2015年
6 孟和吉雅;蒙古语标准音水平测试系统研究[D];内蒙古大学;2010年
7 孙雪;国际音标符号系统之元音声学特征分析[D];南开大学;2009年
8 卢红云;韵母构音运动声学特征分析及治疗策略的制定[D];华东师范大学;2011年
9 刘佳;语音情感识别的研究与应用[D];浙江大学;2009年
10 蒋兵;语种识别深度学习方法研究[D];中国科学技术大学;2015年
中国硕士学位论文全文数据库 前10条
1 周子松;基于支持向量数据描述的风电机组叶片健康声学诊断方法研究[D];北京邮电大学;2019年
2 张世伦;基于人群声学特征的商业步行街声景预测研究[D];哈尔滨工业大学;2017年
3 邸然;保定方言音系实验研究[D];南京师范大学;2018年
4 原梦;基于声学特征和发音运动特征的构音障碍可懂度评估研究[D];天津大学;2018年
5 赵娟;风机叶片健康监测声学特征提取方法研究[D];北京邮电大学;2018年
6 王蓉蓉;基于非参贝叶斯方法的声学单元建模技术及其应用研究[D];战略支援部队信息工程大学;2018年
7 刘晨;藏传佛教乐器的历史传承与声学特征研究[D];西藏大学;2016年
8 林玉志;基于声学特征的乐器识别研究[D];华南理工大学;2012年
9 丁迎春;健听与听障儿童语调声学特征的比较研究[D];华东师范大学;2011年
10 郑鑫;基于深度神经网络的声学特征学习及音素识别的研究[D];清华大学;2014年
中国重要报纸全文数据库 前3条
1 记者 潘治;鸟儿唱歌喜挑“舞台”[N];人民日报;2002年
2 中科院自动化所 陶建华;听话要听音[N];计算机世界;2005年
3 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978