收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本无关短语音说话人识别技术研究

李邵梅  
【摘要】:近年来,随着应用需求的推进和相关理论的发展,说话人识别的研究取得了很大的进展,国内外研究机构正在积极推动其新理论的研究、新方法的实验和实用化进程,其中,利用短语音进行训练和识别的研究备受关注。 从2004年开始NIST(美国国家标准与技术署)在举办说话人识别评测(SRE)时就按照语音长度划分测试项,在语音长度最短的测试项中,训练和识别的语音长度都不大于10秒。从评测的结果来看,与语音长度较长的测试项相比,该测试项性能下降严重。这主要是因为目前的说话人识别系统主要采用概率统计模型,识别性能很大程度上依赖于训练语音和测试语音的匹配程度,而通常采用的短时倒谱特征中同时包含说话人信息和语义信息,其中语义信息的差异会影响训练和识别的匹配程度。文本相关的说话人识别性能远优于文本无关的说话人识别的主要原因就在于它保证了训练和识别中的语义是完全匹配的。但是在文本无关的说话人识别中,如果训练和测试语音太短,两者的语义内容可能存在较为严重的失配现象,而现有的语音信号处理技术不能实现语音中的语义信息和说话人信息的分离,所以这是影响文本无关说话人识别性能的重要因素。 为了研究语音长度对说话人识别性能的影响,提高短语音的识别性能,本文研究主要基于以下两个思路展开:1、研究如何克服短语音条件下训练和识别语音的语义不匹配对识别性能的影响,并且针对说话人辨认和说话人确认两种应用,分别提出了解决方法。2、研究如何通过从长度有限的语音中提取尽可能多的语音特征,丰富说话人特征的描述,进而提高短语音条件下说话人识别的性能。 本课题的主要贡献和创新点包括以下几个方面: 1)提出了基于“说话人属性约束”的特征变换方法,通过相对抑制语义信息对短时倒谱特征分布的影响,突出说话人信息在语音特征空间分布中的作用,使同一说话人的特征分布更集中,不同说话人间的区分更明显,从而提高了短语音说话人辨认的识别率。本文利用语音信号服从内蕴的非线性流形结构分布的特点,基于语音特征在空间中的局部几何结构,构建了近邻关系关联包;利用说话人属性约束变换,减少了短时倒谱特征中语义信息对说话人辨认的影响;并推导出了该变换中的显性变换矩阵,在GMM-UBM(Gaussian Mixture Model-Universal Background Model,混合高斯模型-通用背景模型)模型的基线说话人辨认系统进行了测试。在同一数据集上,跟已有的特征变换方法相比,在训练语音长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,该方法误识率的相对改善率分别为13.48%、9.58%、8.75%、9.90%和11.92%。 2)提出了基于UBM(Universal Background Model,通用背景模型)混元子空间的文本无关说话人确认方法,寻找训练语音和测试语音的超向量中语义匹配的单元,充分利用这部分的识别结果,同时,减少超向量特征中语义不匹配部分的影响,降低了短语音说话人确认中的等错误率。本文根据文本相关的说话人识别的性能要远优于文本无关的说话人识别的性能的客观事实,以及训练语音和测试语音中的语义信息不匹配是影响短语音说话人识别性能的主要原因,提出了基于通用背景模型的混元在空间中分布的近邻关系,通过划分混元子空间的方法将文本无关的说话人识别隐性地转换为基于“语义内容”的说话人识别方法。利用语音特征对混元子空间的归属关系,对训练语音和测试语音进行拆分,基于各子空间内的子超向量识别,实现文本无关到“语义内容”相关的转换,最后通过设计合理的融合方法对各子空间的识别结果进行融合。在同一数据集上,本文提出的说话人确认方法和已有的基于子空间的说话人确认系统相比,在训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其等错误率的相对改善率分别为8.67%、10.22%、6.13%、5.00%和6.10%。 3)提出了“仿生神经网络激励源”特征,将仿生模式识别的思想引入到说话人激励源建模中,验证了该特征用于说话人识别的有效性,并与基于短时倒谱特征的系统结合,提高了说话人识别的性能。针对现有的基于AANN(Auto-Associate Neural Network,自联想神经网络)方法从LP(Linear Prediction,线性预测)残差中提取激励源特征的不足,提出了基于仿生神经网络的说话人LP残差建模方法,并以此构建了激励源特征和相应的识别系统。该方法避免了传统神经网络中复杂的迭代训练过程,同时利用仿生模式识别的“基于认知而非区分”的思想有效地提高了系统在小样本,也就是短语音条件下的识别效果。在同一数据集上,基于LP残差向量,跟已有的基于AANN的识别方法相比,本文提出的基于仿生神经的识别方法在说话人辨认中,当训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其误识率相对改善率分别为6.98%、11.59%、9.67%、9.00%和18.45%。鉴于在说话人识别中,基于LP残差的激励源特征对短时倒谱特征具有很好的互补性,研究了基于短时倒谱特征和激励源特征融合的短语音说话人识别,并设计了基于可信度的短时倒谱特征和激励源特征判决融合方法。通过对不同特征间相关性的度量,研究了说话人识别中LP残差激励源特征对短时倒谱特征的互补性,为说话人识别中激励源特征和短时倒谱特征的结果融合提供了理论依据。针对说话人辨认和说话人确认,分别采用了基于单次识别中各特征识别结果可靠性的动态融合方法和基于不同特征在说话人识别中固有的区分性能的静态融合方法。相对于单一的短时倒谱特征,两种特征的识别结果融合之后,当训练语音的长度为10秒,测试语音长度分别为10秒、8秒、5秒、3秒和2秒时,系统识别性能的相对改善率分别为13.44%、11.11%、10.22%、10.12%和8.95%(说话人辨认)和5.51%、5.02%、10.72%、8.43%和2.55%(说话人确认)。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马建,郭建东;说话人识别技术研究[J];福建电脑;2005年01期
2 林平澜;王仁华;;动态HMM及其在说话人识别中的应用[J];信号处理;1993年04期
3 周静芳,陈一宁,李科,刘加;基于高斯语音滤波的稳健文本无关说话人识别[J];计算机工程;2005年02期
4 邓浩江,王守觉,邢藏菊,李倩;基于聚类统计与文本无关的说话人识别研究[J];电路与系统学报;2001年03期
5 王炜,王炳锡,王波;信道补偿技术的发展及其在说话人识别上的应用[J];电声技术;2004年04期
6 余华,赵力,吴镇扬;基于FVQ的说话人识别系统的DSP实现[J];电声技术;2004年08期
7 廖贵成,罗文广;一种基于说话人识别技术的自动音量控制系统[J];桂林电子工业学院学报;2004年06期
8 韩雁,陈利华;说话人计算机识别系统的设计与实现[J];浙江大学学报(工学版);2001年02期
9 吴晓娟,韩先花,聂开宝;模糊C-均值(FCM)聚类法与矢量量化法相结合用于说话人识别[J];电子与信息学报;2002年06期
10 单进;;说话人识别技术研究[J];科技资讯;2010年21期
11 戴红霞,赵力;采用帧概率变换的与文本无关说话人识别系统的实现[J];电声技术;2004年09期
12 武妍,金明曦,王洪波;基于KL-小波包分析的文本无关的说话人识别[J];计算机工程与应用;2005年04期
13 刘雅琴,杜海明;基于矢量量化的说话人识别[J];洛阳师范学院学报;2005年05期
14 刘云冰;彭静;吴传菊;肖俊;祝彦成;;基于HMM的说话人识别[J];科技创业月刊;2007年04期
15 陈炜杰;姚明海;;PLAR在噪声环境下说话人识别中的应用[J];中国新通信;2008年09期
16 檀蕊莲;;基于VQ的说话人识别技术研究[J];信息技术;2010年08期
17 尉洪,周浩,杨鉴;基于矢量量化的组合参数法说话人识别[J];云南大学学报(自然科学版);2002年02期
18 张玲华,杨震,郑宝玉;基于HMM的说话人辨认系统及其改进[J];电讯技术;2003年06期
19 王吉林;利用矢量量化的说话人识别系统的研究[J];安徽工业大学学报(自然科学版);2005年03期
20 陆小珊,王俊法,田岚;音高特征在说话人识别中的可分性及应用研究[J];山东大学学报(工学版);2005年04期
中国重要会议论文全文数据库 前10条
1 李桂春;郑能恒;李霞;;基于模糊隶属值加权的MFCC特征提取算法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
2 司罗;胡起秀;金琴;;完全无监督的双人对话中的说话人分隔[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
3 周昊朗;王岚;陈珂;;一个面向说话人识别的汉语语音数据库[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 周昊朗;王岚;吴玺宏;迟惠生;;一个面向说话人识别的汉语语音数据库[A];信号与信息处理技术——第一届信号与信息处理联合学术会议论文集[C];2002年
5 侯丽敏;谢娟敏;;共振峰瞬时频率特征用于说话人识别[A];第九届中国语音学学术会议论文集[C];2010年
6 周静芳;陈一宁;刘润生;;一种新的说话人识别信道补偿技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
7 吴志强;陈珂;迟惠生;;语音识别技术与说话人识别技术的结合——文本无关说话人识别的另一种方法[A];第四届全国人机语音通讯学术会议论文集[C];1996年
8 卓群;欧贵文;;基于模糊高斯混合模型的说话人识别算法的一些改进[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 王宏;潘金贵;;基于矩阵正态分布的文本有关说话人识别[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 罗海风;龙长才;;多话者环境下说话人辨识听觉线索研究[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 单振宇;情感说话人识别及其解决方法的研究[D];浙江大学;2010年
2 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
3 王琳琳;说话人识别中的时变鲁棒性问题研究[D];清华大学;2013年
4 王尔玉;基于若干声纹信息空间的说话人识别技术研究[D];中国科学技术大学;2012年
5 方远香;基于音素分类的短语音说话人识别[D];清华大学;2012年
6 蒋晔;基于短语音和信道变化的说话人识别研究[D];南京理工大学;2013年
7 黄挺;情感说话人识别中的基频失配及其补偿方法研究[D];浙江大学;2011年
8 李邵梅;文本无关短语音说话人识别技术研究[D];解放军信息工程大学;2011年
9 游大涛;基于听觉机理的鲁棒特征提取及在说话人识别中的应用[D];哈尔滨工业大学;2013年
10 张冰;人类听觉信息处理机制的心理物理学研究[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 张伟伟;说话人识别技术的研究[D];燕山大学;2010年
2 李伟娟;基于智能群体和盲源分离的说话人识别[D];兰州理工大学;2010年
3 王芳;说话人识别中一种特征参数的研究[D];安徽工业大学;2010年
4 傅庚申;说话人识别算法研究[D];大连理工大学;2005年
5 潘鹏;会议室环境下基于音频视频信息融合的多说话人识别[D];兰州理工大学;2011年
6 杨延龙;与文本无关的说话人识别的关键技术研究[D];西安电子科技大学;2010年
7 徐良军;基于语音信号时变特性的说话人识别[D];苏州大学;2010年
8 陈文翔;面向OPHONE手机的说话人识别技术移植研究[D];浙江大学;2011年
9 徐海华;说话人识别方法及其系统的应用开发研究[D];华中科技大学;2004年
10 陈强;基于GMM的说话人识别系统研究与实现[D];武汉理工大学;2010年
中国重要报纸全文数据库 前10条
1 吴长锋;科大讯飞勇夺说话人识别国际大赛第一[N];科技日报;2008年
2 汪永安;科大讯飞说话人识别技术世界领先[N];安徽日报;2008年
3 王朝选;科大讯飞语音识别技术取得重大进展[N];中国高新技术产业导报;2008年
4 见习记者 向南;科大讯飞语音识别技术国际领先[N];证券时报;2008年
5 新城;小声音 大前景[N];计算机世界;2006年
6 本报记者 王璐;科大讯飞:挖掘“说话”技术的商机[N];上海证券报;2008年
7 中科院自动化所生物特征认证与测评中心 白俊梅;听到的真实吗?[N];计算机世界;2003年
8 陈泰 记者 吴长锋;安徽隆起创新人才高地[N];科技日报;2009年
9 记者 郑千里报道;我国生物识别技术研究获得进展[N];科技日报;2001年
10 赵海霞;语音识别能否助科大讯飞实现腾飞之梦?[N];通信信息报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978