基于内容的汉语语音检索技术研究与系统实现
【摘要】:随着计算机及互联网技术的飞速发展,大量音频信息被保存和记录下来。而随着音频数据的累积,如何在海量数据中快速发现用户感兴趣的音频也就成为语音领域研究的热点问题之一。
以语音识别技术为基础,前人提出了一系列语音检索方案。一种方案利用大词汇量连续语音识别技术将语音转换成符号信息,在此基础上建立索引以实现检索。这种方案具有通用性强,检索效率高的特点,被广泛研究。但是,语音识别与检索系统性能与速度一直是制约语音检索发展的重要因素,还需要进一步改进,才能使面向内容的语音检索可以实用化。同时,相对英文来说,汉语语音检索研究相对较少。汉语有其本身的特殊性,如何提高汉语语音检索系统的性能也是需要研究的问题。
本文针对面向内容的汉语语音检索进行研究。关注语音识别与语音检索两方面。在前人语音识别研究的成果的基础上,希望利用更少的时间完成精确的语音识别,为语音检索系统提供一个优秀的前端。同时,对已有的检索工作进行改进,重点研究了基于词的汉语语音检索。同时讨论了基于音节的检索以及不同检索方案的融合问题。希望使用较少时间的同时实现更高性能的检索。
为了达到上述目标,在语音识别方面本文采用加权有限状态转换器的相关技术构建语音识别网络。针对这种方案在语音识别时所遇到的一些问题,提出了“同步剪枝合成算法”,“基于状态转移数准则的空状态转移去除算法”以及“词典错位的网络构建算法”,有效地对识别网络进行了优化。同时,提出了“基于词格的快速词图生成算法”以进行快速语音识别。实现了一个语音识别系统WDecoder。实验表明,它比HDecode快6.7~9.5倍,比Juicer快3.6~4.7倍。
在此基础上对检索进行了研究。提出了“查询内容扩展的语音检索方法”,对基于词的语音检索系统进行了改进。与基于词的检索基线系统相比,在用于测试的两个数据集上检索系统的EER相对改进了41.85%与41.00%。同时,针对语音检索系统检索速度相对较慢的问题,提出了“查询内容分组检索”方案,使得系统的检索用时相对减少了43.52%~72.03%。
基于上述的研究与改进,本文最终实现了一个面向内容的汉语语音检索系统,实验证明,它可以高效高性能地完成对音频信息的检索工作。
|
|
|
|
1 |
刘玉良;孙旭伟;刘国平;朱杰;;语音识别在船舶智能控制中的应用研究[J];集美大学学报(自然科学版)网络版(预印本);2009年01期 |
2 |
程庆祥;;语音识别电路简介[J];家电科技;1990年02期 |
3 |
张连海,韩华,王炳锡;过零周期转移概率矩阵语音识别方法的改进[J];信息工程学院学报;1994年01期 |
4 |
闫守华;语音控制系统的研制[J];成都气象学院学报;1997年03期 |
5 |
李晓霞,王东木,李雪耀;语音识别技术评述[J];计算机应用研究;1999年10期 |
6 |
李虎生,刘加,刘润生;利用多层感知机映射提高不匹配环境下的语音识别性能[J];电路与系统学报;1999年04期 |
7 |
陈海英,于金辉;利用语音识别进行信息检索[J];情报学报;2003年01期 |
8 |
刘占军;;我的Word更“听话”[J];电脑知识与技术(经验技巧);2010年10期 |
9 |
赵显富;;译者的话[J];计算技术与自动化;1985年04期 |
10 |
张忠平;文成义;;基于BP神经网络的汉语语音识别的研究[J];电声技术;1992年09期 |
11 |
战普明,王作英,陆大 ;语音识别隐马尔可夫模型的改进[J];电子学报;1994年01期 |
12 |
戎月莉;语音识别的二值化时频图型模糊匹配法[J];应用声学;1994年05期 |
13 |
姚萝姑;有限词汇、特定人、商品化的英语语音识别系统[J];上海交通大学学报;1996年06期 |
14 |
David Haskin
,贾树山;DragonDictate使语音识别迈上新台阶[J];个人电脑;1996年09期 |
15 |
吴少军 ,张维平 ,沈永福;新型语音识别电路AP7003及其应用[J];电子技术应用;2001年07期 |
16 |
徐金甫,韦岗,梁树雄;一种基于奇异值分解的带噪语音识别方法[J];华南理工大学学报(自然科学版);2001年01期 |
17 |
刘芝;;语音识控 走向应用[J];科技潮;2001年07期 |
18 |
张会清,于洪珍;语音识别及自组织映射神经网络的应用[J];计算机工程与应用;2002年19期 |
19 |
唐昌文;一种孤立字语音识别的新方法[J];通信技术;2002年08期 |
20 |
李远志,李浮滨;语音技术在信息产业的应用展望[J];现代情报;2003年04期 |
|