收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于超大规模问答对库和语音界面的非受限领域自动问答系统研究

胡国平  
【摘要】: 互联网实现了知识和信息在世界范围的平等共享和快速传播,而以Google、百度为代表的第二代搜索引擎实现了互联网上数十亿网页的基于关键词的快速检索,满足了最基本的信息检索需求。近年来,人们展开了关于下一代搜索引擎的积极探索,其中自动问答系统因能简洁直接地回答用户以自然语言方式提出的问题而得到了广泛的关注和深入的研究。在这种背景下,本论文以研制非受限领域的问答系统为目标,基于对近几年来互联网上以空前速度积累中的超大规模问答对资源必将给传统的问答系统研究带来深远影响的预期,深入地开展基于问答对库的自动问答系统技术研究工作。本论文在借鉴前人成果选用基于关键词的文档信息检索技术为初始基线系统的基础上,首次深入研究了在超大规模的问答对库条件下基线问答系统各环节的最佳配置,得出了一系列有价值的结论,并进一步对问答系统最核心的问答对排序函数进行了针对性的设计和有监督的优化,大幅度提高了问答系统的性能。此外,本论文还提出并开展了基于问答对库的问答系统的语音界面扩展研究,首次实现了可实施的、非受限领域的、可完全通过语音交互的自动问答系统。本论文具体的研究内容和相关成果如下: 首先,本文分析了互联网上超大规模的问答对库资源积累给问答系统研究带来的机遇和挑战。互联网上积累的数以百万计的FAQ页面以及百度知道等知识共享型网站的兴起所形成的每日数万的问答对积累速度,都为问答系统研究提供了前所未有的数据资源,也对传统的问答系统技术路线提出了新的挑战。本文以真实的数据统计表明:76.5%的工作生活中的常见问题可以在380万从互联网上抽取的问答对中找到至少一个正确答案,倍增问答对库规模预期还可以继续获得8~10%的相对性能提升,足以证明互联网上问答对库的价值以及基于问答对库的自动问答系统的优势和前景。 其次,面向基于问答对库的自动问答技术需要,本文开展了互联网上问答对的自动抽取技术研究和实际问答对库的构建工作。针对FAQ页面,本文提出了基于决策树和马尔科夫链模型的问答对自动抽取技术,抽取精度接近99%,完全达到了实用水平。同时基于百度知道网站,本文完成了390万高质量问答对库的建设,为后续问答系统相关实验的开展奠定了坚实的基础。 第三,本文验证了超大规模问答对库条件下基于问答对库的自动问答系统的最佳基线系统配置。本文首先完成了1000个用户问题在380万问答对库上的问答系统性能评测数据库,并在此基础上完成了借鉴于传统基于关键词的文档检索技术的基线问答系统中各个重要环节的验证试验,得到了一系列新颖而有价值的结论:1)传统文档检索的三个主要排序函数(TFIDF,BM25以及基于语言模型的检索函数)中最简单的TFIDF是最适合于问答系统中的问答对排序;2)问答对中的三个不同的信息域(问题Q、问题描述D和答案A)中Q域对问答系统具有绝对重要的贡献,A域次之;3)在中文分词处理方面,D和A域是进行有词典分词的性能更佳,但Q域上是将文本全部切分成单字后构建的问答系统性能最佳。实验表明,最终完成基线问答系统能在仅返回一个答案的条件下能正确回答43.88%的用户问题。 第四,在上述基线系统基础上,本文深入地分析了基于用户输入的自然语言问句检索排序问答对的任务与传统的基于关键词检索排序文档任务之间的差别。在TFIDF基础上,本文设计了专门针对问答系统的统一排序函数,并引入四个参数分别控制共现词的词频和IDF、未共现词的IDF以及文档长度等因素对问答对排序的影响,实验表明,这一函数有效地提高了问答系统的性能。同时考虑到更多的属性可以用于问答对排序函数的设计,本文进一步引入了线性加权函数的排序函数形式来有效运用更多属性。本文从每个用户问题和问答对的组合中提取了包括词语语义距离、词语编辑距离、词性、以及二元词语共现情况等多维特征,并引入了基于改进爬山算法的有监督学习策略来实现了排序函数中各维属性权值的自动训练,最终使得问答系统的性能进一步得到了显著提升,在仅返回一个答案条件下,系统能正确回答的用户问题比例达到了52.37%,相对基线系统提升幅度达到19.35%。本文同时还对问答系统的置信度进行了分析,实验表明拒绝返回一部分认为不可信的答案可以提高(但不显著)答复正确率,同时改变有监督学习的训练目标定义,可以有效提高问答系统的置信度估计水平。 最后,本文还首次尝试将语音界面引入基于问答对库的非受限领域自动问答系统,实现了问答系统的研究及应用的扩展。本文首先对完全基于语音交互界面的问答系统的价值和挑战进行了分析,指出了基于问答对库技术路线的优势以及语音识别和问答系统间的内在冲突。为了研制语音界面的问答系统SpeechQoogle,本文引入大词汇连续语音识别技术和连续语音合成技术分别完成了对语音输入用户问句的识别和对系统生成文本答案的语音合成。进一步,本文通过定制语音识别中的语言模型和声学模型,使得识别性能基本达到问答系统的应用需求,同时通过实验分析了语音识别结果中的置信度、多候选以及拼音层面的识别结果对问答系统的作用,小幅度提高了语音界面的问答系统的性能。最终36.7%的常见问题可以完全通过语音方式与我们研制的SpeechQoogle问答系统交互获得正确答案,证明了基于问答对技术路线的语音界面的自动问答系统的可行性和前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 盛秋艳;基于Internet的自动问答系统研究[J];现代情报;2005年04期
2 王红霞;软件复用成就信息获取星级服务——基于EJB架构的全文检索和自动问答系统模型设计[J];华南金融电脑;2005年04期
3 李良富,樊孝忠,李宏乔,顾益军;知识是如何驱动Q/A系统的[J];计算机工程与应用;2004年20期
4 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期
5 刘亚军,徐易;一种基于加权语义相似度模型的自动问答系统[J];东南大学学报(自然科学版);2004年05期
6 杨晓明;罗振声;;模式匹配在中文问答系统中的应用研究[J];科学技术与工程;2006年03期
7 鲍建樟;王周秀;;基于FAQ的自动问答技术的实现[J];唐山师范学院学报;2006年05期
8 蒋凯;武港山;;基于Web的信息检索技术综述[J];计算机工程;2005年24期
9 李霞;张太红;李莉;;潜在语义索引在FAQ构建中的应用研究[J];石河子大学学报(自然科学版);2005年06期
10 付斌;樊孝忠;;基于神经元网络的问句组块分析[J];计算机技术与发展;2006年10期
11 刘国刚;;人工智能客户服务体系的研究与实现[J];现代电信科技;2009年03期
12 李海艳;吴泓渺;;自动化系统研究(英文)[J];法国研究;2009年04期
13 黄新;徐小娟;;基于ontology的智能答疑系统的研究[J];科学技术与工程;2007年12期
14 欧石燕;;基于文本蕴涵的受限领域自动问答方法研究[J];情报学报;2011年05期
15 李良富,樊孝忠,李宏乔;语义相似计算驱动领域自动问答[J];北京理工大学学报;2005年11期
16 骆正华,樊孝忠,刘林;本体论在自动问答系统中的应用[J];计算机工程与应用;2005年32期
17 卢炳卫;;关于自动问答技术的研究[J];农业图书情报学刊;2006年01期
18 谢昀;杨子燕;;基于整合理念的网络数学平台设计[J];软件导刊;2007年01期
19 孙铁利;邓凯英;;基于Web的文本信息检索技术[J];信息技术;2007年09期
20 汤庸;林鹭贤;罗烨敏;潘炎;;基于自动问答系统的信息检索技术研究进展[J];计算机应用;2008年11期
中国重要会议论文全文数据库 前10条
1 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
2 王文晶;李茹;宋小香;;基于汉语框架知识库的旅游信息问答系统设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
4 白宇;蔡东风;赵环宇;季铎;;基于语义计算的中文相似问句抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 郭稷;吕雅娟;刘群;;一种有效的基于Web的双语翻译对获取方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 王振宇;谭红叶;郑家恒;;基于Bootstrapping的交通工具名识别[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 章成志;李斌;;基于混合策略的查询串相似度计算方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 王振宇;谭红叶;郑家恒;张虎;;交通工具名识别系统的设计与实现[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 于娟;武港山;;面向政府公文领域的中文问题分类[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
10 邓锦辉;余正涛;章程;毛存礼;郭剑毅;;汉语语言处理接口的集成与应用[A];2007年中国智能自动化会议论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 李华;面向知识服务的传统农具数字博物馆设计与构建[D];南京农业大学;2008年
2 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
3 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
4 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
5 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
6 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
7 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
8 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 高俊杰;领域本体在自动问答系统中的应用研究[D];山西大学;2010年
2 周永梅;基于本体的自动问答系统[D];江苏科技大学;2011年
3 李俊;限定领域自动问答技术研究[D];北方工业大学;2010年
4 蒋志鹏;黑龙江移动客户服务自动问答系统的设计与实现[D];哈尔滨工业大学;2010年
5 王振佶;面向销售服务的自动问答系统的设计与实现[D];电子科技大学;2011年
6 杨志国;相似度计算在基于本体的自动问答系统中的应用[D];中央民族大学;2010年
7 李清;自动问答系统的研究与实现[D];安徽大学;2012年
8 郭金刚;面向数字图书馆中文自动问答系统的设计与实现[D];电子科技大学;2010年
9 高强;面向军事知识的自动问答系统的设计与实现[D];东北大学;2009年
10 刘智慧;基于搜索引擎的自动问答系统[D];西安电子科技大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978