收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于超大规模问答对库和语音界面的非受限领域自动问答系统研究

胡国平  
【摘要】: 互联网实现了知识和信息在世界范围的平等共享和快速传播,而以Google、百度为代表的第二代搜索引擎实现了互联网上数十亿网页的基于关键词的快速检索,满足了最基本的信息检索需求。近年来,人们展开了关于下一代搜索引擎的积极探索,其中自动问答系统因能简洁直接地回答用户以自然语言方式提出的问题而得到了广泛的关注和深入的研究。在这种背景下,本论文以研制非受限领域的问答系统为目标,基于对近几年来互联网上以空前速度积累中的超大规模问答对资源必将给传统的问答系统研究带来深远影响的预期,深入地开展基于问答对库的自动问答系统技术研究工作。本论文在借鉴前人成果选用基于关键词的文档信息检索技术为初始基线系统的基础上,首次深入研究了在超大规模的问答对库条件下基线问答系统各环节的最佳配置,得出了一系列有价值的结论,并进一步对问答系统最核心的问答对排序函数进行了针对性的设计和有监督的优化,大幅度提高了问答系统的性能。此外,本论文还提出并开展了基于问答对库的问答系统的语音界面扩展研究,首次实现了可实施的、非受限领域的、可完全通过语音交互的自动问答系统。本论文具体的研究内容和相关成果如下: 首先,本文分析了互联网上超大规模的问答对库资源积累给问答系统研究带来的机遇和挑战。互联网上积累的数以百万计的FAQ页面以及百度知道等知识共享型网站的兴起所形成的每日数万的问答对积累速度,都为问答系统研究提供了前所未有的数据资源,也对传统的问答系统技术路线提出了新的挑战。本文以真实的数据统计表明:76.5%的工作生活中的常见问题可以在380万从互联网上抽取的问答对中找到至少一个正确答案,倍增问答对库规模预期还可以继续获得8~10%的相对性能提升,足以证明互联网上问答对库的价值以及基于问答对库的自动问答系统的优势和前景。 其次,面向基于问答对库的自动问答技术需要,本文开展了互联网上问答对的自动抽取技术研究和实际问答对库的构建工作。针对FAQ页面,本文提出了基于决策树和马尔科夫链模型的问答对自动抽取技术,抽取精度接近99%,完全达到了实用水平。同时基于百度知道网站,本文完成了390万高质量问答对库的建设,为后续问答系统相关实验的开展奠定了坚实的基础。 第三,本文验证了超大规模问答对库条件下基于问答对库的自动问答系统的最佳基线系统配置。本文首先完成了1000个用户问题在380万问答对库上的问答系统性能评测数据库,并在此基础上完成了借鉴于传统基于关键词的文档检索技术的基线问答系统中各个重要环节的验证试验,得到了一系列新颖而有价值的结论:1)传统文档检索的三个主要排序函数(TFIDF,BM25以及基于语言模型的检索函数)中最简单的TFIDF是最适合于问答系统中的问答对排序;2)问答对中的三个不同的信息域(问题Q、问题描述D和答案A)中Q域对问答系统具有绝对重要的贡献,A域次之;3)在中文分词处理方面,D和A域是进行有词典分词的性能更佳,但Q域上是将文本全部切分成单字后构建的问答系统性能最佳。实验表明,最终完成基线问答系统能在仅返回一个答案的条件下能正确回答43.88%的用户问题。 第四,在上述基线系统基础上,本文深入地分析了基于用户输入的自然语言问句检索排序问答对的任务与传统的基于关键词检索排序文档任务之间的差别。在TFIDF基础上,本文设计了专门针对问答系统的统一排序函数,并引入四个参数分别控制共现词的词频和IDF、未共现词的IDF以及文档长度等因素对问答对排序的影响,实验表明,这一函数有效地提高了问答系统的性能。同时考虑到更多的属性可以用于问答对排序函数的设计,本文进一步引入了线性加权函数的排序函数形式来有效运用更多属性。本文从每个用户问题和问答对的组合中提取了包括词语语义距离、词语编辑距离、词性、以及二元词语共现情况等多维特征,并引入了基于改进爬山算法的有监督学习策略来实现了排序函数中各维属性权值的自动训练,最终使得问答系统的性能进一步得到了显著提升,在仅返回一个答案条件下,系统能正确回答的用户问题比例达到了52.37%,相对基线系统提升幅度达到19.35%。本文同时还对问答系统的置信度进行了分析,实验表明拒绝返回一部分认为不可信的答案可以提高(但不显著)答复正确率,同时改变有监督学习的训练目标定义,可以有效提高问答系统的置信度估计水平。 最后,本文还首次尝试将语音界面引入基于问答对库的非受限领域自动问答系统,实现了问答系统的研究及应用的扩展。本文首先对完全基于语音交互界面的问答系统的价值和挑战进行了分析,指出了基于问答对库技术路线的优势以及语音识别和问答系统间的内在冲突。为了研制语音界面的问答系统SpeechQoogle,本文引入大词汇连续语音识别技术和连续语音合成技术分别完成了对语音输入用户问句的识别和对系统生成文本答案的语音合成。进一步,本文通过定制语音识别中的语言模型和声学模型,使得识别性能基本达到问答系统的应用需求,同时通过实验分析了语音识别结果中的置信度、多候选以及拼音层面的识别结果对问答系统的作用,小幅度提高了语音界面的问答系统的性能。最终36.7%的常见问题可以完全通过语音方式与我们研制的SpeechQoogle问答系统交互获得正确答案,证明了基于问答对技术路线的语音界面的自动问答系统的可行性和前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 付鸿鹄;基于W eb的开放领域问答系统研究[J];现代图书情报技术;2005年09期
2 赵洁;金培权;;Web时态信息抽取与检索研究[J];情报理论与实践;2009年02期
3 唐娟;杜亚军;王可亮;;一种基于形式概念分析的问答系统答案抽取的研究[J];计算机应用;2007年03期
4 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
5 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
6 党琰,张冬茉,李芳;角色反演算法在问答系统中的应用[J];计算机工程与应用;2004年36期
7 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
8 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
9 张晓孪;王西锋;;中文问答系统中语义角色标注的研究与实现[J];科学技术与工程;2008年10期
10 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
11 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
12 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
13 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
14 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期
15 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期
16 朱青;吕晓旭;;基于机器学习的HTML标题抽取[J];微计算机信息;2010年09期
17 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
18 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
19 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
20 丁君军;郑彦宁;化柏林;;国内外属性抽取研究综述[J];情报科学;2011年05期
中国重要会议论文全文数据库 前10条
1 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
2 栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
4 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
6 陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
8 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
9 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
2 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
3 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
4 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
7 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
8 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
9 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
10 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
2 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
3 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
4 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
5 刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年
6 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
7 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
8 赵辄谦;基于互联网的中文问答系统研究[D];山西大学;2003年
9 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
10 孙林;基于在线论坛的问答对识别研究与问答系统实现[D];哈尔滨工业大学;2010年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 张丽娜 记者 孙悦群;依兰投资60万创建农业科技信息平台[N];黑龙江经济报;2006年
5 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
6 郑鸿海叶聿辉;轻点鼠标 要点尽览[N];人民公安报;2007年
7 董振东;到用户中去[N];中国计算机报;2003年
8 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
9 ;腾讯网2007证券中国投资论坛在京举办[N];财会信报;2007年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978