收藏本站
《中国科学技术大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向问答系统的段落检索技术研究

黎新  
【摘要】: 互联网的迅猛发展和广泛普及使得互联网成为人们获取信息和交流信息的重要平台。一方面,互联网的规模呈爆炸式的增长,网络用户借助于搜索引擎等工具,可以方便快捷地从互联网获取信息:另一方面,海量的信息也给用户准确识别和选择有价值的信息带来了困难。因此,如何准确地从Web海量信息中检索或抽取出符合用户需求的信息成为互联网信息处理的重要课题。问答式检索和问答系统(Question Answering System)就是其中一个重要的研究课题,也是研究下一代语义搜索引擎的重要研究方向。问答系统的特点在于,一方面允许用户用自然语言提问而不是关键字的组合;另一方面系统给用户返回的是精确的答案而不是一系列的文档。用户可以精确的表达自己的信息需求,系统则在理解用户需求的基础上做出准确的信息反馈,从而实现用户与系统在语义级别上的信息交互。 文档检索模块是自动问答系统的重要组成部分。在通常情况下,系统需要利用一些比较耗时的技术例如自然语言处理、信息抽取和模板匹配等来分析文档,以查找问题的答案。用这些技术去分析文档,系统会付出巨大的时间和空间开销。因此,需要减小处理对象的大小。基于上述原因,段落检索(Passage Retrieval)模块被作为文档检索模块和答案抽取模块的中间模块,加入到自动问答系统中。段落检索是信息检索领域的一个重要的研究问题,现在已经成为自动问答系统的一个关键性模块。论文的主要工作与创新如下: 1)分析了文档相关性的评估方法。文档的相关性主要是指字词层面上较为浅层的相关性,因此,经典的文档检索公式不适合直接应用于段落检索。为此,本文分析了问答系统环境下段落检索的相关性,从文档和段落的区别出发,分析了两者在主题、长度和关键字数目等方面的差异,并基于这些差异,提出了适于段落检索公式的基本准则。 2)提出一种基于Web的问答式段落检索方法,以适应问答系统的动态性和时效性需求。传统的方法一般是基于问题和段落之间的字词密度特征,这类方法的缺陷在于,由于问题中所包含的关键词数量过少,常常因为匹配失败而使得召回率较低。此外,基于词频和语言模型的检索算法,经常会返回一些不相关的段落。因此本文提出一种启发式查询重写方法来解决这个问题,不再是单独考虑每个关键字,而是以具有搭配关系和约束关系的词汇单元为基础,结合词汇之间的关系,综合计算段落与给定问题的相关度。 3)提出一种新的基于多种特征的混合型相关性检索模型。本文研究了词汇相似度、主题相似度和结构相似度在评估问题和段落之间的语义相关性的有效性。首先设计一种基于Web的字词语义相似度的计算方法,并利用该方法对问句和段落之间的词汇相似度进行统计计算;然后采用基于概率语言模型的主题模型对段落和问题之间的相似度进行计算;对于结构相似度,主要考虑两种常见的结构:“Wh-”转移和谓词声明结构,从约束满足的角度来判断问题和段落是否包含了相同的结构约束关系。在上述工作基础上,提出了这三种相似度的有权线性组合的混合型段落检索模型。 4)研究了基于段落-段落图模型的答案段落排序方法。该方法不仅考虑了答案段落与问题之间的独立相关性,而且利用段落之间的关系信息建立图模型,从全局上计算段落与问题的语义相关性。由于段落之问存在着关系,段落之间会通过关系相互影响各自与问题之间的相关性,因此,可以利用这种关系修正段落的相关性。考虑到问题类型的多样性特点,本文提出了基于KNN的问题扩展方法。该方法基于多种特征计算问题相似度,在问题空间获取最相似的问题,然后利用相似问题对原问题进行扩展,并基于扩展的问题模型获取候选的答案段落,根据段落的内容特征计算段落-段落相似度,再建立图模型。基于候选段落的图模型结构,利用基于图的排序模型对候选段落的相关性进行重新计算,并用基于学习的方法训练最优的排序参数。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 党琰,张冬茉,李芳;角色反演算法在问答系统中的应用[J];计算机工程与应用;2004年36期
2 张晓孪;王西锋;;中文问答系统中语义角色标注的研究与实现[J];科学技术与工程;2008年10期
3 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
4 付鸿鹄;基于W eb的开放领域问答系统研究[J];现代图书情报技术;2005年09期
5 高明霞;刘椿年;;基于模糊描述逻辑的PNL网络问答系统[J];计算机工程;2006年21期
6 王树西;赵星秋;潘硕;;问答系统在教学中的应用[J];中国教育信息化;2007年07期
7 杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期
8 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
9 李东园;白宇;蔡东风;;面向中文问答的信息检索系统及评测[J];沈阳航空工业学院学报;2009年03期
10 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
中国重要会议论文全文数据库 前10条
1 何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年
2 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
3 王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年
5 毛存礼;余正涛;线岩团;郭剑毅;雷雄丽;;基于短信的旅游景点酒店问答系统研究[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 于士涛;袁晓洁;师建兴;杨娜;;一种Web问答系统中基于XML片段的语义项模型[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 葛正荣;李婷玉;姚天昉;;汉语情感问题类型分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 张宇;刘挺;文勖;;基于改进贝叶斯模型的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 西贝 张树忠 宋文奇 李松林;豆仔热线[N];电脑报;2003年
2 小渔;WPS中如何快速消除硬回车[N];中国电脑教育报;2004年
3 舍利子;网页制作中的段落缩进[N];电脑报;2002年
4 龚静娴;慢跑的几种方法[N];今日信息报;2003年
5 新华社记者 张建高;靠这样的官员,怎能保一方平安?[N];新华每日电讯;2003年
6 向德海;技巧回音壁[N];电脑报;2004年
7 侯友成;交流自己难读的段落[N];中国教师报;2005年
8 马明超;郑麦 多头获利回吐 涨势暂告段落[N];期货日报;2003年
9 摩根士丹利亚太首席经济师 谢国忠;Party将告一段落[N];证券日报;2003年
10 周延;ST农化 短线筑底告一段落[N];证券日报;2004年
中国博士学位论文全文数据库 前10条
1 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
2 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
3 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
4 张巍;融合FAQ、本体和推理技术的问答系统研究[D];太原理工大学;2011年
5 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
6 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
7 夏天;研究性学习支持系统[D];华东师范大学;2007年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
10 呼大为;面向问答系统的答案获取方法研究与实现[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 卜文娟;基于概念图的中文问答系统的研究与实现[D];西北大学;2010年
2 刘祥;基于课程知识的问答系统研究与应用[D];大连海事大学;2010年
3 李旭锋;中文问答系统中问句理解和相似度计算的研究与实现[D];华南理工大学;2010年
4 刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年
5 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年
6 孙林;基于在线论坛的问答对识别研究与问答系统实现[D];哈尔滨工业大学;2010年
7 高艳影;中文问答系统中的问题分类研究[D];合肥工业大学;2011年
8 张诚;基于领域知识的限定域中文问答系统研究[D];上海交通大学;2010年
9 张兰轩;基于潜在语义分析的大学概况中文问答系统[D];大连理工大学;2004年
10 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026