收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

开放域阅读理解关键技术研究

张志昌  
【摘要】: 自动的阅读理解技术一直是人工智能领域的研究方向之一。受1999年开始的TREC问答技术系列评测的推动,该研究也成为了自然语言处理领域新的研究热点。一方面,阅读理解技术研究可以检测和评估底层各项自然语言处理技术结合之后的整体性能,并从篇章的角度探究语言理解的技术和方法;另一方面,在基于海量文档集的开放域问答系统中,当系统返回的答案发生错误时,由于系统的复杂性而难以对导致错误的原因进行准确定位和分析。针对这一问题,采用阅读理解的研究形式,将处理的语料规模限定在单篇文档,省去文档检索的处理过程,从而将研究的问题聚焦于用户问题分析和答案抽取。 从自然语言处理领域已有的关于开放域阅读理解技术的研究来看,现有的答案抽取技术仍然较为浅层,答案抽取的性能尚有提升空间。着眼于提高和改进开放域阅读理解问题分析和答案抽取技术的性能,本文主要进行了四个方面的研究工作,具体内容如下: 1.问题分类是阅读理解和开放域问答系统中的重要部分,其性能直接制约着最终答案抽取的性能。由于用户提出的问题一般较短,分类时可用的特征较少,因此训练集的数据稀疏问题对分类性能的影响更为显著。针对该问题,本文提出一种基于线索词识别和训练集扩展的问题分类方法,首先识别出问题中对分类有影响的关键特征,然后利用Web数据的海量特点,从中自动挖掘能够改善训练集数据稀疏的扩展训练问题集。分类时,综合最近邻方法和SVM方法,最终提高了问题分类的性能。 2.以篇章内的单个句子为单位,判别和抽取可回答用户问题的答案句时,简单的如词袋模型的词匹配方法性能有限。本文提出一种基于语法和语义树核的答案句抽取方法,在句子的句法和浅层语义分析的基础上,将句法结构树、浅层语义树、词信息、句子上下文信息等多种特征结合起来,通过机器学习技术来判别和抽取篇章中的答案句。 3.篇章内的各个句子之间通过逻辑上的语篇关联来对某个实体或者事件进行多方面的事实描述,单个句子本身经常不能包含实体或事件的全部信息。当用户问题涉及篇章中多个句子的内容时,独立地判断篇章内某一句子是否包含有答案的方法有时难以识别出正确的答案句。本文因此提出一种基于概念关系图匹配的答案抽取方法,首先构建关于篇章以及用户问题的概念关系图,然后在篇章的概念关系图中抽取和问题概念关系图能最好匹配的子图,再从该子图中抽取概念节点并形成答案。由于篇章概念关系图的构建是利用篇章内全部句子的概念及其它们之间的句法和语义关系,多个句子中相同的概念及其关系通过概念关系图从整体上连接起来,因此能够改善以单个句子为答案识别单位的方法的性能。 4.针对复杂的原因型问题,提出一种基于话题和修辞识别的答案句抽取方法,一方面利用问题中的词、词之间的语义信息,用来在篇章中识别能够对应问题话题的句子,另一方面利用篇章内句子之间的各种语言修辞特征,以及从海量文档集中挖掘的词间因果关系信息,用来综合判别句子之间是否存在着逻辑上的因果关系。通过机器学习技术将这两方面结合起来,判别篇章内的每个句子属于原因型问题的答案句的概率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘汉兴;林旭东;田绪红;;基于本体的自动答疑系统的研究与实现[J];计算机应用;2010年02期
2 张亮;陈肇雄;黄河燕;;问题分类的计算模型研究[J];计算机科学;2006年04期
3 吕德新;张桂平;蔡东风;余超;;基于语义信息的问题分类[J];沈阳航空工业学院学报;2006年03期
4 张亮;黄河燕;胡春玲;;基于Ontology的中文问答系统问题分类研究[J];中国图书馆学报;2006年02期
5 林晓庆;;问答系统中基于列表类问题的研究[J];电脑知识与技术(学术交流);2007年07期
6 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期
7 张晓孪;王西锋;李乃乾;;中文问答系统中问题理解的研究与实现[J];西华大学学报(自然科学版);2008年02期
8 战学刚;伏圣国;迟呈英;;改进的基于模式匹配的答案抽取方法[J];情报理论与实践;2009年09期
9 杜永萍;黄萱菁;吴立德;;模式学习在QA系统中的有效实现[J];计算机研究与发展;2006年03期
10 李季,孙冀侠;一个简单的中文问答系统[J];鞍山师范学院学报;2004年02期
11 董云耀;陈小翠;黄炜;;基于RST和SVM的中文问题分类方法[J];杭州电子科技大学学报;2010年06期
12 张志昌;张宇;刘挺;李生;;基于话题和修辞识别的阅读理解why型问题回答[J];计算机研究与发展;2011年02期
13 熊持玉;谈文书档案分类法的选择[J];冶金矿山设计与建设;1994年03期
14 董素芬;蔡金金;赵全东;;基于本体的农业检索系统研究[J];河北农业大学学报;2010年05期
15 李婷玉;葛正荣;姚天昉;;汉语情感问题类型分类研究[J];中文信息学报;2011年02期
16 王文晶;宋小香;李茹;;面向问题分类的汉语框架网特征选择[J];计算机与现代化;2011年08期
17 李季;一个标准中文问答系统的研究与实现[J];计算机系统应用;2004年06期
18 李季;浅谈中文问答系统[J];辽宁经济职业技术学院.辽宁经济管理干部学院学报;2004年01期
19 李鹏;王晓龙;关毅;;一种基于粗糙集增量式规则学习的问题分类方法研究[J];电子与信息学报;2008年05期
20 周群芳;吴云标;;自助式咨询知识库的组织设计[J];图书情报工作;2008年03期
中国重要会议论文全文数据库 前10条
1 赵兴;余正涛;邹俊杰;郭剑毅;毛存礼;;结合依存句法与实体的领域答案句模学习方法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 张宇;刘挺;文勖;;基于改进贝叶斯模型的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 李茹;王文晶;梁吉业;宋小香;刘海静;由丽萍;;基于汉语框架网的旅游信息问答系统设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 张亮;陈肇雄;黄河燕;;基于ontology的问答系统问题分类研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 于娟;武港山;;面向政府公文领域的中文问题分类[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
6 杨敏;常宝宝;;基于北大网库的语义角色分类[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 吾买尔江·库尔班;阿里甫·库尔班;;维吾尔语框架语义知识库语义角色描述体系研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 王步康;王红玲;袁晓虹;周国栋;;基于树核函数的中文语义角色标注研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
9 王鑫;穗志方;李芸;;基于依存树距离的语义角色识别方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 张志昌;张宇;刘挺;李生;;基于浅层语义树kernel的阅读理解答案句抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
2 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
3 于士涛;基于问答网络论坛知识体系的自动问答系统研究[D];南开大学;2009年
4 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
5 张占山;语义角色视角下的谓词同义词辨析[D];厦门大学;2006年
6 李鑫;问题回答系统中的问题分类研究[D];复旦大学;2007年
7 呼大为;面向问答系统的答案获取方法研究与实现[D];中国科学技术大学;2008年
8 孔芳;指代消解关键问题研究[D];苏州大学;2009年
9 权震红;韩国语非叙述性名词配价研究[D];延边大学;2007年
10 周日安;名名组合的句法语义研究[D];暨南大学;2007年
中国硕士学位论文全文数据库 前10条
1 黄波;中文问答系统中答案抽取的研究与实现[D];吉林大学;2010年
2 刘桥妹;基于开放域问答系统的问题分类技术研究与实现[D];华南理工大学;2010年
3 刘桂平;基于词义及语义分析的问答技术研究[D];哈尔滨工业大学;2008年
4 张晓孪;中文问答系统中问题理解与信息检索的研究与实现[D];西北大学;2007年
5 赵辄谦;基于互联网的中文问答系统研究[D];山西大学;2003年
6 文勖;中文问答系统中问题分类及答案候选句抽取的研究[D];哈尔滨工业大学;2006年
7 陈海光;HNC理论和随机模糊在问答系统中的应用研究[D];江苏大学;2009年
8 潘志安;融入本体的问题特征模型在中文问题分类中的研究[D];太原理工大学;2010年
9 高超;中文问题分类中特征选择研究[D];安徽工业大学;2011年
10 孙昂;基于句法分析和机器学习的中文自动问答系统研究[D];清华大学;2007年
中国重要报纸全文数据库 前10条
1 记者 谢平;绥滨 突出问题分类挂号督办[N];黑龙江日报;2009年
2 记者 王冬梅;走访分类 问题分类 处置分类[N];组织人事报;2011年
3 李学文;呈贡县人大信访问题分类办理[N];云南日报;2006年
4 记者 张晋国;采暖器材和电视购物成投诉热点[N];中国工商报;2008年
5 樵世稳;元子街镇以人为本防大汛[N];商洛日报;2008年
6 本报记者 李英姿实习生 邓昌荣 王辉;建设“难题”分类交办[N];衡阳日报;2008年
7 本报记者 姜泓冰 整理;大学应让人感受思想的魅力[N];人民日报;2011年
8 姚朝磊 徐兴波;巨野县把整改落到实处[N];菏泽日报;2006年
9 通讯员  青华 慧娟;安徽:停建34个项目并限期整顿[N];中华建筑报;2006年
10 刘小友;高安市信访“赶集”解民忧[N];宜春日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978