收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

开放域阅读理解关键技术研究

张志昌  
【摘要】: 自动的阅读理解技术一直是人工智能领域的研究方向之一。受1999年开始的TREC问答技术系列评测的推动,该研究也成为了自然语言处理领域新的研究热点。一方面,阅读理解技术研究可以检测和评估底层各项自然语言处理技术结合之后的整体性能,并从篇章的角度探究语言理解的技术和方法;另一方面,在基于海量文档集的开放域问答系统中,当系统返回的答案发生错误时,由于系统的复杂性而难以对导致错误的原因进行准确定位和分析。针对这一问题,采用阅读理解的研究形式,将处理的语料规模限定在单篇文档,省去文档检索的处理过程,从而将研究的问题聚焦于用户问题分析和答案抽取。 从自然语言处理领域已有的关于开放域阅读理解技术的研究来看,现有的答案抽取技术仍然较为浅层,答案抽取的性能尚有提升空间。着眼于提高和改进开放域阅读理解问题分析和答案抽取技术的性能,本文主要进行了四个方面的研究工作,具体内容如下: 1.问题分类是阅读理解和开放域问答系统中的重要部分,其性能直接制约着最终答案抽取的性能。由于用户提出的问题一般较短,分类时可用的特征较少,因此训练集的数据稀疏问题对分类性能的影响更为显著。针对该问题,本文提出一种基于线索词识别和训练集扩展的问题分类方法,首先识别出问题中对分类有影响的关键特征,然后利用Web数据的海量特点,从中自动挖掘能够改善训练集数据稀疏的扩展训练问题集。分类时,综合最近邻方法和SVM方法,最终提高了问题分类的性能。 2.以篇章内的单个句子为单位,判别和抽取可回答用户问题的答案句时,简单的如词袋模型的词匹配方法性能有限。本文提出一种基于语法和语义树核的答案句抽取方法,在句子的句法和浅层语义分析的基础上,将句法结构树、浅层语义树、词信息、句子上下文信息等多种特征结合起来,通过机器学习技术来判别和抽取篇章中的答案句。 3.篇章内的各个句子之间通过逻辑上的语篇关联来对某个实体或者事件进行多方面的事实描述,单个句子本身经常不能包含实体或事件的全部信息。当用户问题涉及篇章中多个句子的内容时,独立地判断篇章内某一句子是否包含有答案的方法有时难以识别出正确的答案句。本文因此提出一种基于概念关系图匹配的答案抽取方法,首先构建关于篇章以及用户问题的概念关系图,然后在篇章的概念关系图中抽取和问题概念关系图能最好匹配的子图,再从该子图中抽取概念节点并形成答案。由于篇章概念关系图的构建是利用篇章内全部句子的概念及其它们之间的句法和语义关系,多个句子中相同的概念及其关系通过概念关系图从整体上连接起来,因此能够改善以单个句子为答案识别单位的方法的性能。 4.针对复杂的原因型问题,提出一种基于话题和修辞识别的答案句抽取方法,一方面利用问题中的词、词之间的语义信息,用来在篇章中识别能够对应问题话题的句子,另一方面利用篇章内句子之间的各种语言修辞特征,以及从海量文档集中挖掘的词间因果关系信息,用来综合判别句子之间是否存在着逻辑上的因果关系。通过机器学习技术将这两方面结合起来,判别篇章内的每个句子属于原因型问题的答案句的概率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 文勖;张宇;刘挺;马金山;;基于句法结构分析的中文问题分类[J];中文信息学报;2006年02期
2 张亮;陈肇雄;黄河燕;;问题分类的计算模型研究[J];计算机科学;2006年04期
3 李茹;宋小香;王文晶;;基于汉语框架网的中文问题分类[J];计算机工程与应用;2009年31期
4 田卫东;高艳影;祖永亮;;基于自学习规则和改进贝叶斯结合的问题分类[J];计算机应用研究;2010年08期
5 刘小明;樊孝忠;李方方;;一种结合本体和焦点的问题分类方法[J];北京理工大学学报;2012年05期
6 张巍;陈俊杰;;信息熵方法及在中文问题分类中的应用[J];计算机工程与应用;2013年10期
7 風起;;不一定設領導指導类[J];档案工作;1956年05期
8 ;试着用新思路将问题分类[J];管理工程师;2001年03期
9 吕德新;张桂平;蔡东风;余超;;基于语义信息的问题分类[J];沈阳航空工业学院学报;2006年03期
10 张志昌;张宇;刘挺;李生;;基于线索词识别和训练集扩展的中文问题分类[J];高技术通讯;2009年02期
11 邱锡鹏;缪有栋;黄萱菁;;基于主动学习的中文问题分类数据集构建[J];哈尔滨工业大学学报;2012年05期
12 张宇,刘挺,文勖;基于改进贝叶斯模型的问题分类[J];中文信息学报;2005年02期
13 段利国;陈俊杰;牛彦清;;一种融合多种语义特征的中文问题分类方法[J];太原理工大学学报;2011年05期
14 李鑫;黄萱菁;吴立德;;基于错误驱动算法组合分类器及其在问题分类中的应用[J];计算机研究与发展;2008年03期
15 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
16 王文晶;宋小香;李茹;;面向问题分类的汉语框架网特征选择[J];计算机与现代化;2011年08期
17 袁晓洁;师建兴;宁华;于士涛;;问题分类中基于句法和语义信息的特征选择[J];计算机工程与应用;2008年33期
18 刘琳;;网络信息安全问题分类和举例[J];才智;2008年01期
19 嵇宇;王荣波;谌志群;;基于句法分析和二次贝叶斯模型的受限域问题分类[J];计算机应用;2012年06期
20 党义民;;武山县委文件分类立卷工作的几点做法[J];档案;1992年06期
中国重要会议论文全文数据库 前7条
1 李鑫;杜永萍;黄萱菁;吴立德;;基于句法信息和语义信息的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 于娟;武港山;;面向政府公文领域的中文问题分类[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
3 张宇;刘挺;文勖;;基于改进贝叶斯模型的问题分类[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 缪有栋;邱锡鹏;黄萱菁;;基于主动学习的中文问题类别标注研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 孙景广;蔡东风;吕德新;董燕举;;基于知网的中文问题自动分类[A];第三届学生计算语言学研讨会论文集[C];2006年
6 萧蕴诗;严隽薇;刘云;吴启迪;;OA环境下决策支持系统的问题分类及处理方法[A];1995中国控制与决策学术年会论文集[C];1995年
7 ;第3章 水利水电工程泥沙问题分类和泥沙设计方案拟定[A];水利水电工程泥沙设计[C];2010年
中国博士学位论文全文数据库 前1条
1 张志昌;开放域阅读理解关键技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前8条
1 潘志安;融入本体的问题特征模型在中文问题分类中的研究[D];太原理工大学;2010年
2 高超;中文问题分类中特征选择研究[D];安徽工业大学;2011年
3 文勖;中文问答系统中问题分类及答案候选句抽取的研究[D];哈尔滨工业大学;2006年
4 康鑫;汉日问题分类研究[D];北京邮电大学;2009年
5 尹坤;基于语义信息的问题分类研究[D];西南交通大学;2014年
6 陈海光;HNC理论和随机模糊在问答系统中的应用研究[D];江苏大学;2009年
7 谢正文;中文问答系统关键技术研究[D];宁波大学;2012年
8 刘桂平;基于词义及语义分析的问答技术研究[D];哈尔滨工业大学;2008年
中国重要报纸全文数据库 前2条
1 记者  王小平;中国人寿强化内控合规执行力度[N];金融时报;2006年
2 张晓亮 桑明 马玉玲;敦煌市落实整改记好“三本账”[N];甘肃经济日报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978