收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文跨文档指代消解的研究与实现

陆长生  
【摘要】: 跨文档指代消解是自然语言处理的重点和难点之一,是信息检索,信息抽取,多文档摘要等应用系统的重要组成部分。在数十年中,指代消解的研究只是局限于单篇文档内的研究。随着研究的深入,跨文档指代消解越来越受到青睐,因为它在篇章之间也构建了多条指代链,不仅可以获得关于某个实体更详细的信息,而且能将一些很有价值的信息反馈到指代消解的研究中,使指代消解取得突破性的进展。 由于中文跨文档指代消解的研究尚且处于起步阶段。本文深入分析现有的英文跨文档指代消解技术,设计了中文跨文档指代消解的系统,该系统包括中文人名跨文档指代消解和中文地名跨文档指代消解两部分。对于中文人名跨文档指代消解,提出两步实现的方案:首先抽取传记信息、相容信息,对指代链进行简单的合并、分离和标记,形成初始的指代链集合。然后采用基于向量空间模型(VSM)的聚类方法对指代链进行聚类,形成最终的指代链集合。对于中文地名跨文档指代消解,提出通过文档层信息的抽取与基于VSM的聚类相结合的策略来实现。此外,由于中文跨文档指代消解语料库的缺乏,我们从搜索引擎上搜集和整理了113篇具有相同人名“张伟”的文档和30篇具有相同地名“通州”的文档,对这些文档进行预处理、人工校对和核对后作为中文人名和地名的语料库。本文采用B-CUBED算法对系统进行评估,在中文人名语料库上,其F值最高为95.71%,对应的准确率和召回率为92.41%和99.25%。在中文地名语料库上,其F最高为89.30%,对应的准确率和召回率为100%和80.66%。 特别是,本文系统深入研究了不同的特征与特征的组合,不同的相似度计算方法,不同的阈值取值间隔,传记信息、相容信息和文档层信息加入与否对系统性能的影响,同时还研究了中文指代消解与中文跨文档指代消解的关系。通过对比实验结果,检查实验错误,分析了中文跨文档指代消解的错误类型和解决方案,为接下来的工作奠定了基础。实验表明,本文的中文跨文档指代消解系统性能良好。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
2 王晓斌,周昌乐;基于语篇表述理论的汉语人称代词的消解研究[J];厦门大学学报(自然科学版);2004年01期
3 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
4 谭魏璇;孔芳;王海东;周国栋;;使用树核函数进行中文代词消解的研究[J];计算机工程与应用;2010年24期
5 史树敏;黄河燕;刘东升;;自然语言文本指代消解技术研究[J];计算机科学;2007年12期
6 许荣华;吴刚;李培峰;朱巧明;;基于指代消解的中文事件融合方法[J];计算机应用;2009年08期
7 董国志;朱玉全;程显毅;;中文人称代词指代消解的研究[J];计算机应用研究;2011年05期
8 孔芳;周国栋;朱巧明;钱培德;;指代消解综述[J];计算机工程;2010年08期
9 吴敏;;指代消解在普通语言学理论与课程实践上的应用研究[J];大家;2010年11期
10 麦范金;李东普;甘国庆;;基于指代消解的自动文摘方法研究[J];情报理论与实践;2010年10期
11 张 威,周昌乐;汉语语篇理解中元指代消解初步[J];软件学报;2002年04期
12 于海滨;秦兵;刘挺;郎君;;命名实体识别和指代消解在文摘系统中的应用[J];计算机应用研究;2006年04期
13 李艳翠;杨勇;周国栋;朱巧明;;基于支持向量机的英语名词短语指代消解[J];计算机工程;2009年03期
14 孔芳;朱巧明;周国栋;钱培德;;基于中心理论的指代消解研究[J];计算机科学;2009年06期
15 陈九昌;孔芳;朱巧明;周国栋;;指代消解中代词待消解项识别研究[J];计算机应用与软件;2011年03期
16 陈九昌;孔芳;朱巧明;周国栋;;基于树核函数的“it”待消解项识别研究[J];中文信息学报;2010年05期
17 钟丹;朱倩;李梅;程显毅;;人称名词短语单复数信息和最大熵模型的指代消解[J];江南大学学报(自然科学版);2009年06期
18 庞宁;杨尔弘;;基于统计模型与规则的指代消解研究[J];太原科技;2007年05期
19 王海东;谭魏璇;李艳翠;周国栋;;基于树核函数的代词指代消解[J];计算机工程;2009年15期
20 李莎莎;李舟军;陈火旺;;篇章中的消解问题与消解算法:研究综述[J];计算机科学;2007年07期
中国重要会议论文全文数据库 前10条
1 罗云飞;李国臣;;采用优先选择策略的中文人称代词的指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 宋丹;师庆辉;薛德军;林鸿飞;;术语同义词的自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 王海东;谭魏旋;周国栋;;语义角色在指代消解中的研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 臧翰芬;韦向峰;张全;;基于语义结构平行的汉语人称代词消解[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 梅铮;王厚峰;;汉语人称代词消解的前端处理[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 金立;肖家燕;;面向信息处理的汉语指代分析——SDRT 视角[A];第二届海峡两岸逻辑教学学术会议专辑[C];2006年
中国博士学位论文全文数据库 前10条
1 孙珊珊;向心理论的参数设定及其在英汉指代消解中的应用研究[D];上海外国语大学;2011年
2 孔芳;指代消解关键问题研究[D];苏州大学;2009年
3 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
4 李凡;Rough集理论及其应用中若干问题的研究[D];电子科技大学;2008年
5 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
6 段嫚娟;向心理论的参数化研究及其在汉语指代消解中的应用[D];上海外国语大学;2006年
7 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
8 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
9 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
10 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
中国硕士学位论文全文数据库 前10条
1 陆长生;中文跨文档指代消解的研究与实现[D];苏州大学;2010年
2 黄李伟;中文零指代消解研究[D];苏州大学;2010年
3 陈九昌;指代消解中待消解项识别研究[D];苏州大学;2010年
4 高俊伟;中文指代消解关键问题研究[D];苏州大学;2012年
5 张宁;英文事件指代消解研究[D];苏州大学;2012年
6 倪吉;中文人名跨文档指代消解研究[D];苏州大学;2011年
7 刘福君;基于指代消解的自动文摘研究[D];安徽大学;2012年
8 罗云飞;中文人称代词指代消解系统的研究与实现[D];山西大学;2005年
9 杨勇;基于特征向量的名词短语指代消解研究[D];苏州大学;2008年
10 李艳翠;语义信息在指代消解中的应用研究[D];苏州大学;2008年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
7 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
8 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
9 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978