收藏本站
《武汉科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

统计与规则相结合的指代消解

金可佳  
【摘要】: 随着互联网信息的飞速发展,信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,自动文摘系统成为研究的热点。 在现有的自动文摘中,主要以句子抽取式为主,基于事件的自动文摘就是其中的一种,其主要思想是将语料中的事件项抽取出来,根据语义资源确定抽取出来的事件项之间的语义关系,然后根据语义关系计算每个事件项的重要性,进而计算事件项所在句子的重要性并进行排序,最后按序抽取句子组成摘要。根据自动文摘领域对事件项通用的定义,这里所说的事件项是位于两个命名实体之间的动词或含有动词意义的名词。 在正常语料中,会出现很多的代词来指代前面已经表达过的名词或命名实体,根据事件项的定义,在抽取事件项的时候,就会将位于代词之间或代词和名词之间的事件项忽略,从而减少了抽取出来的事件项的数量,这样就会降低自动文摘的性能。所以对语料中的代词进行消解成为自动文摘性能提高的关键。 本文利用基于规则和统计相结合的方法对自动文摘源语料中的代词进行消解,首先利用单纯的规则方法对语料中指代命名实体的代词进行消解,通过对召回率和准确率以及消解后的文章进行分析,可以看出其不足在于不能很好的确定哪些代词指代命名实体,针对这一问题将统计中的最大熵的方法和规则相结合进行消解,利用最大熵的方法来弥补单纯规则的方法所出现的不足,准确确定哪些代词需要消解,提高消解的准确率和召回率,增加语料中命名实体的数量,从而尽可能多的抽取出语料中的事件项来提高自动文摘的性能。实验结果表明利用消解后的语料生成的摘要比利用消解前的语料生成的摘要性能提高了近8.5%,并且文摘的可读性,信息量也有明显的提高。
【学位授予单位】:武汉科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
2 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
3 史树敏;黄河燕;刘东升;;自然语言文本指代消解技术研究[J];计算机科学;2007年12期
4 余正涛,樊孝忠;基于最大熵模型的汉语问句语义组块分析[J];计算机工程;2005年17期
5 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
6 于海滨;秦兵;刘挺;郎君;;命名实体识别和指代消解在文摘系统中的应用[J];计算机应用研究;2006年04期
7 王厚峰;指代消解的基本方法和实现技术[J];中文信息学报;2002年06期
8 李国臣,罗云飞;采用优先选择策略的中文人称代词的指代消解[J];中文信息学报;2005年04期
9 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
10 庞宁;杨尔弘;;基于最大熵模型的共指消解研究[J];中文信息学报;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 何甫权;;英语指代与翻译[J];安徽文学(下半月);2008年08期
2 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
3 吴敏;;指代消解在普通语言学理论与课程实践上的应用研究[J];大家;2010年11期
4 黄明;王慧;梁旭;;最大熵模型的语义句法分析在陪护机器人中的应用[J];大连交通大学学报;2011年05期
5 洪田玉;陈志刚;;一种跨语言的自动摘要技术[J];电脑与信息技术;2009年04期
6 朱译翔;;中文名词性谓词的语义角色标注的研究[J];福建电脑;2010年09期
7 杨凯;;浅谈指代消解[J];硅谷;2008年24期
8 李世奇;赵铁军;陈晨;刘鹏远;;基于ART网络的无指导中文共指消解方法[J];高技术通讯;2009年09期
9 王红玲;;零形回指优选解析研究[J];重庆交通大学学报(社会科学版);2013年01期
10 罗森林;韩磊;潘丽敏;冯扬;刘盈盈;;汉语句义结构模型及其验证[J];北京理工大学学报;2013年02期
【同被引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
3 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
4 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
5 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
8 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
9 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
10 王振华,孔祥龙,陆汝占,刘绍明;结合决策树方法的中文姓名识别[J];中文信息学报;2004年06期
【二级参考文献】
中国期刊全文数据库 前10条
1 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
2 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
3 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
4 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
5 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
6 秦兵;刘挺;王洋;郑实福;李生;;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
7 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
8 钱伟,郭以昆,周雅倩,吴立德;基于最大熵模型的英文名词短语指代消解[J];计算机研究与发展;2003年09期
9 王厚峰;;句类中E块的作用及其判定策略[J];计算机科学;2000年05期
10 李国臣,段建勇;基于模糊集的名词细分类研究[J];计算机工程;2004年01期
【相似文献】
中国期刊全文数据库 前10条
1 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
2 张素香;高国洋;戚银城;;基于条件随机场的中国人名识别方法[J];郑州大学学报(理学版);2009年02期
3 于海滨;秦兵;刘挺;郎君;;命名实体识别和指代消解在文摘系统中的应用[J];计算机应用研究;2006年04期
4 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
5 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
6 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
7 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
8 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
9 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
10 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
中国重要会议论文全文数据库 前10条
1 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 罗云飞;李国臣;;采用优先选择策略的中文人称代词的指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
7 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 中华女子学院计算机系 刘志斌;例解Oracle Database Vault[N];计算机世界;2007年
2 高安;别让防火墙成摆设[N];中国计算机报;2001年
3 乐天 ;智胜新的恶意软件[N];中国计算机报;2005年
4 梁冰;BRM产品走向成熟[N];计算机世界;2004年
5 本报记者 黄果;自信从何而来?[N];计算机世界;2000年
6 编译 方红琴;企业级IM迈过安全门槛[N];计算机世界;2004年
7 肖滨;在辩论中选择宪法规则[N];南方周末;2006年
8 夏沅;金融防火墙的规则设计[N];金融时报;2004年
9 何仁杰 梁冰;用规则引擎替换代码[N];计算机世界;2004年
10 戈;Websense完成对SurfControl整合[N];电脑商报;2008年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
3 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
4 孔芳;指代消解关键问题研究[D];苏州大学;2009年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 通拉嘎;基于蒙古文语料库的人名自动识别[D];中央民族大学;2013年
7 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
8 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
9 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
10 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 金可佳;统计与规则相结合的指代消解[D];武汉科技大学;2009年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
6 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
7 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
8 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
9 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
10 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026