收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于子主题划分和句子特征的中文文档自动文摘研究

张佳培  
【摘要】:随着网络上电子信息的剧增,如何准确高效的获取需要的信息变得日益重要。文摘作为文档内容的概述,它的简洁性、概括性、可读性和客观性能够满足人们高效挖掘有用信息的需求。因此,自动文摘逐渐成为近年来自然语言处理领域的一个研究热点。 本文首先介绍文摘的概念、自动文摘的国内外研究现状及研究方法。然后针对基于LexRank算法的文摘抽取存在的优缺点进行了讨论分析,提出了一种新的基于子主题划分和句子特征的中文文档自动文摘方法: ①将中文文档表示为以句子为顶点,句子之间的相似度为边权值的无向加权图结构。然后得到其最大生成树,并在最大生成树上采用改进的K-means算法完成聚类,得到的每个子类代表一个子主题。对文档进行子主题划分可以解决摘要的低主题覆盖率,得到更全面的文摘; ②在每个子主题内,句子权重由LexRank算法得到的句子显著度与句子特征的得分共同衡量,例如句子的长度、位置、标题词汇、指示性短语、句子结构等,从而得到更加准确和全面的句子权重; ③在抽取文摘前,首先对子主题按照重要度由高到低进行排序,然后按照压缩率依次从每个子主题中抽取当前权重最高的句子放入文摘句集合中。每当抽取一个文摘句后,就对该子主题中其他句子进行权重重置计算,以避免下次重复抽取相似度较高的句子。这样不仅可以使文摘较全面的表达文档的重要主题,而且可以减少文摘的冗余。 最后使用哈尔滨工业大学社会计算与信息检索研究中心提供的单文档自动文摘语料库,对三种不同的自动文摘方法进行了对比。第一种是本文提出的方法,第二种是基于LexRank算法的文摘抽取方法,第三种是基于句子特征和LexRank算法的方法。实验表明本文提出的方法在准确率、召回率、F-measure和ROUGE指标上均优于其他两种方法,能够得到质量更高的文摘。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
4 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
5 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
6 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
7 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
8 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
9 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
10 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
11 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
12 杨建林;中文自动文献系统研究[J];情报学报;2001年04期
13 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
14 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
15 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
16 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
17 朱爱群;自动标引和自动文摘对机器翻译的影响[J];现代图书情报技术;1997年01期
18 杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期
19 李小滨,徐越;自动文摘系统EAAS[J];软件学报;1991年04期
20 王建波;王开铸;;自动文摘系统—句子级信息处理研究[J];情报科学;1991年06期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 邢连香;;英语句子结构[A];河北省教师教育学会第一届教学设计创新论坛论文集[C];2011年
4 吴军;;从句子结构的变化看口语复合句发展的趋势[A];中国首届“海峡两岸俄语教学与研究学术讨论会”论文摘要集[C];2005年
5 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 韩丽;张奇;;关键词词频、句法结构及呈现方式对大学生英语听力效果的影响[A];第十二届全国心理学学术大会论文摘要集[C];2009年
9 朱庆;;从思维方式看英汉句法差异与翻译[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
10 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 徐莉娜;翻译中句子结构转换研究[D];上海外国语大学;2010年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
6 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
7 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
8 杨华;俄英句子命题结构的称名学对比研究[D];上海外国语大学;2009年
9 张玲;象似语序与突显语序互动研究[D];华东师范大学;2010年
10 樊友新;从事件结构到句子结构[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 张佳培;基于子主题划分和句子特征的中文文档自动文摘研究[D];重庆大学;2012年
2 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
3 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
4 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
5 郝志新;基于改进的模糊C均值聚类算法的多文档自动文摘[D];哈尔滨工业大学;2009年
6 熊颖;中文多文档摘要关键技术研究[D];北京邮电大学;2011年
7 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
8 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
9 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
10 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
中国重要报纸全文数据库 前10条
1 四川省内江市市中区朝阳镇初级中学 宋斌;谓语在句子中的重要性[N];学知报;2011年
2 特邀专家:上海昂立进修学院CET名师 廖怀宝;点评新大学英语四级考试[N];人才市场报;2007年
3 邵敬敏;“过犹不及”——多余与残缺[N];语言文字周报;2011年
4 赵惠英;浅析对学生英语阅读方法的培养[N];甘肃日报;2005年
5 上海市敬业中学 许宏;保持对英语学习的兴趣和信心[N];文汇报;2008年
6 新东方教育科技集团中学英语培训部 戚益;帮学生顺利通过“高中英语阅读”关[N];中国教育报;2005年
7 北京新航道学校 胡敏;考研英语:题型变化更加注重能力考查[N];中国教育报;2006年
8 沈锡伦;语言单位的搭配关系[N];语言文字周报;2007年
9 本版编辑 温州中学 林国爽 瓯海中学 何志芳 徐进光 杨昭普 高振千 文楫;读解试卷 反思教学[N];温州日报;2006年
10 主讲人:李俊和(特级教师);《精髓提炼》●英语(1)[N];福建日报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978