收藏本站
《苏州大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向主题的Web文档自动文摘生成方法研究

邓光喜  
【摘要】:随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个性化的需求并提高人们获取信息的效率是一个迫切需要解决的问题。为了解决上述问题,本文研究了面向主题的Web文档自动文摘生成方法。具体地讲,本文主要对以下几个方面进行了研究: 1.对主题各侧面相关句子的识别方法进行了研究。提出了一种基于依存关系的句子相似度计算方法,使用该方法对句子进行聚类,然后从每个类中抽取词和语法特征形成模式,并使用这些模式来识别主题各侧面相关句子。另外,还研究了使用分类器来进一步识别主题各侧面相关句子的方法。该方法根据词在依存树中的层次对词的权重进行调整,选取有效的依存关系作为特征,使用句法树作为结构特征并用基于动词的裁剪策略对句法树进行裁剪。 2.在文摘句的选取部分,提出了一种适用于Web文档的文摘句选择方法。该方法先根据Web文档的特点对候选句子进行评分,再依据句子间的相似性、文档间的链接、句子间的锚链接、句子间的相似度和句子的邻接关系,使用图排序算法对句子的评分进行调整。最后使用MMI算法根据句子的评分和文摘的长度限制选择文摘句。 3.在文摘句的排序部分,提出了一种基于上下文的句子排序算法。该方法通过计算文摘句的上下文和其它文摘句的相似度来判断句子间是否相邻,并根据相似度和句子间的相对位置关系计算其可信度。使用基于特征的方法选择第一个句子。选择和前面一个句子有最大邻接度的句子为下一个句子。 以上三个部分的实验均证明,本文提出的方法取得了良好的效果,部分优于现有的方法。
【关键词】:多文档文摘 Web文档 句子分类 依存关系 句子排序
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1
【目录】:
  • 中文摘要4-6
  • Abstract6-10
  • 第一章 绪论10-15
  • 1.1 课题研究的背景和意义10-11
  • 1.2 国内外研究概况11-14
  • 1.3 本文组织结构14-15
  • 第二章 自动文摘相关技术概述15-25
  • 2.1 单文档文摘技术概述15-16
  • 2.2 多文档摘要技术概述16-18
  • 2.3 面向查询的多文档摘要概述18-19
  • 2.4 多文档更新摘要技术概述19-20
  • 2.5 自动文摘的评价20-23
  • 2.6 系统设计23-24
  • 2.7 本章小结24-25
  • 第三章 基于模式和句子分类的主题句抽取25-48
  • 3.1 基于依存关系的的主题句模式抽取26-37
  • 3.1.1 基于依存关系的相似度计算26-32
  • 3.1.2 基于聚类的模式生成32-35
  • 3.1.3 实验设计与结果分析35-37
  • 3.2 基于句子分类的主题句识别方法37-47
  • 3.2.1 文本分类的相关工作37-38
  • 3.2.2 词权重调整及依存关系38-41
  • 3.2.3 树核函数及句法树裁剪41-44
  • 3.2.4 实验设计与结果分析44-47
  • 3.3 本章小结47-48
  • 第四章 基于Web 文档特征的文摘句选择算法48-61
  • 4.1 候选句子的评分49-51
  • 4.2 文摘句选择算法51-57
  • 4.2.1 PageRank 算法简介51-52
  • 4.2.2 图排序算法在自动文摘中应用52-53
  • 4.2.3 WebLexRank 算法53-57
  • 4.3 实验设计与结果分析57-60
  • 4.4 本章小结60-61
  • 第五章 基于上下文的文摘句排序61-72
  • 5.1 文摘句排序算法概述61-63
  • 5.2 文摘句的上下文相似性63-64
  • 5.3 基于上下文的文摘句排序算法64-66
  • 5.4 实验设计与结果分析66-69
  • 5.5 系统的实现69-70
  • 5.6 本章小结70-72
  • 第六章 总结与展望72-75
  • 6.1 总结72-73
  • 6.2 研究展望73-75
  • 参考文献75-82
  • 攻读学位期间公开发表的论文82-83
  • 致谢83-84

【参考文献】
中国期刊全文数据库 前10条
1 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
2 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
3 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
4 王永恒;贾焰;杨树强;;大规模文本数据库中的短文分类方法[J];计算机工程与应用;2006年22期
5 蒋效宇;樊孝忠;陈康;;基于用户查询的中文自动文摘研究[J];计算机工程与应用;2008年05期
6 王昕,熊光楞;基于本体的设计原理信息提取[J];计算机辅助设计与图形学学报;2002年05期
7 俞辉;;基于LSA和pLSA的多文档自动文摘[J];计算机工程与科学;2009年09期
8 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
9 江开忠;李子成;顾君忠;;基于用户兴趣的文本摘要方法研究[J];计算机应用;2007年02期
10 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期
中国博士学位论文全文数据库 前1条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期
2 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
3 杨松;楼新远;;基于向量空间模型附加词义特征的句子相似度研究[J];成都信息工程学院学报;2012年03期
4 谭金波;;面向网络教育资源的文本自动分类系统的设计与实现[J];中国远程教育;2009年04期
5 单鸿波;;现代产品设计理论的相关研究现状综述[J];东华大学学报(自然科学版);2006年05期
6 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
7 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
8 张青;熊前兴;;文本分类中词语权重计算的改进[J];电脑知识与技术;2011年01期
9 李宁;王子磊;郑涛;;基于本体论的个性化影片推荐技术研究[J];电子技术;2009年10期
10 张瑜;张德贤;;基于类别比例因子和类内均分度的χ~2统计改进[J];电子科技;2010年12期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李卫;王枞;李蕾;郭燕慧;钟义信;;全信息知识制导的科技期刊初审辅助系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
10 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
2 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
5 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 郭春芬;基于本体的工艺知识管理关键技术研究[D];山东科技大学;2011年
9 单建芳;面向事件的文本表示研究[D];上海大学;2012年
10 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
3 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
4 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
5 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
8 徐美霞;基于web技术的网上考试系统[D];中国海洋大学;2010年
9 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
10 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 钟义信;从“统计”到“理解”,从“传输”到“认知”[J];电子学报;1998年07期
3 杨晓兰,钟义信;基于文本理解的自动文摘系统研究与实现[J];电子学报;1998年07期
4 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
5 孟海涛;陈笑蓉;;基于模糊相似度的科技文献软聚类算法[J];贵州大学学报(自然科学版);2007年02期
6 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
7 姜贤塔,陈根才;利用字频统计及机器学习的自动文摘方法[J];杭州大学学报(自然科学版);1997年03期
8 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
9 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
10 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
中国重要会议论文全文数据库 前2条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 肖华松;何婷婷;邵伟;胡珀;;一种改进K-means聚类算法在多文档文摘中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
4 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
5 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
6 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
7 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
8 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
9 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
10 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
8 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国重要报纸全文数据库 前2条
1 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
2 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
4 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
5 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
6 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
7 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
8 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
9 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
10 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前10条
1 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
2 张瑞玲;教学资源自动文摘系统的研究与设计[D];北京交通大学;2014年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
5 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
6 祝振媛;基于信息分类的网络书评多文档自动文摘研究[D];南京大学;2013年
7 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
8 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
9 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
10 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026