收藏本站
《苏州大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

面向主题的Web文档自动文摘生成方法研究

邓光喜  
【摘要】:随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个性化的需求并提高人们获取信息的效率是一个迫切需要解决的问题。为了解决上述问题,本文研究了面向主题的Web文档自动文摘生成方法。具体地讲,本文主要对以下几个方面进行了研究: 1.对主题各侧面相关句子的识别方法进行了研究。提出了一种基于依存关系的句子相似度计算方法,使用该方法对句子进行聚类,然后从每个类中抽取词和语法特征形成模式,并使用这些模式来识别主题各侧面相关句子。另外,还研究了使用分类器来进一步识别主题各侧面相关句子的方法。该方法根据词在依存树中的层次对词的权重进行调整,选取有效的依存关系作为特征,使用句法树作为结构特征并用基于动词的裁剪策略对句法树进行裁剪。 2.在文摘句的选取部分,提出了一种适用于Web文档的文摘句选择方法。该方法先根据Web文档的特点对候选句子进行评分,再依据句子间的相似性、文档间的链接、句子间的锚链接、句子间的相似度和句子的邻接关系,使用图排序算法对句子的评分进行调整。最后使用MMI算法根据句子的评分和文摘的长度限制选择文摘句。 3.在文摘句的排序部分,提出了一种基于上下文的句子排序算法。该方法通过计算文摘句的上下文和其它文摘句的相似度来判断句子间是否相邻,并根据相似度和句子间的相对位置关系计算其可信度。使用基于特征的方法选择第一个句子。选择和前面一个句子有最大邻接度的句子为下一个句子。 以上三个部分的实验均证明,本文提出的方法取得了良好的效果,部分优于现有的方法。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
2 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
3 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
4 王永恒;贾焰;杨树强;;大规模文本数据库中的短文分类方法[J];计算机工程与应用;2006年22期
5 蒋效宇;樊孝忠;陈康;;基于用户查询的中文自动文摘研究[J];计算机工程与应用;2008年05期
6 王昕,熊光楞;基于本体的设计原理信息提取[J];计算机辅助设计与图形学学报;2002年05期
7 俞辉;;基于LSA和pLSA的多文档自动文摘[J];计算机工程与科学;2009年09期
8 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
9 江开忠;李子成;顾君忠;;基于用户兴趣的文本摘要方法研究[J];计算机应用;2007年02期
10 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期
中国博士学位论文全文数据库 前1条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 乌庆敏;杨思春;;概念向量空间模型在智能答疑系统中的应用[J];安徽工业大学学报(自然科学版);2008年02期
2 赵应秋;罗军;张君艳;;基于知网的词语语义相关度计算[J];信息技术;2010年03期
3 刘挺,吴岩,王开铸;中文自动文摘系统CAAS的研究与实现[J];哈尔滨工业大学学报;1999年06期
4 王宇颖;陈振;苏小红;;自动组卷中试题去重技术研究[J];哈尔滨工业大学学报;2009年01期
5 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
6 桂海霞;孟祥瑞;;基于粗糙集与KNN的Web文本分类的研究[J];安徽理工大学学报(自然科学版);2008年04期
7 刘其云;;Web信息抽取中XML在Agent技术中的应用[J];黑龙江科技信息;2007年21期
8 蒋昌金;彭宏;陈建超;马千里;;基于主题词权重和句子特征的自动文摘[J];华南理工大学学报(自然科学版);2010年07期
9 刘小明;樊孝忠;刘里;;融合事件信息的复杂问句分析方法[J];华南理工大学学报(自然科学版);2011年07期
10 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李卫;王枞;李蕾;郭燕慧;钟义信;;全信息知识制导的科技期刊初审辅助系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
3 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 乐明;冯志伟;;RST的理论发展和工程应用综述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
10 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
2 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
5 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
6 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 郭春芬;基于本体的工艺知识管理关键技术研究[D];山东科技大学;2011年
9 单建芳;面向事件的文本表示研究[D];上海大学;2012年
10 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
3 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
4 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
5 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
8 徐美霞;基于web技术的网上考试系统[D];中国海洋大学;2010年
9 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
10 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
2 姜贤塔,陈根才;利用字频统计及机器学习的自动文摘方法[J];杭州大学学报(自然科学版);1997年03期
3 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
4 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
5 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
6 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
7 尹存燕;戴新宇;陈家骏;;Internet上文本的自动摘要技术[J];计算机工程;2006年03期
8 王昕,操晴,熊光楞;基于产品数据管理的设计历史建模和管理的研究[J];计算机集成制造系统-CIMS;2001年02期
9 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期
10 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
中国重要会议论文全文数据库 前2条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 肖华松;何婷婷;邵伟;胡珀;;一种改进K-means聚类算法在多文档文摘中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
【相似文献】
中国期刊全文数据库 前10条
1 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
2 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
3 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
4 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
5 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
6 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
7 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
8 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
9 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
10 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
8 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
10 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 寇亚琴;百合优良株系组培扩繁[N];中国花卉报;2005年
2 蒲昭和;“活蛆疗法”复辟[N];中国商报;2000年
3 何吟;“行业”标签让SunFlow更醒目[N];计算机世界;2004年
4 山东出版技工学校 宋协祝;Photoshop中的CMYK设置[N];中国包装报;2001年
5 中国建筑材料工业协会科技教育委员会 黄书谋 吴兆正;关于“凝石”的几点看法[N];中国建材报;2005年
6 王飞跃 吴朝晖;ASOS:嵌入式操作系统的发展趋势[N];计算机世界;2000年
7 王伟;3DAV中的多视点视频编码及解码端视点绘制研究 获2006年度国家自然科学基金资助项目[N];科技日报;2007年
8 仓烜;青海成功研发藏、汉文身份证信息处理系统[N];人民公安报;2007年
9 张阳;谷歌身陷“专利门”[N];中国现代企业报;2007年
10 曹莉;建设工程“电子标书”系统通过专家组验收[N];中国建设报;2007年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
4 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
5 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
6 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
9 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
10 魏法明;基于随机规划动态投资组合中的情景元素生成研究[D];同济大学;2008年
中国硕士学位论文全文数据库 前10条
1 邓光喜;面向主题的Web文档自动文摘生成方法研究[D];苏州大学;2011年
2 江军;基于语义的自动文摘系统[D];电子科技大学;2011年
3 郝志新;基于改进的模糊C均值聚类算法的多文档自动文摘[D];哈尔滨工业大学;2009年
4 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
5 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
6 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
7 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
8 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
9 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
10 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026