收藏本站
《华东师范大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于视觉特征和文本结构分析的中文网页自动摘要技术研究

沈怡涛  
【摘要】:随着国际互联网越来越深入我们的生活,互联网上已经聚集了海量的文本资料,而且仍在爆炸性的增长。为了快速准确的帮助用户查找到需要的内容,传统的解决方案是使用搜索引擎。搜索引擎根据用户的搜索短语给出一个网页的列表,并结合网页自动文摘技术,快速处理每一篇网页,概括出其核心内容并附在文档标题后,供用户筛选出有价值的文档。 然而现有的搜索引擎摘要系统的质量较低,仅仅基于统计方法,摘取网页中和搜索短语匹配字句的附近若干句子,既不能体现该文档的主题思想,也不能很好的根据用户的搜索短语筛选出用户需要的信息。 针对这些不足,本文提出了一种基于视觉特征和文本结构分析的中文网页自动摘要方法。由于网页中包含了大量和网页主题不相关的内容,例如广告链接、导航菜单、版权信息等,首先需要从网页中提取出正文。本文采用了基于视觉特征的网页正文提取思想,提出了一种正文提取方法:先对网页完整渲染,然后模拟用户通过视觉感知了解网页布局的过程,将页面分割成若干个区块,然后从中寻找包含正文的区块,最后通过二次清洗剔除穿插在正文中的广告。这种方法能够适应目前网页随着Web技术的快速发展,变得越来越复杂的趋势,避免了同类研究由于HTML结构和实际的视觉结构完全不同导致抽取失败的情况。 词汇相关度分析对自动摘要有着重要意义,本文提出了一种基于义素图的词汇语义相关度计算方法。采用知网信息构造包含义项和义素的义素图,然后基于人的认知,采用一种扩展的随机游走算法计算词汇之间直接和间接的相关性。 在以上工作的基础上,本文采用拟人思维,给出了一种基于关联图分析和文本结构分析的自动摘要方法。该方法首先采用文本物理结构分析技术和文本结构分析方法将文档分割成若干个语义段,然后针对每个语义段,提出了一种基于关联图分析的主题词提取方法,对各语义段提取主题词集合。然后根据主题词的指导,结合TF-IDF方法和内容相关性分析提取各语义段的摘要。最后根据用户搜索词对摘要进行筛选,生成摘要。 基于以上方法,作者实现了一个面向搜索引擎的自动文摘系统,论文成果成功应用在上海市国际科技合作基金项目基于语义扩展及关系挖掘的智能搜索引擎研究上。 实验证明,本文算法给出的摘要质量较高,并且满足了用户的筛选要求。
【关键词】:自动摘要 网页 正文提取 义素图 随机游走 语义相关度 文本结构分析
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3;TP393.092
【目录】:
  • 内容摘要6-8
  • ABSTRACT8-13
  • 第一章 绪论13-20
  • 1.1. 引言13
  • 1.2. 研究的背景与意义13-14
  • 1.3. 研究发展现状14-16
  • 1.4. 关键技术16
  • 1.5. 本文的研究内容16-17
  • 1.6. 本文的特色与创新之处17-18
  • 1.7. 本文的组织18-20
  • 第二章 相关研究工作20-30
  • 2.1. 自动文摘技术综述20-27
  • 2.1.1. 文本自动摘要分类20-21
  • 2.1.2. 文本自动摘要主要方法21-25
  • 2.1.3. 文本自动摘要的预处理和后处理方法25-26
  • 2.1.4. 自动摘要评价方法26-27
  • 2.2. 网页正文提取技术概述27-28
  • 2.3. 词汇语义相关度计算涉及的技术28-29
  • 2.3.1. 随机游走、pagerank和稳定分布28
  • 2.3.2. 知网和义原28-29
  • 2.4. 本章小结29-30
  • 第三章 网页正文提取方法30-37
  • 3.1. 网页正文提取31-34
  • 3.2. 举例与实验分析34-36
  • 3.3. 本章小结36-37
  • 第四章 基于义素图的词汇语义相关度计算37-48
  • 4.1. 引言37-39
  • 4.2. 相关工作39-40
  • 4.3. 义素与知网40
  • 4.4. 基于义素图的扩展随机游走模型40-45
  • 4.4.1. 义素图的构建41-43
  • 4.4.2. 改进的随机游走算法43-45
  • 4.5. 评价45-47
  • 4.6. 本章小结47-48
  • 第五章 基于文本结构分析的自动摘要方法48-62
  • 5.1. 文本物理结构分析48-50
  • 5.2. 基于义素图的主题词提取50-53
  • 5.3. 词向量语义匹配方法53-54
  • 5.4. 基于内容相关度的文本结构分析54-55
  • 5.5. 自动摘要流程55-59
  • 5.5.1. 基于文本结构分析的自动摘要方法55-57
  • 5.5.2. 实验举例57-59
  • 5.6. 面向查询的自动摘要59-61
  • 5.6.1. 搜索短语59
  • 5.6.2. 兼顾搜索短语要求和文章主题的自动文摘方法59-61
  • 5.7. 文摘后处理61
  • 5.8. 本章小结61-62
  • 第六章 网页自动摘要系统的设计、实现和准确度测试62-69
  • 6.1. 系统关键部件设计62-67
  • 6.1.1. 系统主要功能模块62-64
  • 6.1.2. 系统设计64-66
  • 6.1.3. 系统接口66-67
  • 6.2. 本文自动摘要方法的准确度测试67-68
  • 6.3. 本章小结68-69
  • 第七章 自动摘要在元搜索引擎中的应用69-73
  • 7.1. 总体架构69-70
  • 7.2. 实际应用效果70-71
  • 7.3. 元搜索去重71
  • 7.4. 元搜索排序71-72
  • 7.5. 本章小结72-73
  • 第八章 总结与展望73-75
  • 8.1. 全文工作总结73
  • 8.2. 未来工作展望73-75
  • 附录一 作者攻读硕士学位期间发表的学术论文75-76
  • 附录二 作者攻读硕士学位期间参与的科研项目76-77
  • 参考文献77-79
  • 后记79

【参考文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
4 蒋效宇;樊孝忠;陈康;;基于用户查询的中文自动文摘研究[J];计算机工程与应用;2008年05期
5 刘功申,王永成,许一震;小标题识别的意义和方法[J];计算机工程;2002年06期
6 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
7 李建锋;陈佳良;张美华;;一种基于聚类-遗传算法的文摘提取方法研究[J];计算技术与自动化;2007年03期
8 宋今,赵东岩;基于语料库与层次词典的自动文摘研究(英文)[J];软件学报;2000年03期
9 曾淑琴;吴扬扬;;基于HowNet的词语相关度计算模型[J];微型机与应用;2012年08期
10 刘春;黄定光;;本体初探[J];现代情报;2008年01期
中国博士学位论文全文数据库 前2条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 耿焕同,陈少军,罗永龙;面向主题的互联网信息智能获取与处理工具[J];安徽师范大学学报(自然科学版);2004年04期
2 胡思康;曹元大;;Web网页知识获取技术[J];北京理工大学学报;2006年12期
3 陶范;科技论文层次标题的拟定[J];编辑学报;2005年03期
4 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
5 钟祥睿;;Web信息抽取研究[J];电脑知识与技术;2006年14期
6 陈珂;殷凡;;中文自动摘要综述[J];福建电脑;2007年02期
7 金新生;;句法分析与消解PCFG改进[J];电子设计工程;2012年04期
8 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
9 袁晓峰;;基于词语相关度的文档主题抽取算法[J];成都大学学报(自然科学版);2012年04期
10 尹菡;;网络考试系统中自动评卷算法的应用研究[J];电子世界;2013年24期
中国重要会议论文全文数据库 前9条
1 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
2 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 张美娜;亓超;迟呈英;战学刚;;文本篇章结构的自动标引[A];第三届学生计算语言学研讨会论文集[C];2006年
4 周俏丽;蔡东风;张桂平;季铎;林晓庆;;基于最大熵的“vp np的np”句法结构排歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 朱海军;张桂平;蔡东风;王炜华;;科技论文的标题识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 伊力亚尔·加尔木哈买提;尼亚子别克·阿不都加勒力;;哈萨克文自动文本摘要方法浅谈[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
9 仇伟;黄高辉;姚天昉;;基于HowNet的汉语情感问句二层分类[A];第六届全国信息检索学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
3 朱倩;面向自由文本的细粒度关系抽取的关键技术研究[D];江苏大学;2011年
4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
5 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
6 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
9 何清;机器学习与文本挖掘若干算法研究[D];中国科学院研究生院(计算技术研究所);2002年
10 徐萌;基于服务关系的服务组合相关技术研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
2 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
3 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
4 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
5 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
6 赵亮;自然语言理解中基于本体的概念区分研究及其在智能仪器设计领域的应用[D];西安电子科技大学;2011年
7 吴琼;领域专家知识在本体半自动构建中的作用机理与协调策略[D];吉林大学;2011年
8 梅筱;视频特征及其描述词汇的对齐研究[D];北京邮电大学;2011年
9 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年
10 蒋才智;中文自动分词及人名识别技术研究[D];合肥工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
2 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
3 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
4 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
5 谭振华;程维;常桂然;高晓兴;;基于词汇相关度模型的个性化信息检索算法[J];东北大学学报(自然科学版);2008年04期
6 张志琴;图式知识与语篇衔接关系的建立[J];山西大学师范学院学报;2002年01期
7 王娜;李霞;;基于监督信息特性的主动半监督谱聚类算法[J];电子学报;2010年01期
8 孔万增;孙志海;杨灿;戴国骏;孙昌思核;;基于本征间隙与正交特征向量的自动谱聚类[J];电子学报;2010年08期
9 钱鹏江;王士同;邓赵红;徐华;;基于最小包含球的大数据集快速谱聚类算法[J];电子学报;2010年09期
10 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
中国重要会议论文全文数据库 前1条
1 郎君;刘挺;秦兵;;基于决策树的中文名词短语指代消解[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 凌坚;新闻视频主题识别与跟踪的研究[D];浙江大学;2007年
2 乐明;汉语财经评论的修辞结构标注及篇章研究[D];中国传媒大学;2006年
中国硕士学位论文全文数据库 前2条
1 马楠;现代汉语句段内的语义联系[D];黑龙江大学;2008年
2 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
2 史磊,王永成;英文文献自动摘要系统研究[J];情报学报;1999年06期
3 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
4 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期
5 刘洋,王永成;基于Web服务自动摘要系统的安全实现方案[J];计算机工程与应用;2005年15期
6 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
7 谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期
8 ;计算机中文文本自动摘要系统通过专家鉴定[J];预防医学文献信息;1996年03期
9 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
10 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
中国重要会议论文全文数据库 前10条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
6 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
7 王荀;李素建;宋涛;姜伯平;;服务于内容侧面发现的框架识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 多拉;扎西加;欧珠;大罗桑朗杰;;信息处理用藏文词类及标记集规范(征求意见稿)[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 宋锐;林鸿飞;;面向中文新闻领域的移动摘要系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 陈杰;;应用智能搜索 实现数据挖掘[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
中国重要报纸全文数据库 前6条
1 马海兵;网络舆情及其分析技术[N];光明日报;2007年
2 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
3 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
4 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
5 ;谷尼国际:精确监控网络舆情[N];中国计算机报;2009年
6 ;线点科技:轻松管理互联网[N];中国计算机报;2009年
中国博士学位论文全文数据库 前9条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
5 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
6 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
7 生龙;二型模糊系统理论及应用[D];电子科技大学;2012年
8 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
9 翟延冬;基于WordNet的短文本语义网挖掘算法研究[D];吉林大学;2012年
中国硕士学位论文全文数据库 前10条
1 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
2 余博;基于维基百科的多文档自动摘要系统研究[D];武汉科技大学;2011年
3 商玥;面向概念查询的生物医学多文档摘要技术研究[D];大连理工大学;2011年
4 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
5 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年
6 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年
7 沈怡涛;基于视觉特征和文本结构分析的中文网页自动摘要技术研究[D];华东师范大学;2014年
8 熊芝;中文网页自动摘要系统的设计与实现[D];华南理工大学;2011年
9 李振鹏;针对UGC数据进行的数据挖掘的研究与实现[D];北京邮电大学;2013年
10 张文静;搜索引擎返回结果的自动摘要研究[D];中国石油大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026