收藏本站
《湘潭大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

互联网文本自动文摘技术的研究

胡志敏  
【摘要】: 互联网的不断发展为用户提供了丰富的信息,同时也促进了信息处理技术地进步。面对如此浩瀚的信息,人们需要寻找一条能够快速、准确获得信息的途径。信息检索与自动文摘技术显得非常重要,检索技术可以让人们有效地获取所需信息,而文摘技术则可以节省用户的时间,帮助他们提取主要信息,该技术有利于信息再处理。 本文的主要工作包括以下几个方面: 第一,总结了文本自动文摘技术的研究现状。针对互联网文本,本文提出了网页噪音过滤法和基于树解析内容提取法。根据网页页面特征去除网页中标签等无用信息,从而高效地去除与网页中心内容无关的垃圾信息,最终只保留网页的中心内容。 第二,在介绍和分析现有文本自动文摘技术的基础上,实现了一个互联网文本自动文摘系统。该系统由文本内容提取模块、预处理模块、文本聚类模块和文摘生成模块四个部分组成。本文成功地将网页噪音过滤法和基于树解析内容提取法应用在文本内容提取模块中,从互联网网页中提取出我们所需要的文本内容,然后进行文摘的抽取和生成。 第三,利用1000篇网页进行了实验,实验结果表明该系统得到的自动文摘内容质量较高。
【学位授予单位】:湘潭大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 孟君;;论大众传播文本的解释偏向[J];媒体时代;2010年12期
2 郑亚敏;;从互文性理论析中国古诗文化意象的英译[J];吉林化工学院学报;2011年08期
3 陈芳;;文本、受众与体验——用媒介文化理论解读“新媒体电影”走热的现象[J];东南传播;2011年08期
4 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
5 刘晶瑜;;浅析电视民生新闻文本的叙事特点[J];才智;2011年23期
6 邹燕飞;于成尊;赵亮;;基于Lucene的文本搜索引擎的设计和实现[J];计算机与现代化;2011年09期
7 白鹭;;金钱下异化的人性——《真心话大冒险》的电视文化分析[J];学理论;2011年20期
8 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
9 ;办公快操作[J];电脑迷;2011年17期
10 刘晖;;从文本角度看电视剧对受众的说服效果[J];中国广播电视学刊;2011年07期
中国重要会议论文全文数据库 前10条
1 李晓栋;胡清华;;汽轮机故障诊断文本支持系统的研究与建立[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
2 赵宬斐;黄丽萍;;浙江外来新居民的生活空间发展检视——以店口为例[A];“秩序与进步:浙江社会发展60年研究”理论研讨会暨2009浙江省社会学年会论文集[C];2009年
3 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 胡洁;;浅谈习作教学中的“对话性格”[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
5 张鹏;李国臣;李茹;刘海静;石向荣;;基于FrameNet框架关系的文本蕴含识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
9 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 周平远;文本学研究的创新[N];中华读书报;2005年
2 高红;六方会谈:共同文件最终文本缘何难产?[N];新华每日电讯;2005年
3 记者 孙贤程;新版文本:五大突出问题应调整[N];建筑时报;2011年
4 安徽 高伟;文本批量替换好帮手[N];电脑报;2004年
5 廖令鹏;围炉写作与文本盛宴[N];文艺报;2011年
6 黄宾堂 (壮族);生气勃勃的文本[N];文艺报;2010年
7 李永波;实现滚动文本一例[N];中国电脑教育报;2004年
8 红桥区教师进修学校 孙晓军;深入解读文本 实现有效教学[N];天津教育报;2010年
9 沈传亮;推动历史大众化的文本途径[N];学习时报;2011年
10 林茨;“纪实”文本《百褶裙》[N];中华读书报;2003年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
4 宋胜利;文本语义表示及多层分类关键技术研究[D];西安电子科技大学;2012年
5 富世平;敦煌变文的口头传统研究[D];四川大学;2005年
6 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
7 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
8 刘顺利;文本研究[D];中国社会科学院研究生院;2002年
9 彭青龙;“写回”帝国中心[D];华东师范大学;2005年
10 李雁南;近代日本文学中的“中国形象”[D];暨南大学;2005年
中国硕士学位论文全文数据库 前10条
1 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
2 徐晴阳;从网页中精确提取链接上下文相关文本[D];吉林大学;2004年
3 何固佳;原语文本的解码模式[D];湖南师范大学;2004年
4 陈晓华;程乃珊笔下上海想象的变迁及其社会文化语境[D];首都师范大学;2004年
5 李旺欣;语文对话教学研究[D];上海师范大学;2006年
6 苏平萍;初中语文对话教学个案研究[D];广西师范大学;2006年
7 杨黎丽;爱的缺失与张爱玲文本的悲剧性[D];郑州大学;2007年
8 任云岚;论《管家》中的不确定性[D];河北师范大学;2009年
9 未怡;论《七姐妹》的重生主题[D];四川外语学院;2011年
10 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026