收藏本站
《哈尔滨工程大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

网页信息净化方法的研究与实现

徐冉  
【摘要】: 信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人类的生活,对信息的获得和挖掘成为科学界关注的焦点。在互联网发展的初期,信息量和需求量都比较少,那么用户可以很容易的找到自己想要的信息,不过,随着互联网发展越来越迅速,这个事情变得越来越难了。搜索引擎的产生使在互联网上查找信息又变得相对容易了。但是,在海量的数据和异构的信息中存在这大量的网页噪音,这些噪音严重影响了搜索引擎系统的服务质量,降低了搜索结果的准确度,也增加了服务器处理过程的时间和空间上的开销。 首先,本文详细介绍了在网页净化系统实现中所用到的关键技术,主要包括文档对象模型DOM的定义及其特点;网页结构,其中包括网页标签树表示,网页如何用网页标签树表示,如何用DOM树表示;中文网页分块技术,通过结合DOM树以及HTML的一些重要标签对网页进行分块同时,本文来列举了中文网页分块的一些规则,结合对这些技术的了解,有助于对本研究课题功能实现的理解。 然后,本论文分析了信息网行业搜索引擎的架构:WebServerSO,CACHE管理系统,最新库,数据管理系统,及其网页净化系统。分别对每个子系统的功能做了详细的阐述,并详细介绍了各个子系统之间的关系,并对整个搜索过程做了详细的说明:用户从Web端的CGI(通用网关接口)程序输入查询串,CGI程序对它进行合理的分割并把查询串传入搜索系统,把查询到相关词的页面传入网页净化系统,最后把净化后的页面通过Web Server端的CGI程序显示在浏览器中。网页净化系统在整个行业搜索引擎中的作用:通过Web端的CGI程序显示净化后的结果,并对CGI做了介绍。网页净化系统PageClean是本文介绍的重点,也是本论文的核心部分。本文详细阐述了PageClean系统的架构,实现该系统依据的规则,该算法的主要思想及实现算法的流程。 最后,论文给出了网页净化系统PageClean测试方法,并根据测试数据得出结论:网页净化系统PageClean无论是在净化速度还是在净化效果上都具有较好的性能,达到了预期的目标。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前1条
1 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
中国硕士学位论文全文数据库 前3条
1 赵晓丽;基于语义分析的网页病毒检测研究[D];中国海洋大学;2010年
2 罗伟;基于移动Agent的主题搜索引擎研究[D];中南民族大学;2008年
3 曹桂锋;搜索引擎中网页分类和网页净化的研究与实现[D];武汉理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 刘杰;束博;;一种高效的HTML/XHTML至WML的转换方法[J];北京工商大学学报(自然科学版);2006年06期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
5 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 王实;高文;李锦涛;;Web数据挖掘[J];计算机科学;2000年04期
8 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
9 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
3 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
4 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
5 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
6 郭新志;钟家民;;一种改进的双重过滤模型算法[J];安阳工学院学报;2009年02期
7 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
8 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
9 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
10 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
8 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
5 杨晓蓉;分布式农业科技信息共享关键技术研究与应用[D];中国农业科学院;2011年
6 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
7 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
8 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 韩微微;基于web日志的网络课程使用状况信息采集及评价的研究[D];哈尔滨师范大学;2010年
4 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
7 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
10 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 祝国君,刘文业;超文本标记语言HTML简介[J];电脑知识与技术;1999年07期
2 王天立;;网页恶意代码的剖析与防范[J];福建电脑;2007年08期
3 杨静;陈冬;程小红;;贝叶斯公式的几个应用[J];大学数学;2011年02期
4 夏祥禹;条件概率与贝叶斯公式[J];阜阳师范学院学报(自然科学版);1996年03期
5 何明;胡彩霞;;一种文本相似性的度量方法和计算方法[J];黄山学院学报;2005年06期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
8 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
9 肖诗源,叶俊,刘贤德;一种基于Agent的分布式搜索引擎[J];计算机工程;2002年07期
10 郑皎凌;王成良;;网页分块聚类的Web站点逻辑域挖掘[J];计算机工程;2007年04期
中国重要会议论文全文数据库 前1条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国硕士学位论文全文数据库 前10条
1 孟庆鑫;搜索引擎相关技术研究[D];中国科学技术大学;2011年
2 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
3 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年
4 罗黎敏;基于DOM模型的网页净化系统设计与实现[D];湖南大学;2010年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
7 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
8 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
9 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年
10 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 李晓光;网页木马检测系统的设计与实现[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条