收藏本站
《哈尔滨工程大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

网页信息净化方法的研究与实现

徐冉  
【摘要】: 信息技术的发展对全世界来说都产生了极大的影响,是当前高技术发展中的主流技术,因为信息在人类生活中无处不在,无时无刻的不影响着人类的生活,对信息的获得和挖掘成为科学界关注的焦点。在互联网发展的初期,信息量和需求量都比较少,那么用户可以很容易的找到自己想要的信息,不过,随着互联网发展越来越迅速,这个事情变得越来越难了。搜索引擎的产生使在互联网上查找信息又变得相对容易了。但是,在海量的数据和异构的信息中存在这大量的网页噪音,这些噪音严重影响了搜索引擎系统的服务质量,降低了搜索结果的准确度,也增加了服务器处理过程的时间和空间上的开销。 首先,本文详细介绍了在网页净化系统实现中所用到的关键技术,主要包括文档对象模型DOM的定义及其特点;网页结构,其中包括网页标签树表示,网页如何用网页标签树表示,如何用DOM树表示;中文网页分块技术,通过结合DOM树以及HTML的一些重要标签对网页进行分块同时,本文来列举了中文网页分块的一些规则,结合对这些技术的了解,有助于对本研究课题功能实现的理解。 然后,本论文分析了信息网行业搜索引擎的架构:WebServerSO,CACHE管理系统,最新库,数据管理系统,及其网页净化系统。分别对每个子系统的功能做了详细的阐述,并详细介绍了各个子系统之间的关系,并对整个搜索过程做了详细的说明:用户从Web端的CGI(通用网关接口)程序输入查询串,CGI程序对它进行合理的分割并把查询串传入搜索系统,把查询到相关词的页面传入网页净化系统,最后把净化后的页面通过Web Server端的CGI程序显示在浏览器中。网页净化系统在整个行业搜索引擎中的作用:通过Web端的CGI程序显示净化后的结果,并对CGI做了介绍。网页净化系统PageClean是本文介绍的重点,也是本论文的核心部分。本文详细阐述了PageClean系统的架构,实现该系统依据的规则,该算法的主要思想及实现算法的流程。 最后,论文给出了网页净化系统PageClean测试方法,并根据测试数据得出结论:网页净化系统PageClean无论是在净化速度还是在净化效果上都具有较好的性能,达到了预期的目标。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前1条
1 陈蕾蕾;张如静;;面向Web的新闻网页正文信息抽取策略研究[J];电脑知识与技术;2008年S2期
中国硕士学位论文全文数据库 前3条
1 赵晓丽;基于语义分析的网页病毒检测研究[D];中国海洋大学;2010年
2 罗伟;基于移动Agent的主题搜索引擎研究[D];中南民族大学;2008年
3 曹桂锋;搜索引擎中网页分类和网页净化的研究与实现[D];武汉理工大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 刘杰;束博;;一种高效的HTML/XHTML至WML的转换方法[J];北京工商大学学报(自然科学版);2006年06期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
5 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 王实;高文;李锦涛;;Web数据挖掘[J];计算机科学;2000年04期
8 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
9 陈建华,包煊;Web挖掘系统的设计与实现[J];计算机工程;2002年08期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 胡凌云;胡桂兰;徐勇;李龙澍;;基于Web的新闻文本分类技术的研究[J];安徽大学学报(自然科学版);2010年06期
3 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
4 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
5 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
6 郭新志;钟家民;;一种改进的双重过滤模型算法[J];安阳工学院学报;2009年02期
7 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
8 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
9 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
10 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
4 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
5 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
6 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
8 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
4 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
5 杨晓蓉;分布式农业科技信息共享关键技术研究与应用[D];中国农业科学院;2011年
6 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
7 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
8 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 韩微微;基于web日志的网络课程使用状况信息采集及评价的研究[D];哈尔滨师范大学;2010年
4 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
7 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
10 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 祝国君,刘文业;超文本标记语言HTML简介[J];电脑知识与技术;1999年07期
2 王天立;;网页恶意代码的剖析与防范[J];福建电脑;2007年08期
3 杨静;陈冬;程小红;;贝叶斯公式的几个应用[J];大学数学;2011年02期
4 夏祥禹;条件概率与贝叶斯公式[J];阜阳师范学院学报(自然科学版);1996年03期
5 何明;胡彩霞;;一种文本相似性的度量方法和计算方法[J];黄山学院学报;2005年06期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
8 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期
9 肖诗源,叶俊,刘贤德;一种基于Agent的分布式搜索引擎[J];计算机工程;2002年07期
10 郑皎凌;王成良;;网页分块聚类的Web站点逻辑域挖掘[J];计算机工程;2007年04期
中国重要会议论文全文数据库 前1条
1 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
中国硕士学位论文全文数据库 前10条
1 孟庆鑫;搜索引擎相关技术研究[D];中国科学技术大学;2011年
2 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
3 伍菲;面向主题型的网页分类技术的研究与实现[D];华中科技大学;2011年
4 罗黎敏;基于DOM模型的网页净化系统设计与实现[D];湖南大学;2010年
5 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
6 袁宏;基于移动Agent的中文信息搜索引擎系统模型的研究[D];沈阳工业大学;2003年
7 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
8 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
9 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年
10 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 李晓光;网页木马检测系统的设计与实现[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
2 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
3 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 唐菁,张前,陈泓婕,刘宁,杨炳儒;基于Web的文本挖掘[J];计算机工程与应用;2002年21期
6 常育红,姜哲,朱小燕;基于标记树表示方法的页面结构分析[J];计算机工程与应用;2004年16期
7 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
8 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
9 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
10 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
【相似文献】
中国期刊全文数据库 前10条
1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
2 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
3 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
4 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
5 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
6 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
7 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
8 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
9 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
10 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026