收藏本站
《北京交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于布隆过滤器算法的网页消重技术的实现与应用

王征  
【摘要】: 随着Internet的不断发展,网络信息呈指数级不断膨胀,这也给信息检索带来了很大的困难,因此对于重复网页的消重操作也是十分有意义的。 本文从理论和应用两方面对网页消重技术进行了研究,达到了以下目标: 首先,针对特定的需求,设计与实现了基于问答平台网站的爬虫,给出了详细的实现过程,并实现了基于布隆过滤器算法(Bloom Filter)的重复URL的过滤; 其次,采用XPath路径表达式定位目标节点,对于目标网页的网页正文内容进行提取操作; 最后,对抽取出来的网页正文内容进行了消重操作。对网页正文内容进行了变长分块操作,对分块后的文档进行了Bloom Filter编码,并通过对文档间的Bloom Filter进行逻辑按位与操作来判断文档间的相似程度。 论文实现的消重方法已经应用于实际,实际应用结果表明,该方法取得了显著的去重效果,大大提高了信息检索系统性能与用户体验性。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前2条
1 程芃森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
2 熊志斌;王冬;尹成国;;舆情监测技术及应用综述[J];软件;2012年12期
中国硕士学位论文全文数据库 前3条
1 张为;公众论坛信息实时检索的研究与实现[D];南京理工大学;2012年
2 冯静;XML数据流上关键字查询的研究与实现[D];西南大学;2012年
3 张芳;校园网搜索引擎中网页去重技术的研究[D];内蒙古科技大学;2012年
【参考文献】
中国期刊全文数据库 前6条
1 池静,方启泉;Bloom filter的研究和应用[J];河北建筑科技学院学报;2003年04期
2 高家利;廖晓峰;;Bloom搜索过滤器的优化设计与实现[J];计算机工程;2009年07期
3 白广慧,连浩,刘悦,程学旗;网页查重技术在企业数据仓库中的应用[J];计算机应用;2005年07期
4 王凡毓;;网络蜘蛛Larbin的设计和优化[J];科技创业月刊;2008年02期
5 郭太飞;何洁月;;归纳学习XPATH Web信息提取规则[J];计算机技术与发展;2007年03期
6 丁振国;吴宝贵;辛友强;;基于Bloom Filter的大规模网页去重策略研究[J];现代图书情报技术;2008年03期
中国硕士学位论文全文数据库 前4条
1 宁力;搜索引擎中网页查重方法的研究[D];北京化工大学;2007年
2 范小源;搜索引擎系统网页消重的研究与实现[D];中南民族大学;2007年
3 陈奋;过滤型网络爬虫的研究与设计[D];厦门大学;2007年
4 罗理;基于Web对象的分布式抓取及存储的设计与研究[D];昆明理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
2 敖东阳;刘好杰;;Larbin分析与Windows平台下移植[J];电脑学习;2009年04期
3 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
4 田大军;李舒;赵林亮;;网站孤立文件及其形成机制分析[J];电脑与信息技术;2011年02期
5 苏金波;叶红;;一种基于规则的桌面搜索索引机制[J];电脑知识与技术;2012年07期
6 苏国荣;杨岳湘;邓劲生;;一种去除重复URL的算法[J];广西师范大学学报(自然科学版);2010年01期
7 程芃森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
8 池静;邢秀娥;倪健;马小翠;;基于Java和C++语言的安全性讨论[J];河北建筑科技学院学报;2005年04期
9 张英;;农业Web信息获取系统的研究与设计[J];农业网络信息;2009年08期
10 王希杰;;一种基于网页指纹的网页查重技术研究[J];计算机仿真;2011年09期
中国重要会议论文全文数据库 前1条
1 王春厚;许都;孙健;;一种降低误判率的BF快速匹配算法结构[A];2010年全国通信安全学术会议论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 李勇军;基于端到端的传感器网络测量技术研究[D];西北工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 张天红;网络钓鱼预警系统设计与分析[D];电子科技大学;2010年
2 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
3 李琚彪;质检舆情监控系统中信息检索的研究[D];北京邮电大学;2011年
4 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年
5 杜洪伟;软件安全领域垂直搜索引擎的优化设计与实现[D];天津大学;2010年
6 宋春丽;基于本体的物流信息抽取分析平台的设计与实现[D];天津大学;2011年
7 向宇;HTTP协议还原系统的设计与实现[D];华中科技大学;2011年
8 周峰;互联网文件存储服务系统研究[D];华中科技大学;2011年
9 何丹丹;社交网络视频分享测量平台的设计与实现[D];华中科技大学;2011年
10 李倞婧;面向网页去重的特征提取与重复模式发现[D];哈尔滨工程大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
2 王春梅;;基于Bloom Filter的网络爬虫URL消重算法研究[J];产业与科技论坛;2011年18期
3 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
4 刘红芝;;中文分词技术的研究[J];电脑开发与应用;2010年03期
5 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
6 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
7 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
8 邱立坤;龙志祎;钟华;程葳;;层次化话题发现与跟踪方法及系统实现[J];广西师范大学学报(自然科学版);2007年02期
9 苏国荣;杨岳湘;邓劲生;;一种去除重复URL的算法[J];广西师范大学学报(自然科学版);2010年01期
10 陶晓鹏,胡运发,张锦;Pat数组创建算法的研究[J];计算机研究与发展;2000年07期
中国重要会议论文全文数据库 前3条
1 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 骆卫华;于满泉;许洪波;王斌;程学旗;;基于多策略优化的分治多层聚类算法的话题发现研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 周军锋;魏蕊;郭景峰;;面向更新的扩展Dewey编码[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
中国博士学位论文全文数据库 前2条
1 周子力;基于WordNet的本体构建及其在安全领域应用关键技术研究[D];华东师范大学;2009年
2 李志敏;哈希函数设计与分析[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 牛娟娟;搜索引擎系统中网页消重的研究与实现[D];河南大学;2011年
2 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
3 黎玲利;XML数据流上的TOP-K关键字查询处理[D];哈尔滨工业大学;2010年
4 唐蓉;搜索引擎重复网页检测技术研究[D];重庆理工大学;2011年
5 王慧;基于URP的校园信息化建设的研究[D];河海大学;2006年
6 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年
7 于瑞萍;中文文本分类相关算法的研究与实现[D];西北大学;2007年
8 黄波;主题搜索引擎的研究与应用[D];成都理工大学;2007年
9 宁力;搜索引擎中网页查重方法的研究[D];北京化工大学;2007年
10 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 彭曙蓉,章兢,杨文忠;MD5算法在消除重复网页算法中的应用[J];电脑知识与技术;2005年29期
3 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
4 肖明忠,代亚非,李晓明;拆分型Bloom Filter[J];电子学报;2004年02期
5 郑跃平,陈传峰;基于XML的WEB数据收集的一种应用[J];福建电脑;2005年12期
6 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
7 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
8 池静;倪健;王华;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比较与研究[J];河北师范大学学报;2006年04期
9 欧建雄,张礼平;HTML数据内容的抽取与集成[J];华东理工大学学报;2003年06期
10 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
中国硕士学位论文全文数据库 前6条
1 滕跃;基于用户兴趣的个性化WEB检索[D];清华大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
4 谭思亮;聚焦爬行系统的设计—算法视角[D];中国科学院研究生院(成都计算机应用研究所);2006年
5 刘洁清;网站聚焦爬虫研究[D];江西财经大学;2006年
6 林乐彬;Inar网络爬虫的设计与实现[D];哈尔滨工业大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 马向玲,马向阳,李伟;用Dreamweaver制作博士招生网站[J];教育信息化;2001年08期
2 小贝壳;保存网页的利器——网文快捕信息管理速战[J];电脑应用文萃;2004年03期
3 ;剖析恶意网页修改注册表[J];电脑数码采购周刊;2005年02期
4 miniworm;;圆角的革命[J];电脑爱好者;2007年07期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 陈宁江;杜凡远;;网页防篡改应用技术分析[J];现代机械;2009年03期
7 中英;;神奇的Internet临时文件夹[J];网络科技时代(数字冲浪);2002年01期
8 李佩华;制作网络版课件的快捷途径[J];教育信息化;2004年06期
9 于艳杰;网页文件上传方法分析与研究[J];哈尔滨学院学报;2005年05期
10 流言;;“傲游”因特网 生活从此更精彩……[J];电脑爱好者;2006年02期
中国重要会议论文全文数据库 前10条
1 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
4 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 陈成;岳志伟;;浅谈政府门户网站的网络安全[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年
6 刘世杰;唐世渭;杨冬青;王腾蛟;李立宇;;基于XML技术的Web信息提取和集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
7 磨科鹏;;网络技术员应知的Web服务安全原理[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
8 李瑞祥;杨雪;;用mrtg实时记录多个网络设备的端口流量[A];济宁市技术创新与可持续发展论文选编[C];2005年
9 姚小涛;;设计和制作特色图书馆主页[A];陕西省图书馆学会第五次会员代表大会暨学术研讨会与全国图书馆部室主任工作、学术研讨会论文集[C];2003年
10 方放;;浅议网上违法经营案件的数字证据[A];工商行政管理论文选[C];2004年
中国重要报纸全文数据库 前10条
1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
2 刘 丹;上海:期中考试取消重负减了吗[N];人民法院报;2004年
3 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
4 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
5 刘成富;编辑网页有妙法[N];计算机世界;2004年
6 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
7 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
8 ;网站安全必不可少的保护神[N];中国计算机报;2005年
9 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
10 姜元学;初哥上网三注意[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
2 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
5 吕宁;基于上下文的个人信息管理研究[D];华中科技大学;2012年
6 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年
7 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
8 余俊丰;Web程序与数据安全研究[D];华中科技大学;2011年
9 何川;分布式信息检索中的若干重要问题研究[D];北京邮电大学;2012年
10 沈慧锋;远程富媒体的呈现[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
2 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
3 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
4 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
5 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
6 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
7 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
9 孙鹏;网页水印技术研究[D];上海交通大学;2010年
10 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026