收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于内容的搜索引擎网页去重研究

刘阳  
【摘要】: 随着信息时代的发展,网络信息在社会生活中的价值越来越大,网络已成为人们发布和获取信息的重要渠道,各种信息资源的数量也呈爆炸式增长,受信息需求驱动而出现的搜索引擎业已成为网络用户获得信息的重要手段。然而,在数以亿计的网页中,存在着规模庞大的内容重复网页,主要来自于网页转载,有些是完全相同,有些是部分相同的。这些冗余的网页给搜索引擎带来很大的负担,严重影响着搜索引擎的性能和用户的体验。因此,为了提高检索质量,重复网页检测和消除已经成为搜索引擎无法回避的问题,网页去重也因此成为了信息检索领域中的一个热点领域。 网页查重分为两个部分:一是网页的预处理,包括网页格式的转换、噪声去除和提取出正文内容;二是基于网页内容进行去重处理。国内外已有的去重算法主要有一下几种:基于URL去重、基于语法去重和基于语义去重。 本文首先介绍了国内外的网页净化研究现状,对已有的算法进行了简要的分析,进而提出了基于标记窗的网页正文提取算法。其主要原理是用DOM将网页表示成一颗标签树,再遍历DOM树,去除链接、图片和脚本等噪音之后,将每一层的容器标签和其中的文本作为标记窗析取出来,根据文本的语法特点赋予标记窗权值,取权值最大者。 然后,本文系统综述了国内外已有的去重算法,提出了基于大段落和长句的网页去重算法,算法中使用BloomFilter进行相似性判断,并且提出了一套新的相似度度量指标。具体过程是对提取出来的正文,从符合条件的大段落中提取出长句子,并且截取长句子两端各L个字符组成特征码;将网页的特征码进行哈希,得到该网页的BloomFilter和MD5摘要值;利用MD5值将完全相同的网页预先去除,然后再将BloomFilter进行比较,计算相似度和包含度,如果超过阈值,则说明是重复的。 最后,介绍了网页去重算法的实现和实验分析,对BloomFilter在算法中的响应时间进行了专门的讨论。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;北京石景山区网页设计大赛开幕[J];电脑爱好者;2010年24期
2 贾健;;视觉艺术在网页设计中的运用[J];企业导报;2011年11期
3 王诗沐;;网页设计和用户界面设计[J];程序员;2010年07期
4 李慧萍;刘亮;;网页设计中CSS的应用技巧[J];电脑知识与技术;2011年26期
5 李晓宁;;浅析网页设计中视觉要素对人产生的情感因素[J];大众文艺;2011年16期
6 陈振宇;;色彩在网页设计中的应用[J];才智;2011年18期
7 黄俊鹏;;浅析案例教学法在网页设计教学中的应用[J];华章;2011年21期
8 廖洁;;高职非艺术类专业网页设计教学探索[J];现代营销(学苑版);2011年07期
9 李湘媛;;网页版式设计的视觉流程分析[J];艺术教育;2011年08期
10 李晓宁;;网页设计中的视觉要素分析[J];大舞台;2011年08期
11 司丽丽;;网页设计中的文字版式设计探讨[J];硅谷;2011年16期
12 彭晓明;林姝华;;浅谈网页设计教师的专业成长[J];中国科教创新导刊;2011年23期
13 张建淳;;网页设计的弹性化趋势[J];新闻传播;2011年06期
14 热沙来提·热依木;;网页设计中的页面布局研究[J];华章;2011年23期
15 刘妤;;艺术设计专业的网页设计课程教学改革与实践[J];包装世界;2011年04期
16 海狼;;复制受限网页 不用那么麻烦[J];电脑爱好者;2011年07期
17 张秀梅;彭新平;;色彩在网页中的应用[J];经营管理者;2011年13期
18 刘伟;;关于商用网页的视觉设计法则研究[J];吉林艺术学院学报;2011年03期
19 周景报;唐建宁;;高职院校网页设计实践[J];长春工业大学学报(自然科学版);2011年03期
20 王会兰;;浅谈项目教学法在《网页设计与制作》课程中的应用[J];新课程(教育学术);2011年05期
中国重要会议论文全文数据库 前10条
1 王谨;;水墨风格在网页设计中的运用[A];城市文化与艺术审美[C];2008年
2 许文惠;;图书馆网站及网页设计初探[A];图书馆理论与实践[C];2002年
3 孙宇航;;科技期刊网站的建设探讨[A];第4届中国科技期刊青年编辑学术研讨会论文集[C];2004年
4 姚秋明;甄莉;;基于NEWS油藏综合解释系统的网站建设[A];油气地球物理实用新技术——中国石化石油勘探开发研究院南京石油物探研究所2005年学术交流会论文集[C];2005年
5 杨孙超;;县级公共图书馆网站建设的思考[A];福建省图书馆学会2006年学术年会论文集[C];2006年
6 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
7 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
8 杜玉梅;杜习英;刘晓云;;中小企业网站建设方案[A];计算机模拟与信息技术会议论文集[C];2001年
9 余嵘华;;大学物理网上教学系统的安全设计[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 郭菲;;网页设计中的人性化设计[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
中国博士学位论文全文数据库 前9条
1 谭玉娟;数据备份系统中数据去重技术研究[D];华中科技大学;2012年
2 赖布尔(Muhammad Nabeel Talib);语义支持的一种面向盲人使用者的电子商务语音浏览方法研究[D];华中科技大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 宋波;Web应用交互的建模和测试用例生成[D];上海大学;2010年
6 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
7 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
8 朱雷;我国医院网站医疗信息服务综合评价模型及实证研究[D];中南大学;2010年
9 张博;多视点商品本体学习研究[D];武汉理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年
2 刘俊荣;基于行为识别的网页文本分类算法研究与实现[D];北京邮电大学;2010年
3 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
4 闫妍;基于动态效果的电子商务网页设计与研究[D];东北大学;2007年
5 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年
6 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
7 陈烨;面向用户体验的网页界面优化设计方法研究[D];重庆大学;2010年
8 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年
9 董娟;基于页面结构分析的网页信息抽取方法研究[D];中国石油大学;2010年
10 宋玲;网页交互设计的视觉体验[D];西安美术学院;2010年
中国重要报纸全文数据库 前10条
1 酷娱网设计部经理 王民;网页设计面试常见四陋习[N];电脑报;2010年
2 Relen;个性网页设计之内容艺术[N];电脑报;2001年
3 Relen;个性网页设计之创意无限[N];电脑报;2001年
4 河南 张金贵;网页设计布局心得[N];电脑报;2001年
5 西安市第十九中学 丁锦;网页设计中的色彩搭配[N];学知报;2011年
6 记者 薛亚芳;网络美工,动手能力最重要[N];人才市场报;2011年
7 记者 钟文;隔两年去重庆2个半小时就到[N];成都日报;2004年
8 吴兴国;网页设计的几项原则[N];山西科技报;2000年
9 实习生 郭晓;“我设计的软件是独一无二的”[N];科技日报;2006年
10 王楠;网页设计:网站的灵魂工程师[N];电脑报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978