收藏本站
《江西师范大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

专题型网页搜集器关键算法的研究及实现

胡卓颖  
【摘要】:随着互联网技术的迅速发展,万维网上的可用信息越来越多。但是互联网也为有效进行其中的相关信息发现提出了以下的问题:1.网页的复杂性要远远大于任何传统的文本文档。2.互联网是一个高度动态的信息源。3.互联网所服务用户群体的多样性。4.对于不同的用户互联网上的信息只有一小部分是真正有用的或相关的。 这些问题促使了有效发现和利用互联网信息资源的相关研究工作开展。面向主题搜集技术就是针对这些问题而提出的,它为不同的用户提供不同的服务,以满足他们不同的需求。 这篇论文主要研究了面向主题的搜索中的两个关键算法——网页过滤和链接排序,同时研究了搜索器的实现技术。 在网页过滤方面:针对“互联网上的信息只有一小部分是真正有用的或相关”的这一特点提出一种快速过滤网页的系统过滤算法。这种算法将分类体系组织成一个多层的树状结构,对网页逐层过滤,可以将大量不相关的网页快速的过滤。 在链接排序方面:已有的研究表明网页的分布满足两种局部性,即链接分布的局部性和兄弟分布的局部性。根据这两种局部性的启发,我们提出了一种增量学习的链接相关性估计算法。这种算法简单高效并在不断的搜集过程中增量学习,使其在系统运行一段时间后表现出较好的稳定性。 本文的创新点在于: 在算法方面:1)将层次聚类算法与基于密度的聚类算法思想相结合提出一种基于动态密度的多层聚类算法。2)提出一种简单高效的链接相关性估计算法。 在系统方面:设计并实现一个中文的面向主题的搜索器。
【学位授予单位】:江西师范大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.092

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
3 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
4 徐小龙;王汝传;;基于智能Agent的多维权值信息检索模型[J];电子与信息学报;2008年02期
5 赵新慧,朱伟;分布协作式搜索引擎系统的初步探索[J];抚顺石油学院学报;2003年04期
6 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
7 黄皓凌;张凡;;6搜-高效的专用IPv6搜索引擎[J];电子设计工程;2011年23期
8 刘彤彤;伍小芹;;融入权威性与相关性的PageRank算法[J];信息技术;2008年11期
9 郭来德;刘辉林;刘兰哲;王光兴;;农业信息搜索引擎设计与实现[J];河北工程大学学报(自然科学版);2007年03期
10 钱功伟;倪林;曹荣;;基于网页链接和内容分析的改进PageRank算法[J];计算机工程与应用;2007年21期
中国重要会议论文全文数据库 前6条
1 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
2 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 刘宝良;李建中;;crlib:可交互异构Crawler框架的设计与实现[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
3 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
4 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
9 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
10 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
2 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
3 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
4 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
5 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
6 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
7 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
8 杨华;网络信息动态采集策略的研究及应用[D];河北科技大学;2011年
9 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
10 孙文婷;基于语义的网上股评信息的提取研究[D];武汉理工大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 杨威;FrontPage98在企业Intranet中的应用(六)[J];通信世界;1998年10期
2 卢峰;Frontpage 98的网页编辑[J];电脑技术;1999年03期
3 ;Web Painter 3.0功能完整的网页绘图及动画处理软件[J];电子出版;1999年01期
4 李宗宏;如何利用FrontPage Express制作主页[J];计算机时代;1999年11期
5 ;网上先生——教您上网(四) 上网第四站[J];市场与电脑;1999年07期
6 ;站点扫描[J];计算机周刊;1999年17期
7 云起;信息人——你有网页吗[J];计算机周刊;1999年22期
8 李新 ,杨章远 ,许志宏;在网页中实现自定义滚动条[J];电脑编程技巧与维护;1999年10期
9 范建平;;给你的网页安一个门铃[J];软件;2000年06期
10 张东淮;一步一步做网页(二)[J];电脑技术;2001年08期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
10 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
4 路人甲;在网页上圈圈点点[N];电脑报;2004年
5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年
6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年
7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年
8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年
9 鸣涧;网页的编辑[N];中国电脑教育报;2002年
10 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
3 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 黄小广;港美经济关系研究[D];暨南大学;2008年
6 范洪冬;InSAR若干关键算法及其在地表沉降监测中的应用研究[D];中国矿业大学;2010年
7 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
8 付景广;指纹识别中若干关键算法的研究[D];中国科学院研究生院(软件研究所);2003年
9 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
10 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年
2 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
3 王祥冰;个人网页人际意义构建的多模态分析[D];西南交通大学;2012年
4 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
5 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
6 邱鹏;移动终端网页转换系统的设计与实现[D];大连理工大学;2012年
7 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年
8 马千驰;基于搜索词的网页结果聚类研究与应用[D];华南理工大学;2010年
9 云颖;复杂网络中的社区发现及进化研究[D];河北大学;2011年
10 颜振祥;互联网双语资源挖掘关键技术研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026