收藏本站
《北京化工大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

一种专题式搜索引擎Spider的设计与实现

沈坚  
【摘要】: 随着互联网(Internet)的高速发展,人们的信息来源得到了极大的丰富,信息获取方式也随之而改变。这为人类带来机遇的同时也带来了挑战。在Web信息呈现几何级数增长的情况下,如何能够快速而准确地获取所需信息成为研究的热点之一。专题式搜索引擎(或专业搜索引擎)就是在这样的背景下孕育而生。 搜索引擎包含多个模块,其中网络蜘蛛Spider主要负责为搜索引擎提供数据来源。作为专业搜索引擎的Spider程序,对所处理的页面与专业的相关性有特殊要求。本论文从专业搜索引擎的特殊要求出发,提出以下创新点:(1)借鉴操作系统中CPU时间片轮换策略的思想,提出站点深度优先搜索模型,对同站点页面进行集中抓取;(2)提出页面和站点加权算法,以权值的形式表征页面、站点与专业的相关性,使Spider对相关度高的站点重点抓取;(3)提出二维矢量工作队列数据结构,保证站点深度优先搜索以及权值对站点处理时间的影响。 最后,使用化工专业词库,通过实验对系统进行测试和运行,验证系统的可行性,并对实验的结果进行进一步的分析。讨论了本专用搜索引擎Spider程序向通用搜索引擎Spider的转换。
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
【参考文献】
中国期刊全文数据库 前9条
1 欧歌,赵恒永;一种专题Web信息采集系统的设计方案[J];电脑与信息技术;2004年06期
2 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
3 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
4 刘滨;石峰;;基于消息传递机制的动态负载平衡算法研究[J];计算机工程;2007年10期
5 张汛涞;搜索引擎的设计剖析[J];计算机工程与科学;2002年04期
6 胡还刚,龚晖;多缓冲技术的一种实现方法及其应用[J];计算机应用研究;2003年04期
7 沈剑刚;杨庚;;一种基于动态聚合方法的网格任务调度算法[J];南京邮电学院学报;2005年05期
8 王晓宇,熊方,凌波,周傲英;一种基于相似度分析的主题提取和发现算法[J];软件学报;2003年09期
9 山岚,徐耀;基于Agent的智能化专业信息采集系统[J];计算机工程与设计;2005年11期
中国硕士学位论文全文数据库 前3条
1 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
2 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
3 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【共引文献】
中国期刊全文数据库 前10条
1 黄梅荪,程慧霞,吴必文;基于UML统一软件开发过程的研究和实践[J];安徽大学学报(自然科学版);2003年03期
2 方涤非,魏臻;工程建设项目管理信息统一系统的构想与基础性建模分析[J];安徽建筑工业学院学报(自然科学版);2003年02期
3 汤亚玲;秦峰;;面向对象程序设计课程教学探究[J];安徽工业大学学报(社会科学版);2008年06期
4 韩亚洪,赵元庆;动态可伸缩向量图的设计与实现[J];安阳师范学院学报;2005年05期
5 张正,刘建华,吴洁明,袁山龙;利用UML活动图进行业务分析[J];北方工业大学学报;2003年03期
6 余坚;何广平;;基于Java的材料试验机测控软件的设计研究[J];北方工业大学学报;2010年03期
7 龚婕,职波;UML在分布处理参考模型中的应用[J];兵工自动化;2003年05期
8 汪浩,吴际,刘超,高仲仪;基于UML用例图与顺序图模型的操作剖面构造[J];北京航空航天大学学报;2003年02期
9 艾骏,陆民燕;UML在软件可靠性测试数据自动生成中的运用[J];北京航空航天大学学报;2003年05期
10 艾骏,陆民燕,刘斌;实时嵌入式软件测试输入的可视化建模[J];北京航空航天大学学报;2004年02期
中国重要会议论文全文数据库 前9条
1 孙香花;;基于SIP远程医疗系统TCS的设计与研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 董龙飞;唐文忠;;灵活查询技术研究和实现[A];2003中国控制与决策学术年会论文集[C];2003年
3 王晶;;炼钢生产管控系统应用及系统研究[A];中国计量协会冶金分会2011年会论文集[C];2011年
4 吴春胤;陈联诚;俞守华;;基于AgMES的搜索引擎的设计与实现[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
5 姜丽华;张宏斌;;基于Multi-Agent的个性化Web信息采集系统[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
6 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 樊勇;郑家恒;张虎;;网页去重系统的设计与实现[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 刘东琴;地理实体数据库构建研究[D];山东科技大学;2010年
2 陈晓江;分布式系统软件体系结构建模与开发方法研究[D];西北大学;2010年
3 张怀清;基于Internet的林业资源环境信息服务系统(FINFOSYS)的研究[D];中国林业科学研究院;2001年
4 柯文;CAPP领域构件复用技术研究[D];南京航空航天大学;2003年
5 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
6 李河;基于构件复用的测井解释系统及成像测井图像处理与自动识别技术研究[D];吉林大学;2005年
7 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
8 张弛;用于建立ICF实验控制系统的软件框架研究和开发[D];中国科学技术大学;2006年
9 贾东浇;制造企业运作过程的信息集成关键技术研究[D];浙江大学;2006年
10 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
2 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
3 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
4 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
5 姜雪飞;基于SNMP的网络安全态势可视化技术[D];哈尔滨工程大学;2010年
6 李萍;基于GeoTools的车辆监控系统的设计与实现[D];大连理工大学;2010年
7 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
8 高艳云;基于Web的职业院校教师考核系统的设计与实现[D];中国海洋大学;2010年
9 倪维志;基于轻量级构架技术的校友网设计与实现[D];华东师范大学;2010年
10 阳明亮;省烟草电子商务系统的设计与实现[D];华东师范大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 赵欢;朱红权;;基于双数组Trie树中文分词研究[J];湖南大学学报(自然科学版);2009年05期
3 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
4 李德启,王雄;一种新型快速的排序算法[J];计算机工程;2001年03期
5 陈清华,朱红,杨静宇;一种B-快速排序算法[J];计算机工程;2002年02期
6 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
7 马志柔;叶屹;;一种有效的多关键词词频统计方法[J];计算机工程;2006年10期
8 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
9 姚立红 ,訾小超 ,张绍莲 ,谢立;一种高效的多目标串匹配算法[J];计算机应用与软件;2004年01期
10 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
中国硕士学位论文全文数据库 前2条
1 谢骋超;基于语义的数据库全文检索系统[D];浙江大学;2006年
2 董超;基于主题信息服务的垂直搜索引擎的设计与实现[D];北京邮电大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱素媛,马溪俊,梁昌勇;人工智能技术在搜索引擎中的应用[J];合肥工业大学学报(自然科学版);2003年S1期
2 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
3 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
4 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
5 王军玲,赵沁平;AHS:一种基于类比的启发式搜索方法[J];计算机研究与发展;2000年12期
6 朱淼良,邱瑜;移动代理系统综述[J];计算机研究与发展;2001年01期
7 朱明,王俊普,蔡庆生;一种互联网信息智能搜索新方法[J];计算机研究与发展;2001年01期
8 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
9 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期
10 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
【相似文献】
中国期刊全文数据库 前10条
1 赵恒永;沈坚;山岚;;基于专业信息深度挖掘的搜索引擎Spider的设计与实现[J];计算机工程与科学;2009年06期
2 李国锋;李春伟;;网络搜索引擎技术探析[J];廊坊师范学院学报;2005年04期
3 云健;王春霞;;搜索引擎技术综述[J];河西学院学报;2008年02期
4 宋春阳;金可音;;Web搜索引擎技术综述[J];现代计算机(专业版);2008年05期
5 郑志材;张晶;;基于JAVA的网络蜘蛛的设计与实现[J];硅谷;2009年14期
6 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
7 雷丽秀;;互联网搜索引擎技术及展望[J];科技信息(学术研究);2008年20期
8 武晓娟;;基于网站的搜索引擎研究[J];大连海事大学学报;2008年S1期
9 郑泳;;基于广度优先搜索的网络蜘蛛设计[J];软件导刊;2010年07期
10 任严;刘丽;韩臻;;基于网络视频的搜索引擎的设计与实现[J];中国科技信息;2007年11期
中国重要会议论文全文数据库 前10条
1 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
2 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
8 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
9 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库 前10条
1 沈坚;一种专题式搜索引擎Spider的设计与实现[D];北京化工大学;2008年
2 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
3 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
4 任严;基于网络视频业务的搜索引擎的设计与实现[D];北京交通大学;2008年
5 胡晓翠;站点搜索引擎的研究与实现[D];武汉科技大学;2009年
6 张维维;搜索引擎的研究与实现[D];长春理工大学;2008年
7 叶昭晖;网络信息雷达系统的研究与设计[D];国防科学技术大学;2005年
8 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
9 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
10 郭谢;基于Web Community识别的专业搜索引擎研究[D];浙江大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026