收藏本站
《山东大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

校园网搜索引擎系统的设计与实现

刘琳  
【摘要】: 随着校园网建设的迅速发展,校园网内的信息内容正在以惊人的速度增加着。如何更全面、更准确地获取最新、最有效的信息已经成为我们把握机遇、迎接挑战和获取成功的重要条件。目前虽然已经有了像Google、百度这样优秀的通用搜索引擎,但是它们并不能适用于所有的情况和需要。对学术搜索、政府类站点、校园网的搜索来说,一个公平的排序结果是非常重要的。另外,由于互联网上信息量之巨,远远超出哪怕是最大的一个搜索引擎可以完全收集的能力范围。而且原有的校园网搜索引擎存在查准率、查全率不高,升级维护困难等局限性。因此,本着整合校园网资源的目的,为方便广大师生对校园网信息的获取和使用以及其他人对山东大学的了解,本文设计并实现了一个灵活、可配置、具有良好可扩展性且效率较高的校园网搜索引擎系统。 本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合校园网搜索引擎的个性化需求,搭建了山东大学校园网搜索引擎系统。不仅完成了整个搜索引擎框架的设计,而且基本上完成了所有的开发工作。 本文论述了系统开发的背景和国内外搜索引擎技术发展现状,并详细说明了该搜索引擎系统的开发过程和方法。首先从功能需求和非功能需求两个方面对校园网搜索引擎的个性化需求进行分析。然后根据需求分析提出了实现目标和原则,从系统的功能架构和技术架构两个方面描述了系统的整体功能和总体流程。在技术架构设计中,自行设计了插件机制,用于提高系统的可扩展性、灵活性、可维护性,并降低了设计和开发的复杂性。另外,采用Map/Reduce分布式处理模型作为存储和处理的基础,提高系统的并发处理能力,降低系统对硬件配置的要求。在详细设计阶段,具体描述了各个功能模块和插件机制的设计。其中,信息爬取模块采用了广度优先的爬取方式,索引和检索模块都是基于Lucene软件包实现的,所以还介绍了Lucene的相关内容。最后对实现过程中遇到的重要问题提出了详细的解决方案。系统实现部分描述了系统的运行环境和实现界面,并重点叙述了实现过程中的几个关键问题,如分词算法的实现以及链接分析算法的实现等。最后对系统进行测试,并根据测试结果进行了性能分析。实验证明,与原有搜索引擎相比,新的搜索引擎系统在检索效率和查准率等方面都有了质的提高。
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

【引证文献】
中国硕士学位论文全文数据库 前3条
1 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
2 李健;搜索引擎排序算法研究[D];长春理工大学;2010年
3 陈艳斐;基于用户兴趣模型的校园网搜索引擎设计与应用[D];云南大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
2 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
3 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
4 陈康,许婷,戴文俊,武港山;基于Web的全文搜索引擎的设计与实现[J];计算机工程;2005年20期
5 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
6 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
7 陈振宇,赵继海;搜索引擎的工作机制与Web信息检索技术[J];情报杂志;2001年11期
8 王晓宇,周傲英;万维网的链接结构分析及其应用综述[J];软件学报;2003年10期
9 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
10 胡骏;李星;;校园网信息资源搜索引擎的研究与实现[J];计算机工程与设计;2006年24期
【共引文献】
中国期刊全文数据库 前10条
1 王锡钢,刘振文;搜索引擎技术的分析与研究[J];鞍山钢铁学院学报;2002年06期
2 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
3 周燕;网络信息资源组织研究[J];图书与情报;2003年01期
4 潘大胜;;面向校园网搜索引擎的PageRank改进算法[J];湖南文理学院学报(自然科学版);2009年01期
5 陶镇威;周雨程;;基于Compass框架的高级搜索系统的设计与实现[J];重庆理工大学学报(自然科学);2011年08期
6 肖红;刘淑华;;一种文本多级分类方法研究[J];长江大学学报(自然科学版)理工卷;2008年02期
7 蔡兵;胡敏;;基于Lucene2.0的书目搜索引擎设计[J];重庆图情研究;2009年01期
8 张淑华;;图书馆参考咨询系统新技术探析[J];黑龙江档案;2011年05期
9 李欣;;开放式空间数据挖掘集成系统的设计与实现[J];测绘与空间地理信息;2008年04期
10 周杨;;基于Lucene的小型搜索引擎系统的架构与实现[J];电脑编程技巧与维护;2010年11期
中国重要会议论文全文数据库 前10条
1 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
4 张冉;卡米力毛依丁;;基于论文参考文献引用分析的专业文献查询库[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
5 朴星海;赵铁军;郑德权;张迪;;面向Blog的网络爬行器设计与实现[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 杨宇航;赵铁军;郑德权;于浩;;基于链接分析的重要Blog信息源发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 杜言琦;马军;;基于版块的论坛增量搜集策略[A];第五届全国信息检索学术会议论文集[C];2009年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 邓小龙;基于复杂网络分析的新一代电信CRM关键技术研究[D];北京邮电大学;2011年
4 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 朱卫东;面向互联网基于证据理论的智能决策支持系统研究[D];合肥工业大学;2003年
8 李洪宁;万维网地理信息系统分布式理论体系研究与实现[D];中国地质大学(北京);2003年
9 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
10 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
中国硕士学位论文全文数据库 前10条
1 王芳;基于EVS相似度的邮件社区划分方法研究[D];郑州大学;2010年
2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
3 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
4 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
5 张士军;基于随机游走的网页协同排序算法研究[D];大连理工大学;2010年
6 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
7 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
8 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
9 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
10 林渌;基于新闻主题模型的热点工作挖掘系统[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 刘刚;于力超;;搜索引擎中网络蜘蛛的设计与实现[J];电脑与信息技术;2007年04期
2 彭曙蓉,章兢,杨文忠;MD5算法在消除重复网页算法中的应用[J];电脑知识与技术;2005年29期
3 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
4 周斌,吴泉源,高洪奎;用户访问模式数据挖掘的模型与算法研究[J];计算机研究与发展;1999年07期
5 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
6 赵银春,付关友,朱征宇;基于Web浏览内容和行为相结合的用户兴趣挖掘[J];计算机工程;2005年12期
7 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期
8 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
9 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
10 张晓卫;朱巧明;;一种基于Lucene的Web全文信息检索系统的设计与实现[J];计算机与现代化;2006年12期
中国硕士学位论文全文数据库 前8条
1 陈伟雄;基于元搜索的中文搜索引擎研究与实现[D];清华大学;2004年
2 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
3 蒋萍;基于用户兴趣挖掘的个性化模型研究与设计[D];苏州大学;2005年
4 邱正国;主题蜘蛛的研究及实现[D];南京师范大学;2007年
5 刘洁;基于用户兴趣模型的服务发现方法研究[D];湖南科技大学;2008年
6 王颖;中文局域网搜索引擎设计与实现[D];电子科技大学;2009年
7 焦小明;面向校园的垂直搜索引擎的设计与实现[D];复旦大学;2009年
8 顾雅枫;基于用户兴趣模型的信息检索研究[D];兰州大学;2009年
【二级引证文献】
中国期刊全文数据库 前5条
1 吴建;;基于Lucene的校园网搜索引擎的设计与实现[J];湖南工程学院学报(自然科学版);2012年02期
2 邹燕飞;于成尊;赵亮;;基于Lucene的文本搜索引擎的设计和实现[J];计算机与现代化;2011年09期
3 张娟;马力;梁俊杰;;基于lucene的校园网搜索引擎[J];合作经济与科技;2012年16期
4 张蕾;;基于Lucene的站内电子档案检索系统设计与实现[J];软件导刊;2012年04期
5 夏敏捷;徐飞;夏冰;;校园网Web搜索引擎的设计与实现[J];中原工学院学报;2011年05期
中国硕士学位论文全文数据库 前10条
1 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
2 宋兴华;基于用户模型的中文个性化检索系统研究[D];吉林大学;2011年
3 马丽;融入语义相似度的HITS算法研究及实现[D];南京理工大学;2011年
4 闫毛毛;基于Lucene教学资源搜索引擎的设计与实现[D];西南交通大学;2011年
5 于雪丽;LUCENE中文分词在科研文档全文检索系统的应用研究[D];青岛大学;2011年
6 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
7 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年
8 陈建锋;教学资源搜索平台——SiseNutch[D];华南理工大学;2009年
9 张蕾;基于Lucene的电子档案检索系统的设计与实现[D];西安电子科技大学;2010年
10 郭亨亨;海量RDF数据的分布式存储研究[D];西安建筑科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 闫宏飞,李晓明;关于中国Web的大小、形状和结构[J];计算机研究与发展;2002年08期
3 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
4 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
5 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 严威,赵政;开发中文搜索引擎汉语处理的关键技术[J];计算机工程;1999年06期
8 邓伟,张志伟,谭庆平,宁洪;一种新型的智能搜索引擎[J];计算机工程;2000年03期
9 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
10 姚天顺,张桂平,吴映明;基于规则的汉语自动分词系统[J];中文信息学报;1990年01期
【相似文献】
中国期刊全文数据库 前10条
1 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
2 刘洁清;吴京慧;;面向主题的个人实时搜索引擎的设计与实现[J];现代图书情报技术;2006年05期
3 王军;彭建;;网络爬虫的结构设计研究[J];科技信息(学术研究);2007年27期
4 邹海亮;孙莉;;可定制的聚焦网络爬虫[J];电子科技;2009年01期
5 何志文;郭利刚;;搜索引擎技术在互联网音视频节目监测系统中的应用[J];广播与电视技术;2009年03期
6 陶荣;陈燕;;基于Lucene小型搜索引擎的研究与实现[J];大众科技;2010年02期
7 石柯;周利兵;陶文兵;;基于移动代理的MAISE爬虫的设计与实现[J];华中科技大学学报(自然科学版);2005年S1期
8 陈艳春;李双平;;基于Lucene的企业级搜索引擎的设计与实现[J];现代图书情报技术;2007年08期
9 曹忠;赵文静;;一种优化的网络爬虫的设计与实现[J];电脑知识与技术;2008年35期
10 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
中国重要会议论文全文数据库 前10条
1 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
2 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 王凯;刘代志;李东旭;齐玮;;地球物理环境情报搜集系统研究[A];国家安全地球物理丛书(四)——地球物理环境探测和目标信息获取与处理[C];2008年
9 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
10 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 晓燕;此百狗非彼百狗baigle为己正名[N];国际商报;2006年
2 ;“流氓插件”插伤搜索市场[N];民营经济报;2006年
3 李一鑫;搜索排名的红与黑[N];财经时报;2007年
4 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
5 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
6 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
7 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘琳;校园网搜索引擎系统的设计与实现[D];山东大学;2007年
2 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
3 龚勇;搜索引擎中网络爬虫的研究[D];武汉理工大学;2010年
4 夏亮;主题搜索引擎网络爬虫搜索策略的研究与实现[D];北京化工大学;2010年
5 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
6 李春生;基于WEB信息采集的分布式网络爬虫搜索引擎的研究[D];吉林大学;2009年
7 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
8 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
9 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
10 刘青伟;搜索引擎中的Pagerank排序算法研究分析[D];电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026