收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于可扩展分布式架构的高校搜索引擎研究与实现

张佶  
【摘要】: 近年来,高校信息系统的信息量随着互联网技术的迅速发展,呈爆炸趋势增长,它的资源日趋丰富,应用范围也在不断扩大。经爬虫检测,从东华大学网站首页进入可到达的Web网页即超过10万篇,而广大师生对信息的需求还不仅如此,校外的精品课程信息、入学招生信息都可以纳入师生的需求范围。这就增强了高校师生对搜索技术的依赖性,搜索引擎成为了师生获取知识信息的工具,也成为高校网站中使用率最高的工具之一。 本文结合东华大学对于信息检索的需求,并考虑到今后快速不断增加的信息量与访问量,研究了搜索引擎基本原理与分布式系统基本原理,并基于Linux系统,结合开源软件提出了一个分布式架构,这个架构具有很好的可扩展性,可随着用户数量和网页数量的不断增加而轻易的扩展其系统性能,无需中断服务。作为一个理论与实践相结合的研究课题,本文的主要工作和研究成果包括: 1.搜索引擎基本理论和算法的研究,包括爬虫的算法和架构、中文分词算法、倒排索引的结构和建立方法、搜索结果排序算法等。 2.分布式系统理论研究,包括负载平衡算法、分布式缓存、MapReduCe计算模型等。 3.提出具有爬虫子系统、预处理子系统、查询子系统的东华大学搜索引擎架构的设计方案,其中使用Lucene作为倒排索引的建立和检索框架,使用中科院ICTLAS组件作为中文分词工具。着重解决了爬虫子系统中URL解析和扩展队列问题、Lucene中文分词扩展问题和搜索结果的排序评分算法。 4.提出分布式架构的设计,包括使用LVS构建负载均衡集群、使用Memcache构建分布式缓存系统以及使用Map/Reduce分布式计算模型将Lucene改造为分布式索引存储。整个分布式架构具有很好的可扩展性,可随着系统的内容和用户数量的增加,扩展其计算能力而不必中断服务。 5.按照上述架构设计开发实现东华大学搜索引擎,并对分布式搜索的性能和准确度进行实验评价。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 金强;;浅析分布式硬件架构的播出视频服务器及北京电视台新台播出服务器系统方案设计[J];现代电视技术;2010年03期
2 刘同,宋涛,杨杨;Wonderware IAS在黄河下游引黄涵闸远程监控系统中的应用[J];测控技术;2005年10期
3 许江;;企业应用集成的开发与实现[J];重庆工商大学学报(自然科学版);2006年01期
4 钱旭;顾巍;陈凌晖;丁晓峰;;网络蠕虫检测系统的设计和实现[J];现代图书情报技术;2007年01期
5 孙旭;杨雪飞;;基于摘要策略的分布式网络视频监控系统[J];微计算机信息;2007年36期
6 余小高;许传华;;基于Web服务和Agent的P2P金融风险预警系统技术架构研究[J];科技创业月刊;2010年04期
7 杨豪杰;李云;张玉忠;;号码百事通电子商务数据中心研究及实施[J];电信科学;2011年06期
8 蔡畅;胡政;宋立军;;柴油机状态监测与故障诊断系统[J];兵工自动化;2006年02期
9 代田田;陈洪亮;张峰;;跨平台分布式WEB服务的自动路由[J];实验室研究与探索;2007年07期
10 张帆;;基于分布式架构的网络流量分析与监控[J];中国科技信息;2008年01期
11 杨大全;熊璐;;数字化网络视频监控系统的设计与实现[J];计算机安全;2008年02期
12 杨大全;熊璐;;数字化网络视频监控系统的设计与实现[J];安防科技;2008年03期
13 庄纪林;;数字图书馆网络服务的监测[J];大学图书馆学报;2008年03期
14 陈寅寅;柴颖;叶德建;;TCP传输模式下高并发无线流媒体的控制与播放服务器的研究[J];通信学报;2008年06期
15 刘冰;曹型兵;林磊;;WSN入侵检测系统ARMA预测模型分析研究[J];广东通信技术;2008年11期
16 丁勇;;分层架构体系研究[J];办公自动化;2010年12期
17 许博;陈鸣;胡超;孙瑞锦;;基于NetFlow的P2P流分析系统[J];北京邮电大学学报;2010年02期
18 张嗣锋;曹平;张可立;宋克柱;;基于分布式架构的高精度海上工程地震勘探数据获取系统设计与实现[J];中国科学技术大学学报;2011年01期
19 汤泳;李长连;吕英杰;;云计算在业务支撑系统中的应用初探[J];邮电设计技术;2011年10期
20 徐燕鸣;苏喜友;;基于J2EE的森林资源信息管理系统研建[J];农业网络信息;2007年04期
中国重要会议论文全文数据库 前2条
1 金强;;分布式硬件架构的播出视频服务器及北京电视台新台播出服务器系统方案设计[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(下篇)[C];2009年
2 阎姗;王文力;苏毅;邓峰;郭云峰;唐星;;分布式架构在企业级IPTV管理系统中的应用[A];2008通信理论与技术新发展——第十三届全国青年通信学术会议论文集(下)[C];2008年
中国博士学位论文全文数据库 前1条
1 陈伟;制造企业分布式远程服务系统及其关键技术的研究[D];同济大学;2007年
中国硕士学位论文全文数据库 前10条
1 梁国强;移动Agent技术在GPS/GIS监控系统中的应用[D];大连海事大学;2009年
2 徐平;基于GIS的中国极地考察信息管理系统关键技术研究[D];武汉大学;2005年
3 洪燕冰;分布式Java企业信息架构分析与设计[D];厦门大学;2008年
4 周达文;基于SIP的分布式VoIP防火墙/NAT穿越架构[D];华中科技大学;2006年
5 尹巍;基于JBI规范的分布式ESB中间件的设计与实现[D];浙江大学;2008年
6 谢兵;土豆网视频搜索引擎系统的设计与实现[D];上海交通大学;2010年
7 李果;面向大数据量的Web服务传输方案研究[D];湖南大学;2010年
8 韦达;基于异常挖掘的网络入侵检测[D];北京化工大学;2011年
9 孙向伟;分布式RFID复合事件检测算法及其系统实现[D];大连海事大学;2010年
10 崔杰;基于协议网关的企业级分布式即时通信系统的研究与实现[D];华南理工大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978