收藏本站
《解放军信息工程大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

分布式网络搜索引擎的研究与实现

张婷  
【摘要】:由于搜索引擎经济的兴起带动了整个互联网经济的复苏,搜索引擎经济也从另一方面向世人展示了互联网仍潜藏着为人所不知的惊天商机,业界开始将更多的目光放在各搜索引擎的性能和流量等方面的关注上。伴随着信息时代而来的信息爆炸,互联网上的信息每天以指数级的速度增长,各行业以及互联网个人用户纷纷借助于搜索引擎技术来处理数据,小到本地文件的搜寻,大至互联网数据的检索。本文针对不同搜索方案的需求,提出了一种易扩展的分布式搜索引擎的构架,并重点对其进行了设计和实现。 论文在详细阐述网络搜索引擎的相关理论和技术的基础上,有针对性地对关键技术进行分析讨论,以实现一个可分布式采集和查询,可以为某一行业以及相关软件系统提供网络数据索引和检索的功能系统为目的。 论文主要工作如下:介绍了目前搜索引擎的研究现状、存在的问题以及发展趋势;阐述了搜索引擎的工作原理以及各部分的主要功能;系统介绍了搜索引擎内核实现的原理和相关实现方法。 为了能高效、便捷地满足用户的信息需求,弥补传统个性化技术的不足,提出基于语义的自适应网页推荐模式,采用语义本体和用户查询倾向机制构建自适应的语义用户模型,并采用语义质心聚类技术来提高推荐的准确率。实验结果表明,与其它推荐方法相比该算法具有更高的推荐准确率和召回率。 在插件机制的基础上,设计实现了一个可扩展,并且可以进行分布式查询的搜索引擎体系结构。每一台索引机器负责特定域名信息的采集和索引,对于存储在不同机器上的网页数据可以进行并行检索。重点阐述了搜索系统框架的实现,在分析系统各模块之间关系的基础上,介绍了各模块的实现原理。 总体上,本文论述了基于插件机制的可分布式查询和采集的完整的搜索引擎的设计方法,并且改进了语义网页推荐模式。经验证,所实现的搜索引擎的架构体系具有良好的实用性。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
2 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
3 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
4 汪涛;;论基于Java的全文检索实现和索引性能提高[J];湖北民族学院学报(自然科学版);2009年01期
5 王江涤;多搜索引擎的设计与实现[J];哈尔滨理工大学学报;2004年03期
6 赵峰;;基于Lucene的全文检索系统初探[J];黑龙江科技信息;2007年12期
7 吴泽彬;魏洁;李蔚清;吴慧中;;面向服务架构的全文检索研究[J];华中科技大学学报(自然科学版);2007年S1期
8 张立彬;吴海洪;陈教料;;基于Lucene的企业知识共享系统的实现[J];机电工程;2007年08期
9 张卫丰,徐宝文;Web搜索引擎框架研究[J];计算机研究与发展;2000年03期
10 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
中国重要会议论文全文数据库 前2条
1 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前1条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前4条
1 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
2 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
3 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
4 徐芳;利用概念检索实现专业搜索引擎的智能化[D];北京化工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 陈蓉芳;郑晓波;王占朝;王海滨;董秀成;;基于“会诊式”推理控制策略的智能型搜索引擎的研究[J];安装;2007年01期
2 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
3 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
4 赵明臻;网络信息检索障碍及排除策略探论[J];图书与情报;2005年01期
5 张帆;林建;;智能搜索引擎信息过滤机制研究[J];图书与情报;2007年04期
6 陈治昂;张毅;李大学;;基于Web智能的网络广告监测器研究与设计[J];重庆邮电大学学报(自然科学版);2009年01期
7 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
8 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
9 杜友福;程彩凤;赵鸣;;搜索引擎中智能代理技术及启发式搜索策略研究[J];长江大学学报(自然科学版)理工卷;2009年02期
10 时贵英;吕洪涛;;可扩展数据库搜索引擎的研究和实现[J];长江大学学报(自然科学版)理工卷;2010年01期
中国重要会议论文全文数据库 前10条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
4 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
6 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
7 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
8 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
9 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
10 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
4 朱卫东;面向互联网基于证据理论的智能决策支持系统研究[D];合肥工业大学;2003年
5 李洪宁;万维网地理信息系统分布式理论体系研究与实现[D];中国地质大学(北京);2003年
6 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
7 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 张宏斌;信息获取中的两类不确定问题研究[D];华中科技大学;2004年
10 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
5 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
6 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
7 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
8 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
9 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
10 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 别祖杰;;网上导航的指南针——介绍几个著名的搜索引擎[J];重庆石油高等专科学校学报;1999年01期
3 于凤;机器学习方法及其技术应用[J];电脑学习;2003年01期
4 陆云;;对基于Java的全文检索工具包lucene的索引研究[J];电脑学习;2007年02期
5 刘智浓;张永利;;搜索引擎技术简析[J];电脑知识与技术;2006年02期
6 彭建荣;罗永会;;搜索引擎的基本原理及发展趋势[J];电脑知识与技术;2006年02期
7 雷葆华,杨明川;P2P技术的组网模式与业务模式探讨[J];电信技术;2004年11期
8 金更达;网络资源界面整合和Agent界面实现探讨[J];大学图书馆学报;2002年01期
9 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
10 潘以锋;;基于Lucene的网站全文检索系统的开发[J];广西教育学院学报;2006年05期
中国博士学位论文全文数据库 前1条
1 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前6条
1 高清霞;中文智能搜索引擎的设计与实现[D];北京工业大学;2000年
2 朱毅华;智能搜索引擎中的同义词识别算法研究[D];南京农业大学;2001年
3 李欣;基于概念检索的智能信息检索技术研究[D];华中师范大学;2004年
4 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
5 封硕;基于语义网的博客搜索引擎的研究[D];西安电子科技大学;2007年
6 邹芳红;基于WEB的智能搜索引擎的研究与设计[D];南昌大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
2 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
3 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
9 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
10 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 路人甲;请个专家来贴图[N];电脑报;2005年
5 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
6 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 湖北 文武;详解缓存[N];中国电脑教育报;2001年
9 彭涛;建立企业内部信任体系[N];计算机世界;2000年
10 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
6 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
7 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
8 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
9 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
10 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026