收藏本站
《暨南大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的搜索引擎技术的研究与改进

吴海明  
【摘要】:搜索引擎已经成为人们获取网络信息的主要工具,全文检索技术是学者研究的热点。Lucene是一个用Java写的全文索引/检索工具包,它可以方便地嵌入到各种应用中,实现针对具体应用的全文搜索引擎功能,近年在世界各地被广泛使用。 Robot是web搜索引擎的数据来源,它的性能直接影响了资源采集的数量与质量,因此Robot是搜索引擎的一个很重要的部分。Lucene本身没有提供Robot,本论文在介绍搜索引擎有关技术和Lucene工具包的基础上,研究和实现了一个可由用户设定线程数目的多线程的Robot。该Robot可以作为Lucene的扩展。 本论文还针对Lucene在检索结果排序算法方面的不足进行了改进。由于检索结果的排序对搜索引擎来说也十分重要,用户往往只对最前面的几条结果感兴趣,如何在众多的结果中将重要的结果排在前面,是搜索引擎研究的重点之一。改进后的排序方案除了原Lucene考虑到的词频因素还考虑了:网页文档的链接情况、网页的响应时间、正文大小以及用户查询关键词在文档特殊位置的情况等。试验表明改进后的排序算法较原排序算法有较明显的改善。 在上述工作的基础上,论文最后实现了一个完整的搜索引擎,并对Robot的性能和对Lutene改进后的检索结果排序算法进行了测试和评价。
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前10条
1 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年
2 王晶;基于垂直搜索技术的竞争情报采集系统的设计与实现[D];上海交通大学;2011年
3 温丽明;基于P2P的校园网搜索引擎的设计与实现[D];北京化工大学;2008年
4 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
5 赵旭;搜索引擎关键技术研究及性能优化[D];江南大学;2008年
6 黄冬;Nutch在网络学习资源搜索中的应用探究[D];华东师范大学;2009年
7 张琳;基于Lucene的电子公文检索系统的研究与实现[D];沈阳理工大学;2009年
8 吕霞;搜索引擎去重算法的研究与实现[D];江苏大学;2009年
9 邱尚明;面向专利的主题搜索引擎技术研究与实现[D];华南理工大学;2009年
10 张蕾;基于Lucene的电子档案检索系统的设计与实现[D];西安电子科技大学;2010年
【参考文献】
中国期刊全文数据库 前10条
1 李粤;安捷;李星;;排序融合算法在校园网搜索引擎中的应用[J];大连理工大学学报;2005年S1期
2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
3 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期
4 李岩,陈新中,杨炳儒;基于Web挖掘的智能门户搜索引擎的研究[J];计算机工程与应用;2002年04期
5 陈新明,钟涛,万钧,吴杰,张世永;WWW搜索引擎的数据采集技术[J];计算机工程与应用;2002年07期
6 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
7 张卫丰;徐宝文;周晓宇;许蕾;李东;;Web搜索引擎综述[J];计算机科学;2001年09期
8 张俊伟,张岭,马范援;提供个性化服务的搜索引擎页面排序算法[J];计算机工程;2003年19期
9 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
10 董瑞洪,张秋余,唐静兵,张涛;抢先式多线程Spider在智能搜索引擎中的实现[J];计算机工程;2005年18期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
3 陈蓉芳;郑晓波;王占朝;王海滨;董秀成;;基于“会诊式”推理控制策略的智能型搜索引擎的研究[J];安装;2007年01期
4 朱力平,丰国炳;用基于内容的Web图像搜索引擎设计消防电子化道路水源手册[J];安全与环境学报;2004年03期
5 王锡钢,刘振文;搜索引擎技术的分析与研究[J];鞍山钢铁学院学报;2002年06期
6 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
7 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
8 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
9 师小庆;袁志;王学成;;基于Web的学生信息检索系统设计[J];才智;2011年34期
10 尚冬娟;张敏;;信息过滤系统中的混合式过滤算法[J];重庆工学院学报(自然科学版);2008年01期
中国重要会议论文全文数据库 前10条
1 杨卫明;;独立式搜索引擎原理及存在问题分析[A];2008年计算机应用技术交流会论文集[C];2008年
2 李慧敏;邬群勇;王钦敏;;Robot技术在空间信息服务搜索中的应用研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
3 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
4 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
6 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
8 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
9 邹永斌;陈兴蜀;王文贤;;一个高性能Web资源收集系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前10条
1 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
5 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
6 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
9 温浩宇;制造网格若干关键技术研究[D];西安电子科技大学;2005年
10 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 刘文辉;基于链接结构的网页排序算法研究[D];哈尔滨工程大学;2010年
3 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
4 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
5 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
6 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年
7 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
8 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
9 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
10 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 陈利明;邵芳;;浅析网络信息安全的综合保护[J];兵工自动化;2008年08期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 朱慧;;新一代中文Google典型搜索技术及其发展趋势[J];图书与情报;2008年06期
4 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
5 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
6 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
7 张银;;答疑系统学习机制的分析与思考[J];中国远程教育;2006年02期
8 陆云;;对基于Java的全文检索工具包lucene的索引研究[J];电脑学习;2007年02期
9 刘亚军,徐易,高莉莎;智能答疑系统中快速定位算法的研究与实现[J];东南大学学报(自然科学版);2003年04期
10 谢艳春;;基于JXTA的P2P服务的研究[J];电脑开发与应用;2006年05期
中国博士学位论文全文数据库 前6条
1 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
3 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
4 许洪波;大规模信息过滤技术研究及其在Web问答系统中的应用[D];中国科学院研究生院(计算技术研究所);2003年
5 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
6 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
2 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
3 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
4 史鹏辉;专业服务网站搜索引擎的设计与实现[D];大连理工大学;2004年
5 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
6 王亮;搜索引擎及其相关性排序研究[D];武汉大学;2004年
7 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
8 吴名宇;基于信任模型的资源共享技术的研究与实现[D];东南大学;2004年
9 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
10 刘妮娜;Web数据挖掘和个性化搜索引擎研究[D];浙江大学;2005年
【二级引证文献】
中国期刊全文数据库 前5条
1 程芃森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
2 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期
3 付强;;基于Lucene的高校图书垂直搜索引擎的研究与实现[J];太原师范学院学报(自然科学版);2011年04期
4 张红斌;曹义亲;;混合多层分类和朴素贝叶斯模型的垂直搜索引擎分类器设计[J];现代图书情报技术;2011年03期
5 芮文艳;;基于Lucene的web搜索引擎研究[J];信息与电脑(理论版);2012年10期
中国硕士学位论文全文数据库 前10条
1 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
2 季美丽;基于P2P的校园网资源共享关键技术的研究[D];山东师范大学;2011年
3 牛娟娟;搜索引擎系统中网页消重的研究与实现[D];河南大学;2011年
4 刘亚东;分布式医学搜索引擎的研究与实现[D];北京邮电大学;2011年
5 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
6 刘凤灵;基于Nutch的漏洞垂直搜索引擎[D];北京邮电大学;2011年
7 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
8 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
9 文军舰;基于Nutch的Web结构挖掘算法研究[D];天津财经大学;2011年
10 陈车前;基于Nutch的并行搜索系统的优化设计[D];华南理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 李育嫦;搜索引擎中完善关键词检索功能的探索[J];图书与情报;2003年05期
3 王桂云;基于Robot搜索引擎的信息检索技术[J];甘肃科技;2002年11期
4 武助宇,刘文青;中文搜索引擎发展趋势[J];高校图书馆工作;2003年02期
5 陶跃华;环保投资是区域可持续发展的关键[J];环境保护;1998年01期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
8 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
9 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
10 黄于蓝,王洪,徐端颐,贾惠波;多元搜索引擎系统的设计与实现[J];计算机工程与应用;2001年23期
中国硕士学位论文全文数据库 前1条
1 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
2 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
3 刘静;;浅析全文检索技术及其发展[J];中国西部科技;2010年08期
4 吴敏琦;丁岳伟;;应用IP影响因子实现Intranet搜索个性化[J];计算机应用;2008年03期
5 翟晓玲;潘伟;王波;;基于Lucene的web站内搜索引擎的研究与实现[J];硅谷;2009年12期
6 周登朋;谢康林;;Lucene搜索引擎[J];计算机工程;2007年18期
7 朱海丰;秦杰;;基于Lucene与JSF的搜索引擎[J];福建电脑;2008年10期
8 刘敏娜;葛萌;陈娟;;基于Lucene的全文搜索引擎设计与实现[J];福建电脑;2009年05期
9 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期
10 侯云;;构建基于Lucene的网站站内搜索[J];信息与电脑(理论版);2010年02期
中国重要会议论文全文数据库 前10条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
5 梁婷婷;张志强;谢晓芹;;搜索引擎评估算法综述[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
7 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 杨磊;束罡;牛振东;;基于引力模型的链接分析(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 王立群;搜索新生代[N];中国计算机报;2005年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
中国博士学位论文全文数据库 前10条
1 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
2 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
3 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
4 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
5 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
6 刘敏娜;基于Lucene的全文搜索系统的研究与实现[D];华东师范大学;2008年
7 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 刘加发;EBM网络搜索引擎的研究与实现[D];大连海事大学;2008年
10 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026