收藏本站
《华东理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的站内搜索引擎的设计与开发

周月红  
【摘要】:本文在了解搜索引擎历史及分类、研究搜索引擎原理的基础上,对搜索引擎的工作流程和组成部件做了详细解剖。在此基础上,通过对通用搜索引擎与站内搜索引擎从特点及实现原理上深入的比较,突显了站内搜索引擎的优势。本文也比较了站内全文搜索与关系数据库搜索的优缺点,总结出利用全文检索引擎是实现站内全文搜索是最佳选择。Lucene是一款架构优良便于二次开发的全文搜索软件包,本文对其进行了详细介绍包括数据结构、核心技术及二次开发实现方法等。本文详细描述了上海能源化工技术转移平台站内搜索引擎的设计过程,从开发流程到具体的关键问题:格式预处理、数据库全文索引建立、中文分词、指定域检索、按特定域进行结果排序等均有详细描述。最后展望了站内搜索引擎的进一步功能提升的发展方向:分词词典定制化、查询方式多样化、智能化。
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
2 张晓刚,李明树;智能搜索引擎技术的研究与发展[J];计算机工程与应用;2001年24期
3 李晓东,陈忱;基于多维链表的数据库索引技术研究与实现[J];计算机工程与应用;2004年22期
4 李嘉佑;贾自艳;何清;史忠植;;基于Web挖掘的网页清洗技术[J];计算机工程与应用;2006年25期
5 余斯恒,郑扣根,陈丹;一种面向商业领域的搜索引擎索引结构设计及实现[J];计算机工程与科学;2005年12期
6 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
7 付国瑜;黄贤英;;基于Web页面平均质量的Web搜索模型和优化算法[J];计算机应用;2009年04期
8 杨骏;李永树;蔡国林;;基于对象—关系—属性数据模型的空间半结构化数据存储管理研究[J];计算机应用研究;2007年06期
9 陈红涛;杨放春;陈磊;;基于大规模中文搜索引擎的搜索日志挖掘[J];计算机应用研究;2008年06期
10 李久仲;石硕;沈轶;;半结构化数据的最小化模式发现[J];计算机应用与软件;2009年04期
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
3 苑雪;;网络中的安全隐患及对策[J];产业与科技论坛;2009年05期
4 李斌;宋小华;;本体的中文语义网查询优化[J];电脑编程技巧与维护;2009年S1期
5 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
6 周珍娟;张字平;陆玲;;基于Lucene2.0的电子文献全文检索系统[J];电脑知识与技术(学术交流);2007年23期
7 刘成亮;韩海伟;;知识库系统的原理及其在智能搜索引擎中的应用[J];电脑知识与技术;2008年08期
8 王晶;陈卫卫;;AJAX搜索引擎研究[J];电脑知识与技术;2009年19期
9 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
10 王挺;;智能搜索引擎在企业人力资源管理决策支持系统中的应用[J];电脑知识与技术;2010年24期
中国重要会议论文全文数据库 前6条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
3 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
4 陈旭;黄泽谦;彭煜玮;曾承;彭智勇;;网上专利个性化管理与服务系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 杨妍妍;魏振钢;王小华;;基于多核技术的多维海洋数据存储与查询优化[A];2011国际信息技术与应用论坛论文集(《计算机科学》2011.7)[C];2011年
6 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
2 王庆;XML约束在XML数据存储、发布和转换中的应用[D];复旦大学;2004年
3 刘丽兰;制造网格及其基于QoS的资源管理系统研究[D];上海大学;2004年
4 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
5 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
8 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
9 谢刚;基于变精度粗集的软件项目投标风险挖掘与规避研究[D];华中科技大学;2006年
10 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
3 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
4 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
5 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
6 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
7 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
9 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
10 邓磊;一个基于向量空间模型的个性化推荐系统[D];华东交通大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 焦李成,杜海峰;人工免疫系统进展与展望[J];电子学报;2003年10期
2 刘芳,杨海潮;一种基于克隆策略的多播路由算法[J];电子与信息学报;2004年11期
3 李晓东;二维及多维链表及其算法实现[J];佛山科学技术学院学报(自然科学版);2003年03期
4 胡江强;郭晨;李铁山;;启发式自适应免疫克隆算法[J];哈尔滨工程大学学报;2007年01期
5 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
6 刘小虎,李生,赵铁军;词典的模糊查询和单词的快速录入[J];哈尔滨工业大学学报;1997年05期
7 王继民,陈翀,彭波;大规模中文搜索引擎的用户日志分析[J];华南理工大学学报(自然科学版);2004年S1期
8 沈艳军,汪秉文;基于实数编码的克隆选择算法及其应用[J];华中科技大学学报(自然科学版);2004年02期
9 王蒙智,刘宏亮,施伯乐;半结构化数据视图的增量维护[J];计算机研究与发展;2001年02期
10 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
中国博士学位论文全文数据库 前1条
1 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
2 刘敏娜;葛萌;陈娟;;基于Lucene的全文搜索引擎设计与实现[J];福建电脑;2009年05期
3 曹强;;基于Lucene的Web站点站内全文检索系统的设计与实现[J];图书情报工作;2007年09期
4 朱海丰;秦杰;;基于Lucene与JSF的搜索引擎[J];福建电脑;2008年10期
5 侯云;;构建基于Lucene的网站站内搜索[J];信息与电脑(理论版);2010年02期
6 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
7 陈沧;沈洁;高莺;;基于Lucene的校园网Web搜索服务研究与实现[J];中国教育信息化;2008年15期
8 张春燕;刘发升;;关于Lucene索引工具的性能优化研究[J];计算机技术与发展;2011年05期
9 刘建湘;杨文涛;;基于Lucene的搜索引擎在Struts中的应用[J];软件导刊;2007年03期
10 谢峰;刘洪星;;基于Lucene的Web站内搜索引擎的研究[J];电脑知识与技术;2008年04期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
5 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
2 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
5 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
8 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
9 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
10 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026