收藏本站
《大连理工大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的全文检索系统的研究与应用

张校乾  
【摘要】:全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本文对中文全文检索的有关技术进行了较为深入的研究。在基于字表的全文索引方面,本文提出了一种改进的倒排索引结构,同传统索引结构相比,更便于索引的构建、维护、更新。并根据其特征,设计了优化的查询策略。分析比较的结果表明,改进的索引结构在获得较高的动态性能的同时,还能有效地提高创建索引的速度。本文的重点放在了全文检索技术的应用上,对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、加快检索速度、不断适应网络信息发展等方面做了重点研究。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本文针对全文数据库的特点,深入讨论此法弊端与不足,并提出了在文件系统上构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包—Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是一件很有意义的事情。 在应用方面,本文主要工作是本校学位论文全文数据库的设计与实现。其检索子系统在文档数据加工、信息抽取及分类器相关工作的基础上,完成构建索引器、数据库存储设计、检索器设计等内容,最终实现了系统对中英文文献的导航浏览、全文检索和元数据检索服务功能。就检索的效率和效果而言,基本达到了最初的设计目的。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 李靖;文登敏;张润伟;;基于Lucene的全文检索引擎的研究与应用[J];淮阴工学院学报;2008年01期
2 黄泳松;;基于Lucene技术的全文检索网络教学系统的研究与设计[J];软件导刊;2009年08期
中国硕士学位论文全文数据库 前10条
1 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
2 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
3 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
4 陈刚;基于行为分析智能推荐购物搜索引擎的设计与实现[D];北京交通大学;2011年
5 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
6 裴雁峰;基于全文检索的企业资源搜索系统[D];电子科技大学;2011年
7 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
8 蒋志鹏;黑龙江移动客户服务自动问答系统的设计与实现[D];哈尔滨工业大学;2010年
9 阴晓昱;基于Lucene多核并行索引方法的设计与实现[D];上海交通大学;2011年
10 周志伟;支持语义的视频检索技术研究[D];中国科学技术大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
2 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
3 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
4 吴玉丰;《中国学术期刊(光盘版)》的检索方法[J];图书与情报;2003年01期
5 郭家义;网络信息检索效率研究[J];图书与情报;2003年02期
6 龚蛟腾;Internet信息资源及信息检索[J];图书与情报;2003年06期
7 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
8 王永丽;徐桂香;姜官凤;;Elsevier Science全文数据库使用指南[J];吉林大学学报(医学版);2007年05期
9 吕先竞;;企业信息资源的内涵特征与构成体系[J];西华大学学报(哲学社会科学版);2008年05期
10 张林曼;吴升;;地理编码系统中地址匹配引擎的设计与实现[J];测绘信息与工程;2008年06期
中国重要会议论文全文数据库 前5条
1 盛作国;胡红;;情报推理的逻辑理论工具——制约逻辑在情报科学中的应用[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
2 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
3 余建国;李言;李淑娟;;基于JSP的模具制造执行管理系统关键技术研究[A];制造技术自动化学术会议论文集[C];2004年
4 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
5 魏国志;骆斌;商琳;;基于WWW方式的法律法规检索系统的设计与实现[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
3 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
4 向桂林;XML引擎研究[D];中国科学院研究生院(文献情报中心);2004年
5 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 宋继平;面向机器翻译的双语信息处理系统的设计与实现[D];中国科学院研究生院(计算技术研究所);1999年
7 张磊;个性化信息分发及概念检索的研究[D];中国科学院研究生院(计算技术研究所);2002年
8 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
9 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
10 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 万长征;图书馆资源数字化整合与设计[D];南昌大学;2010年
2 陈伟亮;民航西南空管资产管理系统的研究与实现[D];电子科技大学;2010年
3 张佳;工商系统数据共享的设计与实现[D];电子科技大学;2010年
4 于建平;基于J2EE平台的高校学生工作管理系统的设计与实现[D];电子科技大学;2010年
5 李欢;基于多Agent及元搜索技术的中文问答系统的研究和应用[D];石家庄铁道学院;2009年
6 牛媛;华北科技学院教务系统的设计[D];西安电子科技大学;2009年
7 陈静;基于多Agent的高校数字图书馆个性化信息服务系统模型研究[D];西安电子科技大学;2011年
8 宋晓旭;基于语义网的文本分类研究[D];沈阳工业大学;2011年
9 王芳芳;基于Agent的网络信息检索[D];沈阳工业大学;2011年
10 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
4 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
5 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
6 蒋群;;中国比较购物网站的调查分析和发展建议[J];北京邮电大学学报(社会科学版);2007年01期
7 张强;余立建;林国军;何玉婉;;无线Ad hoc网络典型路由协议的网络性能分析[J];成都大学学报(自然科学版);2007年03期
8 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
9 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
10 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
中国重要会议论文全文数据库 前4条
1 王笑强;;数据修复技术在电子取证中的应用[A];第十九次全国计算机安全学术交流会论文集[C];2004年
2 丁丽萍;王永吉;;多维计算机取证模型研究[A];第二十次全国计算机安全学术交流会论文集[C];2005年
3 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
4 于楠;朱靖波;陈文亮;;领域知识库的构建机制[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前3条
1 许春根;访问控制技术的理论与方法的研究[D];南京理工大学;2003年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 张砚明;基于链接结构分析的Web页面排序算法[D];西安电子科技大学;2010年
2 都云琪;中文文本自动分类的研究与实现[D];西安电子科技大学;2002年
3 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
4 吴政;面向侨务信息主题的搜索引擎[D];华侨大学;2003年
5 姜迎春;企业信息化平台(EIP)研究与开发[D];四川大学;2003年
6 朱震;内容管理实例设计及其XML存储策略的研究[D];中国科学院研究生院(软件研究所);2003年
7 于波;中文全文检索技术研究[D];华中师范大学;2003年
8 邹娟;企业应用集成中信息门户技术研究与开发[D];西安电子科技大学;2004年
9 蒋海锋;门户网站安全支撑平台的设计与实现[D];成都理工大学;2004年
10 谭罗生;基于MPEG-7的视频内容描述及在检索应用中的研究[D];江西师范大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 张明旺;;基于NTFS文件系统的数据恢复技术[J];福建电脑;2012年05期
2 黄江平;黄理灿;徐玲;;基于Lucene的PDF文档的全文检索的实现[J];工业控制计算机;2012年05期
3 程芃森;安俊秀;;基于特征词群的新闻类重复网页和近似网页识别算法[J];成都信息工程学院学报;2012年04期
4 张明旺;;基于FAT32文件系统的数据恢复技术[J];电子科技;2012年11期
5 王惠;王树乔;;基于因子分析法对搜索引擎用户满意度评价研究[J];淮阴工学院学报;2009年06期
6 孙跃;刘文军;;高校基层网络教学资源建设及管理机制研究[J];中国教育信息化;2011年03期
7 齐鹏;张俊;李冠宇;;基于本体的垂直搜索引擎分类索引模型设计[J];计算机工程与设计;2010年23期
8 张华;童德茂;顾红飞;;文本检索中动态索引技术研究[J];韶关学院学报;2011年02期
9 赵德平;王延臣;李鹏;祝慧洁;;面向高校信息的垂直搜索引擎的研究与实现[J];沈阳建筑大学学报(自然科学版);2012年03期
10 崔晓玲;曹春萍;王学义;;Lucene在博客垂直搜索引擎个性化检索中的应用[J];微计算机信息;2011年02期
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
3 方彬;面向盲人的个性化图书搜索系统[D];浙江大学;2011年
4 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
5 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
6 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
7 许亮;基于WSMO的数字图书馆网格应用模型研究[D];湖北工业大学;2011年
8 刘亚东;分布式医学搜索引擎的研究与实现[D];北京邮电大学;2011年
9 宋洪鑫;基于标签与内容的blog检索实验系统研究与实现[D];北京邮电大学;2011年
10 刘天元;基于Lucene的海量生殖健康数据集成系统的研究与实现[D];北京邮电大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 陈光祚;论全文检索系统[J];武汉大学学报(人文科学版);1989年06期
2 张子枫,方正;超文本全文检索系统的研究[J];现代图书情报技术;1996年01期
3 宗宁;小型中文全文检索系统的设计与实现[J];电脑知识与技术;2005年14期
4 张广佰;文海捞针,你有招吗?[J];中国计算机用户;1999年30期
5 都云程,施水才;WWW与中文全文检索系统[J];中国计算机用户;1996年12期
6 陈淑燕,罗小彬,吕玉鹏;中文全文检索系统H——QWJS的设计与实现[J];图书情报工作;2000年04期
7 苏新宁,杨薇;Web环境下全文检索系统开发平台的设计[J];情报科学;2002年04期
8 郑利荣,刘清海;医学信息网站的网络资源管理方案[J];电脑与电信;2004年Z2期
9 顾耀芳;综述全文检索系统[J];现代图书情报技术;1992年01期
10 樊胜;一个基于Web的期刊全文检索系统的设计与实现[J];现代图书情报技术;2002年05期
中国重要会议论文全文数据库 前10条
1 赵汀;孟祥武;;Lucene全文数据库研究[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 于翠艳;傅德华;李春博;;关于“20世纪中国人物传记资料全文数据库”的进展与困惑[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年
3 傅德华;于翠艳;李春博;;关于创建“20世纪中国人物传记资料全文数据库”的构想[A];2009年中国索引学会年会暨学术研讨会论文集[C];2009年
4 赵书城;陆卫国;马建国;;敦煌学Web全文数据库标引实现[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
5 谭健萍;戴光全;;从报纸媒体视角分析广交会影响力的时空分布——基于全国重要报纸全文数据库的统计(2000-2010)[A];地理学核心问题与主线——中国地理学会2011年学术年会暨中国科学院新疆生态与地理研究所建所五十年庆典论文摘要集[C];2011年
6 周小庭;;用Info Digger全文检索系统构建首都师大基教中心网上平台[A];OA’99办公自动化全国学术研讨暨展示会论文集[C];1999年
7 赵慧;李春明;鲍可进;;一种基于DotLucene搜索引擎的知识库中文全文检索系统[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
9 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年
2 张伟;增强全文检索与搜索功能[N];中国计算机报;2008年
3 蔡敏生 特约记者 叶建强;2015年建成全省共享的档案全文数据库[N];中国档案报;2011年
4 松涛;雅风全文检索器[N];中国电脑教育报;2004年
5 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
6 莱阳农学院教育技术中心 徐鹏民;用MSSQL Serve 建立Internet上的全文检索系统[N];计算机世界;2000年
7 温苏刚 姚大红;在PB中实现全文检索[N];计算机世界;2002年
8 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
9 陈蓉;世历所召开网络应用与安全管理报告会[N];中国社会科学院院报;2008年
10 记者 王坤宁;统计类年鉴加盟年鉴资源数据库[N];中国新闻出版报;2007年
中国博士学位论文全文数据库 前10条
1 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
2 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
3 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
4 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
5 衡中青;地方志知识组织及内容挖掘研究[D];南京农业大学;2007年
6 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
7 沈涌;数字信息资源整合策略与服务共享模式研究[D];吉林大学;2009年
8 李晓晖;宋元“说话”研究[D];华中师范大学;2008年
9 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
10 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
中国硕士学位论文全文数据库 前10条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
2 何胜利;矿山法律法规全文检索系统的研究与应用[D];西安建筑科技大学;2005年
3 李晓晖;基于J2EE的文献资料全文检索系统的开发[D];西南交通大学;2003年
4 杨镒菲;基于云存储的分布式全文检索系统的设计与实现[D];华南理工大学;2012年
5 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
6 万方;协同系统中全文检索功能模块的设计与实现[D];电子科技大学;2012年
7 刘超;专利全文检索系统的设计与实现[D];北京邮电大学;2010年
8 卢志翔;全文检索系统研究[D];广西大学;2011年
9 刘莺迎;基于lucene中文全文检索系统的研究与实现[D];郑州大学;2009年
10 李爱贞;基于Lucene的毕业论文库全文检索系统的设计与实现[D];中国海洋大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026