收藏本站
《暨南大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的全文检索系统模型的研究

黄杰  
【摘要】: 全文索引和检索是一种非常高效的信息检索技术,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。作为开源组织Apache Jakarta的成员项目,Lucene是一个用Java语言实现的成熟、自由、开源的软件项目,是一个高性能的、可扩展的信息检索工具库,可以方便快捷地融入到应用程序中以增加索引和搜索功能。 目前,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。但是,由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常粗糙和低效的。在对包括中文分词技术在内的全文检索技术和Lucene内核的分词原理进行分析和研究的基础上,本文设计实现了一个基于词库的、采用正向最大匹配算法的中文分词模块。测试结果表明,与Lucene内核包采用的单汉字切分方法和其扩展包针对中日韩等亚洲语言采用的二元切分方法相比,该模块具有效果更好、性能更优的比较优势。 此外,为了使Lucene可以方便、无缝地嵌入到应用程序中,Lucene的内核被设计得非常小巧,它的处理对象局限于纯文本数据。在现实世界中,纯文本格式的文档正处于逐渐减少的趋势,取而代之的是,越来越多的电子信息采用各种格式文档的形式保存。本文设计与实现的基于Lucene的全文检索系统模型采用接口实现的方式,并且使用动态实例化的方法,能够统一、有效地处理txt、xml、html、pdf、doc和rtf等多种常见的格式文档,其突出的优点与特点是在最大限度地为用户屏蔽各种格式文档差异性的同时,极大地扩展了Lucene可以处理的格式文档的类型。 文章的最后在对系统设计与实现过程中的关键点进行探讨的基础上,对中文分词的准确性和召回率、检索结果处理、查询接口实现、索引更新策略等问题进行了引申,并提出了自己的见解,这些将作为今后继续努力的方向。
【学位授予单位】:暨南大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前4条
1 张东振;张明;;基于XML的站内检索系统[J];电脑知识与技术;2010年02期
2 匡振国;倪宏;嵇智辉;刘磊;;一种基于Lucene的影片搜索引擎的研究和应用[J];计算机工程与应用;2008年29期
3 江婕;李建民;曾勍炜;;基于模式推荐的个性化搜索引擎研究[J];计算机与现代化;2010年05期
4 江婕;李建民;曾勍炜;;基于用户反馈的个性化搜索引擎的研究[J];计算机与现代化;2010年06期
中国硕士学位论文全文数据库 前8条
1 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
2 李爱贞;基于Lucene的毕业论文库全文检索系统的设计与实现[D];中国海洋大学;2011年
3 赵旭;搜索引擎关键技术研究及性能优化[D];江南大学;2008年
4 江婕;个性化搜索引擎的研究与实现[D];南昌大学;2008年
5 张琳;基于Lucene的电子公文检索系统的研究与实现[D];沈阳理工大学;2009年
6 王丛林;在线自动答疑系统设计与开发的研究[D];东北师范大学;2010年
7 黄红;基于WEB技术的新闻发布系统的设计与实现[D];电子科技大学;2012年
8 谢谏;基于Lucene的XML索引与检索[D];华南理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 鲍玉来;用JAVA+XML实现网站全文检索[J];高校图书馆工作;2003年06期
2 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
3 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
4 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期
5 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
6 陈士杰,张玥杰;基于Lucene的英汉跨语言信息检索[J];计算机工程;2005年13期
7 涂新辉,何婷婷,罗景;一种全文检索系统的设计与实现[J];计算机工程;2005年17期
8 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
9 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
10 杨广翔,俞宁,谌莉;搜索引擎结果的重排序方法[J];计算机应用;2005年02期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
3 王锡钢,刘振文;搜索引擎技术的分析与研究[J];鞍山钢铁学院学报;2002年06期
4 王曼丽;陆永祯;孙云龙;;智能客户端技术在学生管理信息系统中的应用[J];鞍山科技大学学报;2006年02期
5 李林红;沈文轩;;基于Hibernate和Spring的持久层OR映射技术[J];鞍山科技大学学报;2006年04期
6 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
7 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
8 奥海炜;;高校电子政务公文流转系统的建模与设计[J];办公自动化;2006年05期
9 牛丽;范广慧;;基于UML的医院门诊管理信息系统[J];办公自动化;2008年10期
10 关宏志,张育宏,池洪波,石建军;UML活动图在物流业务流程分析中的应用[J];北京工业大学学报;2005年01期
中国重要会议论文全文数据库 前10条
1 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
2 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
4 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
5 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
6 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
7 姜绍飞;齐璐;张春明;;基于Web-GIS的桥梁施工质量验收与决策系统的数据库设计与优化[A];全国既有桥梁加固、改造与评价学术会议论文集[C];2008年
8 张军;籍斌;;词典编纂中应用的几种主流技术研究[A];2004年辞书与数字化研讨会论文集[C];2004年
9 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
10 栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
3 王迈;语言形式化原理[D];上海外国语大学;2011年
4 吴克寿;基于公理设计的软件体系结构构建方法研究[D];华中科技大学;2011年
5 孟宪学;中国农业科技数据库系统建设研究[D];中国农业科学院;2002年
6 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
7 张蕾;概念结构及其应用[D];西北工业大学;2001年
8 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
9 柯清超;分布式学习系统软件建模方法研究[D];华南师范大学;2003年
10 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
中国硕士学位论文全文数据库 前10条
1 浮德海;基于ORACLE的数字化车间资源管理平台研究[D];长春理工大学;2010年
2 李璐璐;基于UML的计算机组卷系统的分析与设计[D];长春理工大学;2010年
3 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
4 姜春晖;基于UML的报刊销售管理系统的设计与实现[D];郑州大学;2010年
5 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 马玉强;山东省植物信息系统的设计与实现[D];大连理工大学;2009年
8 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
9 汪刚;基于java的高职单招录取系统的设计与实现[D];苏州大学;2010年
10 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 王玲;穆志纯;郭辉;;一种基于聚类的支持向量机增量学习算法[J];北京科技大学学报;2007年08期
3 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
4 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
5 张银;;答疑系统学习机制的分析与思考[J];中国远程教育;2006年02期
6 陆云;;对基于Java的全文检索工具包lucene的索引研究[J];电脑学习;2007年02期
7 刘亚军,徐易,高莉莎;智能答疑系统中快速定位算法的研究与实现[J];东南大学学报(自然科学版);2003年04期
8 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
9 梁敬东;伍世珍;;基于J2EE的毕业论文管理系统设计与实现[J];高等农业教育;2010年08期
10 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
中国博士学位论文全文数据库 前1条
1 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 禹继波;基于元素链接的XML信息检索系统的研究[D];南京航空航天大学;2010年
2 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
3 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
4 杨卫;面向语义的网络信息资源组织方法研究[D];天津师范大学;2005年
5 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
6 何世林;基于Java技术的搜索引擎研究与实现[D];西南交通大学;2006年
7 刘雪平;支持结构查询和包含操作的XML索引研究[D];吉林大学;2006年
8 周龙;基于朴素贝叶斯的分类方法研究[D];安徽大学;2006年
9 郭艳阳;基于本体论及Lucene的电子公文检索系统[D];江西财经大学;2006年
10 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年
【二级引证文献】
中国期刊全文数据库 前3条
1 邓春伟;史焕卿;;Lucene的最小风险概率加权朴素贝叶斯算法[J];哈尔滨理工大学学报;2012年01期
2 王振华;宋明;许存禄;;基于Lucene的影像垂直检索系统设计[J];计算机与现代化;2010年07期
3 张小娣;宋余庆;;基于科学知识图谱的搜索引擎前沿分析[J];科技管理研究;2011年18期
中国硕士学位论文全文数据库 前10条
1 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
2 路卫杰;基于知识库的礼品推荐系统的设计与实现[D];北京邮电大学;2011年
3 李爱贞;基于Lucene的毕业论文库全文检索系统的设计与实现[D];中国海洋大学;2011年
4 闫毛毛;基于Lucene教学资源搜索引擎的设计与实现[D];西南交通大学;2011年
5 余坦;个性化技术资料支持帮助系统的研究与实现[D];湖南大学;2009年
6 蔺继国;基于点击数据分析的个性化搜索引擎研究[D];国防科学技术大学;2010年
7 唐华姣;主题搜索引擎索引技术的研究与实现[D];重庆交通大学;2011年
8 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
9 邱尚明;面向专利的主题搜索引擎技术研究与实现[D];华南理工大学;2009年
10 张蕾;基于Lucene的电子档案检索系统的设计与实现[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 Jeff Prosise ,一帆;在Web上爬行[J];个人电脑;1996年09期
3 鲍玉来;用JAVA+XML实现网站全文检索[J];高校图书馆工作;2003年06期
4 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
5 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
6 林彤,江志军;Internet的搜索引擎[J];计算机工程与应用;2000年05期
7 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
8 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
9 赵汀,孟祥武;基于LUCENEAPI的中文全文数据库设计与实现[J];计算机工程与应用;2003年20期
10 彭洪汇;林作铨;;Internet上的搜索引擎和元搜索引擎[J];计算机科学;2002年09期
【相似文献】
中国期刊全文数据库 前10条
1 贾桂霞;李祥林;马宏锋;;基于Lucene的中小型WEB应用全文检索引擎的研究[J];自动化与仪器仪表;2011年02期
2 李瑞芳;杨娜;;主题搜索引擎的研究[J];微型机与应用;2009年19期
3 胡继钧;;基于Lucene全文检索引擎的研究与实现[J];科技创新导报;2010年20期
4 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
5 朱雪莲;;基于Lucene全文检索引擎的应用研究[J];微型机与应用;2010年22期
6 李浩;;通用格式的Lucene文档解析器框架的构建[J];计算机与现代化;2011年03期
7 吴青;夏红霞;赵广辉;刘春燕;;基于Lucene全文检索引擎的应用与改进[J];武汉理工大学学报;2008年07期
8 何会民;韩东霞;周明姬;;基于Lucene的网络新闻搜索引擎研究与实现[J];商场现代化;2008年09期
9 张锦炘;;基于Nutch的中文搜索引擎的构建[J];图书馆研究与工作;2009年01期
10 王志嘉;薛质;;一种基于Lucene的中文分词的设计与测试[J];信息技术;2010年12期
中国重要会议论文全文数据库 前10条
1 毛楚祥;;全文检索技术和CGRS软件[A];第十一届全国数据库学术会议论文集[C];1993年
2 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
3 陈豫;;WWW网上中文信息的全文检索技术开发[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
4 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
5 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年
6 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
8 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
10 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 郭莹;全文检索市场空间大[N];中国计算机报;2006年
2 肖诗斌;全文检索技术的深层剖析[N];中国计算机报;2003年
3 李瀛寰;雅虎中文搜索从分词开始[N];中国计算机报;2006年
4 潘亚南;中国科学院全文档案信息检索应用取得好效果[N];中国档案报;2004年
5 ;“门户+搜索”[N];中国计算机报;2007年
6 记者 蒋隽;百度将推地图搜索抗衡google[N];民营经济报;2005年
7 张利;下一代搜索轮廓初现Autonomy力挺中文搜[N];中国企业报;2006年
8 记者 陈姝;深圳“云计算”产业爆发式增长[N];深圳商报;2010年
9 记者 王晓晴;深圳80余家企业试水云计算[N];深圳特区报;2010年
10 建新;陈沛中国搜索引擎第一人[N];中国企业报;2004年
中国博士学位论文全文数据库 前2条
1 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
2 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 黄杰;基于Lucene的全文检索系统模型的研究[D];暨南大学;2007年
2 刘敏娜;基于Lucene的全文搜索系统的研究与实现[D];华东师范大学;2008年
3 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
4 崔君鹏;开源全文检索引擎的研究和应用[D];重庆大学;2008年
5 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
6 张琳;基于Lucene的电子公文检索系统的研究与实现[D];沈阳理工大学;2009年
7 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
8 郑萍;军用文献检索系统的设计与实现[D];复旦大学;2009年
9 周翊超;军事文献搜索引擎架构的研究与实现[D];南京理工大学;2008年
10 胡鹏飞;Lucene与中文分词技术的研究及应用[D];北京交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026