收藏本站
《中南林业科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的企业文档搜索引擎研究与应用

李海丰  
【摘要】:随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商用搜索引擎检索会让公司蒙受损失。因此,设计高效、可靠的企业文档搜索引擎,检索企业相关信息成为当前研究的热点。 本文在企业文档搜索引擎总体设计的基础上,充分结合了词典分词速度快和统计分词的新词识别能力的特点,提出了基于词典的统计分词算法,相比Lucene自带的分词算法具有较大改进,减少了关键字所对应的文档数量,提高了分词的准确性和索引质量。在向量空间模型的基础上引入分类和加权方法,充分利用了向量空间模型计算文档的相关性,使用分类技术对文档进行分类从而缩小文档集合的范围,降低了计算规模,利用加权处理以突出不同文档集合的重要性,进一步提高了重要文档的得分,提高了搜索准确度。 然后,在基于Lucene的企业文档搜索引擎系统中应用基于词典和统计的分词算法、基于分类加权的向量空间模型的排序算法,改进了Lucene的核心模块,提高了搜索结果的准确率,使之具有更高的实用价值。同时,为企业文档搜索引擎设计了索引、检索、Web等层面的缓存,有效地降低了搜索的时间。在lucene索引的基础上引入了基于数据库的索引结构,保证了系统的性能要求。 实验结果表明,本文提出的基于Lucene的企业文档搜索引擎改善了Lucene的文档排序效果和检索效率,保证了搜索结果的准确性。
【学位授予单位】:中南林业科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 魏晓萍;肝炎病毒蛋白领域本体的构建及应用研究[D];上海交通大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 郑如滨;撒力;谢婷;;基于Heritrix与Lucene的垂直搜索引擎研究[J];电脑知识与技术;2008年29期
3 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
4 钟智,黄发良;基于个性化服务的元搜索引擎模型[J];河北理工学院学报;2005年01期
5 孙兆林,李一兵,田园;分布式模型的分析研究[J];信息技术;2002年07期
6 杨海东;叶小岭;;搜索引擎中无效链接情况的分析及对策[J];淮阴师范学院学报(自然科学版);2007年01期
7 朱炜;王超;李俊;潘金贵;;Web超链分析算法研究[J];计算机科学;2003年09期
8 陈康,许婷,戴文俊,武港山;基于Web的全文搜索引擎的设计与实现[J];计算机工程;2005年20期
9 蒋凯;武港山;;基于Web的信息检索技术综述[J];计算机工程;2005年24期
10 潘宇斌,陈跃新;基于Ontology的自然语言理解[J];计算技术与自动化;2003年04期
中国硕士学位论文全文数据库 前9条
1 任爽;基于XML和SVM的Web文本挖掘研究[D];大连理工大学;2006年
2 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
3 刘玲;一种通用Web信息抽取系统的研究与实现[D];西南石油大学;2007年
4 孙文礼;电子商务系统中的全文检索及排序优化算法[D];浙江大学;2008年
5 吴虹;基于本体与模糊数学的自动分词系统研究[D];北京理工大学;2008年
6 刘运佳;基于Lucene和Heririx构建搜索引擎的研究和示例实现[D];电子科技大学;2008年
7 谢政;基于贝叶斯方法的分类问题研究[D];中南大学;2008年
8 林雪楠;一种改进的专题搜索结果排序算法的研究[D];大连海事大学;2008年
9 张芳;基于专业搜索引擎的元搜索引擎的研究与实现[D];华中科技大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
3 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
4 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
5 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
6 季元叶;;服务发现体系架构发展现状及新架构的研究[J];办公自动化;2012年10期
7 李伟;黄颖;;基于HtmlParser的网页信息提取[J];兵工自动化;2007年07期
8 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期
9 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期
10 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期
中国重要会议论文全文数据库 前10条
1 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
2 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
3 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
4 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
5 马玉莲;王宇冬;王鑫;;基于解释的分类算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 杜琳;石慧;刘晓平;;一种基于Q学习的任务调度算法的改进研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 丁政建;张路;;基于本体的语义检索研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
8 张赪军;刘祥瑞;李军;黄红梅;;基于本体的语义检索技术研究[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
9 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
10 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
2 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
3 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
4 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
5 杜伟;机器学习及数据挖掘在生物信息学中的应用研究[D];吉林大学;2011年
6 聂黎;基于基因表达式编程的车间动态调度方法研究[D];华中科技大学;2011年
7 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
8 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
9 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
10 陈俊;笑脸表情分类识别的研究[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
4 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
5 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
6 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
7 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
8 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
9 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
10 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 房巍;李万龙;;基于本体的图书智能检索系统的建模与应用研究[J];长春理工大学学报;2006年02期
2 孟凡荣;田恬;张磊;;一种改进了的查询扩展算法[J];电脑知识与技术;2009年12期
3 陆汝钤,石纯一,张松懋,毛希平,徐晋晖,杨萍,范路;面向Agent的常识知识库[J];中国科学E辑:技术科学;2000年05期
4 尹焕亮;孙四明;张峰;;基于本体的Web智能检索研究[J];计算机工程;2009年23期
5 贾雪峰;王建新;齐建东;朱礼军;;基于领域本体的智能检索模型[J];计算机工程;2010年23期
6 王旭阳;萧波;;基于本体和局部上下文分析的查询扩展方法[J];计算机工程;2012年07期
7 李丽亚;宋扬;薛中玉;李春梅;;基于Ontology的科学数据共享检索体系解析[J];情报理论与实践;2009年05期
8 许盛中;蔡乐才;;基于本体的图书智能检索系统的模型研究[J];四川理工学院学报(自然科学版);2009年05期
9 徐静;孙坦;黄飞燕;;近两年国外本体应用研究进展[J];图书馆建设;2008年08期
10 徐国虎;许芳;;本体构建工具的分析与比较[J];图书情报工作;2006年01期
中国博士学位论文全文数据库 前1条
1 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
中国硕士学位论文全文数据库 前10条
1 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
2 吕爽;基于叙词表的医学领域本体的构建研究[D];吉林大学;2011年
3 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
4 李梦莎;基于叙词表的领域本体构建方法研究[D];北京工商大学;2010年
5 胡川洌;基于本体的教学资源语义检索研究[D];重庆大学;2011年
6 薛荟;林业应用系统本体知识模型的构建和应用[D];中南林业科技大学;2011年
7 李兆龙;基于领域本体的旅游信息检索系统研究与实现[D];北京邮电大学;2012年
8 黄伟;本体构建与语义集成研究[D];东南大学;2005年
9 廖军;基于领域本体的信息检索研究[D];中南大学;2007年
10 高敏;基于本体的语义查询扩展研究[D];山东科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 文庭孝;情报检索中汉语语词自动切分研究[J];图书与情报;2001年02期
3 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
4 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
5 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
6 王卫国;冲浪第二代检索引擎[J];电脑技术;2000年03期
7 蒋微;中文搜索引擎的自动分词算法[J];电脑开发与应用;2002年06期
8 张晓林;分布式学科信息门户中网络信息导航系统的规范建设[J];大学图书馆学报;2002年05期
9 夏定元;多媒体网络中的图像搜索引擎技术[J];电子技术;2001年10期
10 韩立新,陈贵海,谢立;一个面向Internet的个性化信息检索系统模型[J];电子学报;2002年02期
中国硕士学位论文全文数据库 前10条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
2 成文丽;基于决策树的数据挖掘算法的技术研究[D];太原理工大学;2003年
3 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
4 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
5 黄隽毅;关于Web数据挖掘中HITS算法的研究[D];大连理工大学;2004年
6 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
7 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
8 李健;聚类分析及其在文本挖掘中的应用[D];西安电子科技大学;2005年
9 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
10 张巍;基于PageRank算法的搜索引擎优化策略研究[D];四川大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 李武装;;基于语义的企业搜索引擎的研究与实现[J];电脑知识与技术(学术交流);2007年08期
2 喻金平;谭鸣;夏小云;;基于Lucene技术的垂直搜索引擎的研究[J];软件导刊;2008年03期
3 朱海丰;秦杰;;基于Lucene与JSF的搜索引擎[J];福建电脑;2008年10期
4 申剑;鲍春燕;;基于Lucene的搜索策略研究[J];现代计算机(专业版);2008年12期
5 李永春;丁华福;;Lucene的全文检索的研究与应用[J];计算机技术与发展;2010年02期
6 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
7 侯云;;构建基于Lucene的网站站内搜索[J];信息与电脑(理论版);2010年02期
8 贺胜;;基于Lucene的中文全文检索系统[J];中国高校科技与产业化;2006年S3期
9 刘建湘;杨文涛;;基于Lucene的搜索引擎在Struts中的应用[J];软件导刊;2007年03期
10 温艳鸿;;基于lucene的文件搜索引擎的设计与扩展[J];福建电脑;2007年08期
中国重要会议论文全文数据库 前10条
1 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
2 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年
3 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
4 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
5 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
6 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
7 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
8 王富强;马德涛;张立朝;王建明;;地方志数据库全文信息检索研究[A];中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C];2007年
9 苏毅;王文力;阎姗;邓峰;;基于Ajax技术信息动态查询的设计与实现[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
中国硕士学位论文全文数据库 前10条
1 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
2 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
3 高欣;基于Lucene的全文检索系统的研究与实现[D];天津师范大学;2010年
4 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
5 杜先撰;基于Lucene全文索引系统设计与实现[D];南京大学;2011年
6 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
7 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
8 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
9 岳莉;基于Lucene的全文检索系统的研究与应用[D];西安电子科技大学;2010年
10 苏景春;基于Lucene的全文检索系统的研究与应用[D];北京交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026