收藏本站
《上海交通大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的中文自然语言搜索引擎

胡长春  
【摘要】: Internet技术的飞速发展,信息的发布与共享超越了时空的限制,人类进入一个前所未有的“信息爆炸”时代。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信息的海洋中,迷失方向。搜索引擎正是为了解决网络“信息迷航”问题而诞生的技术。它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。它成为连接用户和互联网的最佳纽带,起到网络信息导航的作用。然而由于搜索引擎技术涉及数据库管理、信息检索、人工智能、自然语言处理、机器学习等诸多学科,各商业公司都不愿意将自己的搜索技术公布于众,这使得搜索引擎的应用,受到了某种程度的限制。然而,开源工具Lucene的出现,使得搜索引擎开发者可以简单、快捷、并且有针对性地实现相当强大的搜索功能。 首先,本文针对Lucene中的中文分析器不符合汉语的习惯,造成检索查全率、查准率以及检索性能不够理想,实现基于标准中文词库和前向最大匹配算法的中文分析器。实验证明:该分析器的分词结果更符合汉语的习惯,并且在检索速度方面性能提升了2-4倍,在检索召回率方面性能提升了59%。 其次,本文对用户查询接口进行改进,实现基于自然语言理解的查询接口。对用户提交的以自然语言表述的问题进行分词处理,去除相关辅助词,最后提取出核心词进行查询。为更准确对用户提交的自然语言进行分词,本文采用两种相结合的双向扫描的方法,再利用利用词句切分概率对歧义字段进行处理。 另外,本文通过对网页相关度、PageRank算法[1]Lucene评分系统进行研究,提出将PageRank算法引入Lucene评分系统,让系统能够将更重要的网页更好的返回给用户。同时利用simhash算法[2]来计算返回页面之间的相似度,检测过滤相似网页。并且通过对排序算法的研究,改进原有快速排序。 最后,完成自然语言搜索引擎原型系统的设计和实现。原型系统对上海交通大学网络资源进行整合。试验证明,改原型系统具有较好的性能和实用性,为后续相关的研究工作提供了良好的平台。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前10条
1 葛世海;基于J2EE的站群管理平台的设计与实现[D];电子科技大学;2010年
2 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
3 许亮;基于WSMO的数字图书馆网格应用模型研究[D];湖北工业大学;2011年
4 陈焱劼;搜索引擎系统的设计与实现[D];北京交通大学;2011年
5 万晓鸽;文本关联规则挖掘方法研究与应用[D];西安建筑科技大学;2010年
6 余凡;基于本体的语义信息检索模型研究[D];湖北工业大学;2010年
7 刘邵斌;专家信息垂直搜索引擎关键技术研究与实现[D];中南大学;2010年
8 王业科;基于内容化目录的网络资源搜索研究[D];华南理工大学;2010年
9 易显;搜索引擎中大型网站的网页更新策略研究[D];湖南大学;2010年
10 邱晓俊;面向特殊主题的排序与检索算法研究[D];江西理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
2 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
3 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
4 王献昌;史晓东;陈火旺;;机器翻译与自然语言处理的现状与趋势[J];计算机科学;1992年03期
5 陈士杰,张玥杰;基于Lucene的英汉跨语言信息检索[J];计算机工程;2005年13期
6 钱兵;王永成;高凯;;面向搜索引擎的自然语言理解的设计与实现[J];计算机应用研究;2006年12期
7 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
8 王灿辉;张敏;马少平;;自然语言处理在信息检索中的应用综述[J];中文信息学报;2007年02期
9 何莘;王琬芜;;自然语言检索中的中文分词技术研究进展及应用[J];情报科学;2008年05期
10 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
中国硕士学位论文全文数据库 前1条
1 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
3 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
4 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
5 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
6 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
7 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
8 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
9 李巍巍;;全文检索引擎工具包Lucene的结构与索引原理的研究[J];才智;2008年09期
10 曹一冰;华一新;汪军;王关军;;基于DotLucene的全文检索及其在GIS中的应用[J];测绘工程;2011年06期
中国重要会议论文全文数据库 前10条
1 王雅莉;古丽拉·阿东别克;;哈萨克语通用词汇自动提取方法研究与实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
3 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
4 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
5 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
2 郑山红;信号转导pathway重构和组成要素识别方法研究[D];吉林大学;2011年
3 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
4 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
5 李庆虎;基于P2P架构的网格文件系统研究[D];清华大学;2004年
6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
7 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
10 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年
3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
4 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
5 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
6 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
7 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
8 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
9 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
10 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 刘晓志;黄厚宽;尚文倩;;带专业词库的特征选择[J];北京交通大学学报;2006年02期
3 赵静;;基于T&RBAC访问控制模型的改进方法研究[J];燕山大学学报;2010年04期
4 程秀权;程松涛;马红梅;吴霞;;互联网信息内容管理平台研究与实践[J];电信工程技术与标准化;2008年06期
5 ;Multi-attribute decision-making approach dealing with uncertain linguistic assessment information[J];Journal of Southeast University(English Edition);2008年S1期
6 拓守恒;;基于J2EE的多层架构的Web信息系统构建与设计[J];电脑开发与应用;2009年01期
7 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
8 李海丰;;基于Lucene的企业搜索引擎研究及应用[J];电脑知识与技术;2009年04期
9 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
10 刘霞;阳小华;;基于本体的个性化信息检索研究[J];电脑知识与技术;2009年25期
中国博士学位论文全文数据库 前4条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
3 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
4 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 郭利刚;密文全文检索系统的研究与实现[D];武汉理工大学;2011年
2 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
3 肖露;Spring框架研究与应用[D];长沙理工大学;2011年
4 武助宇;中文搜索引擎的发展现状、问题与对策[D];湘潭大学;2002年
5 于波;中文全文检索技术研究[D];华中师范大学;2003年
6 余锦;大规模分布式全文搜索系统的研究与设计[D];清华大学;2004年
7 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
8 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
9 杨若望;基于本体的语义检索方法研究[D];北京邮电大学;2006年
10 邹庆轩;基于关联规则的文本数据挖掘研究[D];西南石油大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 梁智学;齐立磊;;基于站群技术的市级纠风管理系统设计与实现[J];计算机与现代化;2013年03期
中国硕士学位论文全文数据库 前7条
1 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
2 白玉昭;垂直搜索引擎的研究与实现[D];江南大学;2012年
3 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年
4 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
5 张敏;基于WEB的学科资源垂直搜索引擎的设计与实现[D];华中师范大学;2012年
6 黄书娟;基于Web的垂直搜索引擎的研究[D];武汉理工大学;2012年
7 李瑞杰;基于语义的网页相似性研究[D];河南工业大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
2 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
3 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
4 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
5 冯柳平;句法分析中的知识表示[J];桂林电子工业学院学报;1999年02期
6 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
7 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
8 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
9 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
10 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前2条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
2 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
3 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
4 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
5 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年
6 许林杰;中文文本分词研究[D];山东师范大学;2003年
7 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
8 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
9 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
10 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 孟祥成;;基于Lucene和Heritrix技术搜索引擎的设计与实现[J];中国现代教育装备;2010年03期
2 任晓娜;;基于Lucene的全文搜索引擎的研究与实现[J];湖北广播电视大学学报;2010年05期
3 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
4 陈光喜;黄继蓉;欧兴宁;;基于Lucene的文件检索系统的设计与实现[J];现代电子技术;2007年17期
5 翟晓玲;潘伟;王波;;基于Lucene的web站内搜索引擎的研究与实现[J];硅谷;2009年12期
6 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
7 朱海丰;秦杰;;基于Lucene与JSF的搜索引擎[J];福建电脑;2008年10期
8 刘敏娜;葛萌;陈娟;;基于Lucene的全文搜索引擎设计与实现[J];福建电脑;2009年05期
9 侯云;;构建基于Lucene的网站站内搜索[J];信息与电脑(理论版);2010年02期
10 王志嘉;薛质;;一种基于Lucene的中文分词的设计与测试[J];信息技术;2010年12期
中国重要会议论文全文数据库 前10条
1 陈杰;;应用智能搜索 实现数据挖掘[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(上篇)[C];2009年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 谢丽星;孙茂松;佟子健;王灿辉;;基于用户查询日志和锚文字的汉语缩略语识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 刘凡平;高艳华;于炯;张伟;;基于关键决策方法的站内搜索研究与实现[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
9 陈文平;毛宽荣;赵严杰;;在互联网络中获取肛肠相关信息[A];中华中医药学会第十二次大肠肛门病学术会议论文汇编[C];2006年
10 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
中国重要报纸全文数据库 前10条
1 枫丹;企业搜索引擎 安全性能大盘点[N];中国计算机报;2005年
2 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
3 李一鑫;搜索排名的红与黑[N];财经时报;2007年
4 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
5 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
6 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
7 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
8 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
中国博士学位论文全文数据库 前10条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
2 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
3 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年
2 闻峥;基于Lucene的搜索引擎优化[D];北京交通大学;2011年
3 孙晓峰;基于轻量级框架的互动问答平台的设计与实现[D];中国地质大学(北京);2008年
4 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
5 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 孙华昱;Lucene在医学影像资源检索平台中的应用[D];沈阳工业大学;2011年
8 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
9 陈魁;智能搜索引擎系统的分析设计与开发[D];大连理工大学;2004年
10 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026