收藏本站
《北京化工大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

专业搜索引擎索引技术的研究与实现

江毅铭  
【摘要】:随着Internet和www的迅速发展,Internet上的资源日趋丰富,基于Internet的各类信息检索服务应运而生并得到了迅速发展。Google、Yahoo等综合型搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,综合型搜索引擎系统就有些力不从心。为了满足特定专业科学研究的需求,有必要开发针对特定专业的信息检索系统。 本文首先通过对全文检索中的正排表、倒排表,以及倒排表的字表法、词表法的研究与实践,深入了解全文检索索引的构建使用;接下来通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索引权重的控制和索引优化的方法。在此基础上,利用Lucene API函数,设计了索引器的批量索引方法与增量索引方法,实现了化工专业搜索引擎系统中索引器部分。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Lucene的
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 雷燕瑞;;基于Java的全文检索技术研究[J];电脑开发与应用;2013年05期
2 孙巧稚;;CNKI学术搜索引擎的特点及发展趋势研究[J];韶关学院学报;2010年06期
中国硕士学位论文全文数据库 前10条
1 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
2 陈淑华;企业短信互动系统设计及实现关键技术研究[D];中南大学;2011年
3 韩开旭;基于查询扩展的油田网络舆情监控系统[D];东北石油大学;2011年
4 唐华姣;主题搜索引擎索引技术的研究与实现[D];重庆交通大学;2011年
5 夏佳;基于语义标记的Web信息抽取技术研究[D];沈阳航空航天大学;2012年
6 李鹤;基于B/S架构的药片检索系统[D];北京邮电大学;2012年
7 庄亮;面向中小企业的门户平台技术研究[D];西北工业大学;2006年
8 张黎明;搜索技术在Portal平台中的应用研究[D];西北工业大学;2006年
9 徐耀;基于Agent的智能化搜索引擎系统[D];北京化工大学;2006年
10 胡元军;基于Agent的分布式专业信息采集系统[D];北京化工大学;2007年
【参考文献】
中国期刊全文数据库 前1条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
2 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
3 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
4 李华平;周国祥;;基于MIDAS技术的园区网搜索系统设计[J];巢湖学院学报;2008年03期
5 原福永,李莉,李红岩;智能信息检索的设计与研究[J];燕山大学学报;2005年04期
6 包盛,任勇,陈家训;具有软件代理特征的组件化C2C电子商务系统的研究[J];东华大学学报(自然科学版);2004年04期
7 王淑敬;;基于Web的个性化信息检索技术研究[J];电脑编程技巧与维护;2010年12期
8 王树锋,张永奎;交叉语言信息检索研究[J];电脑开发与应用;2001年11期
9 强彦;谢红薇;;基于Web数据的本体概念抽取[J];电脑开发与应用;2007年11期
10 殷妮哿;;Internet中的多媒体快速查询[J];电脑开发与应用;2009年09期
中国重要会议论文全文数据库 前9条
1 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
2 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
3 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 曹玮祺;梁华瑞;朱雷;李涓子;王克宏;;基于半结构化信息模型的信息检索[A];第六届全国计算机应用联合学术会议论文集[C];2002年
5 毛颖;周源远;王继成;;信息过滤技术研究[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
7 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 许龙飞;陈小宁;;具有模糊语义的Web信息资源获取技术研究与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 简(王争)峰;基于XML的异构产品信息网上交换、检索技术研究与应用[D];浙江大学;2002年
4 应晓敏;面向Internet个性化服务的用户建模技术研究[D];中国人民解放军国防科学技术大学;2003年
5 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
6 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
7 杨震;个性化信息获取方法的研究[D];大连理工大学;2004年
8 温浩宇;制造网格若干关键技术研究[D];西安电子科技大学;2005年
9 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
10 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
3 周晓红;基于内容与链接的页面价值算法研究[D];电子科技大学;2010年
4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年
5 陈功照;城市地理信息检索服务研究[D];福建师范大学;2010年
6 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年
7 孟星;基于Agent的自适应信息检索系统技术研究[D];西安电子科技大学;2009年
8 陈潇;油脂企业故障信息管理与诊断系统设计与实现[D];西安电子科技大学;2009年
9 丁士敏;基于Ajax/Lucene的站内搜索技术研究与实现[D];西安电子科技大学;2008年
10 刘海涛;基于自然语言理解的中文搜索引擎[D];河北科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
2 张爱国;邬群勇;王钦敏;;基于PostgreSQL数据库的GML数据存储[J];测绘科学;2008年01期
3 罗春;;地理信息系统发展的新趋势:面向服务的体系结构[J];地理信息世界;2006年05期
4 陈珺;;PostgreSQL在时空数据管理中的应用[J];测绘通报;2008年07期
5 周洪范,张朝纲;试谈材料数据库的现状、发展及对策[J];材料工程;1991年02期
6 张乐福,谢长生;材料科学数据库的发展现状[J];材料工程;1997年04期
7 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
8 王兴伟;王宇;;Web信息系统中基于RBAC模型的访问控制模块设计与实现[J];大连理工大学学报;2005年S1期
9 田翔华;杨扬;;基于知识点题库系统模型构建及其应用系统的研究[J];电脑知识与技术;2009年04期
10 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
中国博士学位论文全文数据库 前6条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 许春根;访问控制技术的理论与方法的研究[D];南京理工大学;2003年
3 王克如;基于图像识别的作物病虫草害诊断研究[D];中国农业科学院;2005年
4 周英华;位置相关Web搜索的检索技术研究[D];中国科学技术大学;2006年
5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
6 李杰;基于内容的图像检索方法研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 饶丰;基于内容和语义的物品图像检索[D];北京邮电大学;2011年
2 郭俊芳;纸币面额与序列号识别算法的设计与实现[D];北京邮电大学;2011年
3 姜迎春;企业信息化平台(EIP)研究与开发[D];四川大学;2003年
4 邹娟;企业应用集成中信息门户技术研究与开发[D];西安电子科技大学;2004年
5 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
6 蒋海锋;门户网站安全支撑平台的设计与实现[D];成都理工大学;2004年
7 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
8 徐远芳;消息中间件在Web服务中的应用及面向Web服务的消息中间件设计[D];广西大学;2004年
9 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
10 马常霞;基于移动Agent的分布式路由算法研究[D];南京理工大学;2003年
【二级引证文献】
中国期刊全文数据库 前4条
1 金星;;图书馆信息管理系统的设计与实现[J];电脑编程技巧与维护;2010年22期
2 桑书娟;王庆喜;;一种结合正向最大匹配法和互信息的中文分词算法[J];计算机光盘软件与应用;2012年07期
3 张玉峰;何超;;基于Web评论挖掘的动态竞争情报分析研究(下)——算法设计与实验分析[J];情报理论与实践;2012年07期
4 齐鹏;张俊;李冠宇;;基于本体的垂直搜索引擎分类索引模型设计[J];计算机工程与设计;2010年23期
中国博士学位论文全文数据库 前1条
1 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭世胜;基于Agent的搜索引擎的研究与实现[D];大连海事大学;2010年
2 金星;图书馆信息管理系统的设计与实现[D];中国海洋大学;2010年
3 王炎炎;基于Web的分布式网络管理关键技术研究[D];西安电子科技大学;2010年
4 刘天元;基于Lucene的海量生殖健康数据集成系统的研究与实现[D];北京邮电大学;2011年
5 丁文;垂直搜索引擎在网络购物系统中的研究与应用[D];中国海洋大学;2011年
6 唐华姣;主题搜索引擎索引技术的研究与实现[D];重庆交通大学;2011年
7 武毅;基于Lucene.Net的全文检索研究与应用[D];国防科学技术大学;2011年
8 高峰;基于中文科技文献关键词的聚类系统的设计与实现[D];北京邮电大学;2012年
9 冯华威;基于Witness的集装箱码头物流系统Agent建模方法研究[D];武汉理工大学;2007年
10 齐鹏;垂直搜索引擎分类索引系统的设计与实现[D];大连海事大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 苏新宁;汉语词切分标引算法的改进[J];情报学报;1996年06期
【相似文献】
中国期刊全文数据库 前10条
1 郑榕增;林世平;;基于Lucene的中文倒排索引技术的研究[J];计算机技术与发展;2010年03期
2 梁弼;王光琼;邓小清;;基于Lucene的全文检索系统模型的研究及应用[J];微型机与应用;2011年01期
3 朱虹,吴林;倒排索引压缩及在RDBMS全文检索中的实现[J];华中科技大学学报(自然科学版);2005年04期
4 吴恒山,刘兴宇,左琼;一种基于可扩展散列表的倒排索引更新策略[J];计算机工程;2004年08期
5 满鹏;;全文检索的原理与实现探讨[J];现代情报;2009年07期
6 梁正友;陈涛;;基于ProActive的分布式并行网页索引算法[J];计算机工程;2009年20期
7 郭利刚;姚寒冰;;基于倒排索引的密文数据库检索方法研究[J];计算机安全;2010年09期
8 吐尔洪·吾司曼;维尼拉·木沙江;;维、哈、柯多语种搜索引擎中索引器的研究[J];新疆大学学报(自然科学版);2011年02期
9 李寅珠;;融合关键字搜索的XML非结构化查询[J];知识经济;2011年13期
10 刘雪芹;吴红霞;张立华;;单汉字全文检索研究[J];情报杂志;2007年01期
中国重要会议论文全文数据库 前10条
1 朱虹;吴林;;DM4全文检索机制的设计[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 朱虹;黄欢;;DM4全文检索机制的改进[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 刘小珠;孙莎;曾承;彭智勇;;基于缓存的倒排索引机制研究[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张谊岩;张霞;;OpenBASE中BLOB型文本数据全文检索的设计与实现[A];第十六届全国数据库学术会议论文集[C];1999年
5 李栋;史晓东;;对搜索引擎中倒排索引更新策略的研究和改进[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 李明宙;罗艳;王宗义;;Lucene全文检索引擎的研究及应用[A];广西计算机学会2010年学术年会论文集[C];2010年
7 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;维、哈、柯全文搜索引擎中查询处理研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 范志新;王宁;陶晓鹏;施伯乐;;开放式图书馆汉语检索结构[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
9 韩近强;杨冬青;王腾蛟;姬生乐;;关系数据库CoDB中XML全文检索的设计与实现[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
10 董祥千;左志宏;刘强国;;Lucene倒排索引文件的实现与优化[A];四川省通信学会2006年学术年会论文集(二)[C];2006年
中国重要报纸全文数据库 前10条
1 张伟;增强全文检索与搜索功能[N];中国计算机报;2008年
2 松涛;雅风全文检索器[N];中国电脑教育报;2004年
3 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
4 南京邮电学院 李建忠;索引器与操作符重载[N];计算机世界;2002年
5 温苏刚 姚大红;在PB中实现全文检索[N];计算机世界;2002年
6 冯贝;“工”于全文检索的数据库系统[N];科技日报;2001年
7 宁夏数据通信局 刘君;SQL Server 2000中全文检索的使用[N];计算机世界;2002年
8 宁夏 刘君;SQL Server中全文检索的使用[N];电脑报;2001年
9 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
10 本报记者 孙志永;国信贝斯iBASE 为数据库添加“全文检索”[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
2 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
3 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
4 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
5 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
6 马刘凤;中国古书凡例研究[D];武汉大学;2009年
7 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
8 程传慧;大型复杂组合式P2P网络系统的研究[D];武汉理工大学;2006年
9 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
10 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
2 林义明;全文检索及相关技术研究[D];辽宁科技大学;2012年
3 谢柏楠;基于全文检索的快速查询系统研究与实现[D];华南理工大学;2012年
4 卢光华;基于Lucene的全文检索研究与应用[D];吉林大学;2009年
5 武毅;基于Lucene.Net的全文检索研究与应用[D];国防科学技术大学;2011年
6 葛振国;基于Lucene的数据库全文检索研究与应用[D];西南石油大学;2010年
7 万方;协同系统中全文检索功能模块的设计与实现[D];电子科技大学;2012年
8 蒋励;关系数据库中教育信息全文检索效率的改进研究与实现[D];天津师范大学;2011年
9 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
10 曾旭;全文检索引擎应用于邮件的设计与实现[D];电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026