收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的期刊网站内信息检索系统的设计与实现

金鹤  
【摘要】:随着互联网经济的迅速发展,信息检索技术的使用已经成为各大企业进行网络营销的一种很重要的手段。对于一个拥有大量数据的网站来说,实现自己的站内检索机制是克服通用搜索引擎索引内容不完整、更新周期缓慢、缺乏个性化等缺点的最佳方法。网站内部数据的不断丰富,使站内检索逐渐成为继通用搜索和垂直搜索之后的又一个热点。本文将讨论一种基于Lucene的期刊网站内信息检索系统的设计与实现。 Lucene是一个高性能,可扩展的信息检索库,通过使用Lucene我们可以给程序添加索引和检索的功能。本文从实际项目出发,按照需求分析、概要设计、详细设计与实现等步骤,对系统进行了逐步深入的分析,并在各个阶段的分析中描述了系统自动索引、关键词检索、高级布尔检索、按分类检索、索引维护、热词获取、相关词提示等功能的具体实现。 本文在需求分析阶段,明确了本系统需要完成的功能性需求和非功能性需求。在概要设计阶段确定了以Lucene作为基础,实现系统中各个索引、检索相关的模块,以规则分类的方法对期刊文章进行分类。而在详细设计与实现阶段,讲述了利用Lucene来实现期刊文章的索引、关键词检索、布尔检索、分类检索、热词获取、关联词提示、索引维护等功能的详细步骤,并且说明了特征项提取的方法以及文本分类的算法。 本文具有创造性的部分是定义了一套规则来描述文本中关键词之间的关系,又基于这套自定义的规则设计出了一套文本分类策略,并实现了使用该策略的一种文本分类器。通过对分类特征(关键词之间的关系)与特征权重的精心选取,分类器对于一般分类的准确率可以达到80%以上,而对于某些特征明显的分类而言,准确率甚至可以达到90%以上。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前9条
1 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
2 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期
3 唐铁兵;陈林;祝伟华;;基于Lucene的全文检索构件的研究与实现[J];计算机应用与软件;2010年02期
4 陈志新;;搜索引擎的发展趋向和建设思路[J];农业图书情报学刊;2009年10期
5 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
6 李幸;宗成庆;;引入标点处理的层次化汉语长句句法分析方法[J];中文信息学报;2006年04期
7 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
8 侯汉清;;分类法的发展趋势简论[J];情报科学;1981年01期
9 黄昌宁,张小凤;自然语言处理技术的三个里程碑[J];外语教学与研究;2002年03期
中国重要会议论文全文数据库 前2条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前2条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前3条
1 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
2 肖亮;垂直搜索引擎的研究与实现[D];北京交通大学;2008年
3 王波;基于Lucene的企业搜索引擎[D];北京邮电大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期
2 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
3 闫淑红;;基于搜索引擎的信息查询技术研究[J];办公自动化;2011年06期
4 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
5 陆近春;;科学技术体系与文献检索语言[J];北京图书馆馆刊;1993年Z2期
6 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
7 白国应;中国文献分类学研究中的十大结合[J];图书与情报;1999年01期
8 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
9 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期
10 陶镇威;周雨程;;基于Compass框架的高级搜索系统的设计与实现[J];重庆理工大学学报(自然科学);2011年08期
中国重要会议论文全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
2 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
3 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 苏伟峰;李绍滋;李堂秋;尤文建;;可分义原向量空间中的跨语种文本过滤模型[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 张亮;陈家骏;;基于大规模语料库的句法模式匹配研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 黄建传;宋柔;;标点句标注研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 张庆国;章成志;薛德军;张君玉;;基于K最近邻的隐含主题自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
7 WANG Jiayue;[D];广东外语外贸大学;2003年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 方向红;基于内涵逻辑的现代汉语连接词及关联句式语义研究[D];上海师范大学;2004年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
5 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
6 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
7 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
8 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
9 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
10 李承;基于Portal平台的大型跨国企业Intranet设计与优化[D];浙江大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 张琪玉;缺乏抽词词典是自动抽词标引难以普及的主要原因[J];图书与情报;1998年02期
4 常宝儒;关于《现代汉语频率词典》的编纂问题[J];辞书研究;1986年04期
5 吴祐昕;顺风;;网络搜索引擎的发展趋势分析[J];当代传播;2007年03期
6 李武装;;基于语义的企业搜索引擎的研究与实现[J];电脑知识与技术(学术交流);2007年08期
7 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
8 陈志新;如何理解分类搜索引擎的类目体系[J];大学图书馆学报;2004年02期
9 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[J];广西科学院学报;2006年04期
10 邓维婕;;网络搜索引擎的原理、技术和发展[J];电脑与电信;2008年05期
中国博士学位论文全文数据库 前1条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
中国硕士学位论文全文数据库 前1条
1 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 孔田野;李万龙;张海鸥;;基于药品本体的信息检索系统研究[J];河北科技大学学报;2008年03期
2 王志勇;耿亦兵;;统计语言模型在文本信息检索中的应用[J];中国索引;2003年01期
3 周智佑;;信息检索系统评价——国内进展述评[J];情报科学;1993年04期
4 毛雅君;信息检索系统的检索效率影响因素研究进展[J];医学情报工作;2001年03期
5 沈志朝,张丽华,李圆;网络环境下的信息检索新技术[J];华中电力;2005年05期
6 杨建林,邓三鸿;信息检索中相关性的维度与度量[J];情报理论与实践;2005年06期
7 付燕宁;金龙飞;王开锋;刘磊;;基于本体的信息检索系统的设计与实现[J];计算机应用研究;2006年11期
8 隆捷;;信息检索可视化研究[J];情报学报;2006年S1期
9 薛蕴;;现代信息检索对图书馆信息服务的影响[J];科技情报开发与经济;2007年06期
10 禹蒲阳;刘艳斌;;基于Web服务架构的数字图书馆信息检索系统的设计与实现[J];邵阳学院学报(自然科学版);2007年01期
中国重要会议论文全文数据库 前10条
1 倪耀群;许洪波;谭婧霞;唐慧丰;程学旗;孟丹;;基于优化维汉双语词典的多语言信息检索系统[A];第六届全国信息检索学术会议论文集[C];2010年
2 林耀燊;李文捷;黄绵辉;;信息检索系统中的自然语言处理[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
3 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
4 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
6 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
7 陈康;武港山;;基于Ontology的信息检索技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 张乃岳;张学燕;;基于个体词语相似度的定制化动态信息检索[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 吕碧波;赵军;;基于相关文档池建模的查询扩展[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 ;整合信息资源 提升服务能力[N];中国计算机报;2005年
2 记者 刘安;“全国档案报刊文献及科技成果信息检索系统”通过鉴定[N];中国档案报;2002年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 本报记者 武天敏包国俊 本报特约记者 郭瑞宏;在浩瀚信息海洋“导航”[N];解放军报;2007年
5 李立红;承钢持续推进多项信息化建设与应用[N];中国冶金报;2008年
6 徐莲芝;24团 农企联手打造无公害农产品基地[N];农民日报;2008年
7 王伟 史忠植;通用与专业[N];计算机世界;2006年
8 通讯员 陈班雄 邹俊 本报记者 于莘明;通向科技巅峰的无名台阶[N];科技日报;2009年
9 张建华;淄博局企业备案实现100%[N];中国国门时报;2008年
10 叶静;站内检索力助网站信息整合[N];人民邮电;2001年
中国博士学位论文全文数据库 前10条
1 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
2 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
5 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
6 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
7 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
8 韩忠明;基于XML的数据查询和信息检索集成化系统研究[D];东华大学;2006年
9 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
10 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
2 倪良胜;面向海量实时数据信息检索系统的研究与实现[D];东南大学;2004年
3 赵爽;软件测试在信息检索系统中的应用[D];西安电子科技大学;2008年
4 王宏霞;基于ONTOLOGY的信息检索系统的研究[D];河北工业大学;2005年
5 李勇;关于本体整合的研究及其在供应链管理中的应用[D];天津大学;2005年
6 陈朋;基于网络的集成化信息检索平台研究[D];武汉大学;2005年
7 彭鹏;基于本体的信息检索策略优化研究[D];吉林大学;2007年
8 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
9 王娜;XML在信息检索系统中的应用及评价研究[D];武汉大学;2005年
10 赵鹏;高校数字图书馆网站建设的研究[D];山西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026