收藏本站
《电子科技大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Lucene的Web站内信息搜索系统

刘平冰  
【摘要】:随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web 搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。 搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web 搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。 本文首先介绍了Web 搜索引擎的基本原理、核心技术和处理流程,并对如何提高搜索引擎的精确度和相关度进行了深入研究,对其核心算法进行了讨论和评估。 本文重点开发了四川省通信管理局Web 站内信息搜索系统。本文从介绍了基于Java 的全文索引引擎Lucene 软件包入手,详细说明了四川省通信管理局Web 网站站内信息搜索系统的开发过程和方法。并且利用PageRank 算法、用户二次检索和重要主页加分等方法,对原有的基础排序算法进行了改进,提高了搜索结果的精确度。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前5条
1 任惠静;;基于Lucene的面向主题搜索引擎的索引技术的研究[J];电脑知识与技术;2010年04期
2 赵峰;;基于Lucene的全文检索系统初探[J];黑龙江科技信息;2007年12期
3 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期
4 仲丽华;;数字知识产权保护实验室对于网络维权的积极作用及应用前景刍议[J];信息网络安全;2010年11期
5 祝伟华;刘期勇;;基于Lucene.Net具有用户权限的全文检索系统的应用[J];云南民族大学学报(自然科学版);2009年01期
中国硕士学位论文全文数据库 前10条
1 王甲坤;基于互联网的话题分类及敏感话题发现技术研究与实现[D];电子科技大学;2011年
2 于景茹;基于Lucene的职位垂直搜索引擎的研究与实现[D];郑州大学;2011年
3 金鹤;基于Lucene的期刊网站内信息检索系统的设计与实现[D];哈尔滨工业大学;2010年
4 张黎明;搜索技术在Portal平台中的应用研究[D];西北工业大学;2006年
5 窦亚君;Luder基于内容的文档搜索引擎[D];天津工业大学;2007年
6 周汉民;基于角色的全文检索技术的研究和实现[D];苏州大学;2007年
7 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年
8 刘加发;EBM网络搜索引擎的研究与实现[D];大连海事大学;2008年
9 陈洪猛;全文检索技术的研究与实现[D];北京工业大学;2008年
10 张弛;基于WEB服务的空间信息专业搜索引擎的应用研究[D];广西大学;2008年
【参考文献】
中国期刊全文数据库 前2条
1 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
2 李晓明,刘建国;搜索引擎技术及趋势[J];中国计算机用户;2000年09期
【共引文献】
中国期刊全文数据库 前10条
1 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
2 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
3 刘寿强;孟敬;;基于JavaLucene的分级鉴权资源管理系统的研究与实现[J];计算机安全;2012年04期
4 秦海峰;许南山;山岚;;基于P2P架构的搜索引擎技术探究[J];福建电脑;2008年07期
5 许洪超;袁培燕;;智能搜索引擎系统的建模分析[J];福建电脑;2009年08期
6 孙志东;潘懋;孙知信;闫秋艳;;轻量级自适应搜索引擎的设计与实现[J];广西师范大学学报(自然科学版);2007年02期
7 刘红莲;;基于结构挖掘的排序算法研究综述[J];信息安全与技术;2013年08期
8 王德峰;李东;;搜索引擎Google的体系结构及其核心技术研究[J];哈尔滨商业大学学报(自然科学版);2006年01期
9 顾波;;中文图书自动标引与自动分类加权设计研究[J];黑龙江史志;2009年05期
10 张春元;康耀红;伍小芹;;Web信息检索排序算法研究[J];海南大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前1条
1 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
2 刘竟;面向概念检索的农史信息门户的设计与构建[D];南京农业大学;2008年
中国硕士学位论文全文数据库 前10条
1 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
2 李珏伶;搜索引擎网页相关性评估方法设计及其在rank模型上的应用[D];北京交通大学;2011年
3 么士宇;基于分布式计算的网络爬虫技术研究[D];大连海事大学;2011年
4 王鸿;Deep web中基于领域知识的接口集成[D];西南大学;2011年
5 胡川洌;基于本体的教学资源语义检索研究[D];重庆大学;2011年
6 王慧慧;基于社会化网络帮助中心的设计与实现[D];电子科技大学;2011年
7 杨咏;基于Lucene的知识库设计与实现[D];华南理工大学;2011年
8 姚兰;网页主题概念的抽取处理及可视化实现[D];河北科技大学;2012年
9 刘玉莲;WEB信息搜集系统设计与实现的研究[D];哈尔滨工程大学;2003年
10 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 高迎,王丽君,王锡钢;Simutem:一个中文信息检索系统[J];鞍山师范学院学报;2001年03期
2 张华平,玄光哲,于贵平,刘泰然;基于JNI技术应用框架的分析和实现[J];吉林大学学报(信息科学版);2003年02期
3 周平;;Lucene全文检索引擎技术及应用[J];重庆工学院学报(自然科学版);2007年04期
4 王凌云,李琦,喻文承;Web Service与地理信息互操作[J];测绘科学;2004年01期
5 熊庆文,边馥苓;以应用服务器为中心的GIS多层体系结构研究[J];测绘信息与工程;2005年01期
6 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
7 王兴伟;王宇;;Web信息系统中基于RBAC模型的访问控制模块设计与实现[J];大连理工大学学报;2005年S1期
8 王洪香;;Java程序中乱码的由来及解决方法[J];电脑学习;2007年04期
9 赵力,刘怡龙,邹采荣,高西奇,吴镇扬;基于VQ-HMM的无教师说话人自适应方法[J];东南大学学报(自然科学版);2001年02期
10 李艳欣;;搜索引擎中中文分词的研究[J];电脑知识与技术(学术交流);2007年08期
中国重要会议论文全文数据库 前2条
1 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 张健沛;徐泼;杨静;;一种轻量级个性化搜索引擎系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前6条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 周英华;位置相关Web搜索的检索技术研究[D];中国科学技术大学;2006年
4 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
5 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
6 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘文艳;基于深度优先策略的频繁导出子图挖掘算法[D];西安电子科技大学;2009年
2 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
3 余晨;面向主题的WWW信息挖掘及实验系统TWIMS[D];中国科学院研究生院(软件研究所);2002年
4 张爱民;自然语言处理及其智能搜索引擎模型的设计研究[D];兰州理工大学;2003年
5 邹娟;企业应用集成中信息门户技术研究与开发[D];西安电子科技大学;2004年
6 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
7 史鹏辉;专业服务网站搜索引擎的设计与实现[D];大连理工大学;2004年
8 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
9 吴东华;Web信息获取技术研究[D];南京理工大学;2004年
10 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 朱学芳;冯曦曦;;面向农业主题搜索引擎设计与实现[J];安徽农业科学;2011年35期
2 张东振;张明;;基于XML的站内检索系统[J];电脑知识与技术;2010年02期
3 文小燕;马光思;;基于Flex与J2EE垂直搜索引擎的设计与实现[J];电脑知识与技术;2011年10期
4 桑书娟;王庆喜;;一种结合正向最大匹配法和互信息的中文分词算法[J];计算机光盘软件与应用;2012年07期
5 许璐蕾;周莉;汤可金;姜艳萍;;基于Lucene的垂直搜索引擎的设计和实现[J];电脑与电信;2013年03期
6 陈晓丽;杨欣蓉;王作钊;周航;赵益;沈玲玲;;面向制造业的知识搜索引擎设计[J];电脑知识与技术;2013年16期
7 康亚娟;;站内搜索的研究与实现[J];信息技术;2011年08期
8 赵恺;张伟;贺利坚;;一种基于Agent的局域网信息检索系统ALIRS[J];计算机应用与软件;2010年09期
9 王超;李书琴;肖红;;基于本体的旱区农业垂直搜索引擎研究[J];农机化研究;2013年08期
10 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期
中国硕士学位论文全文数据库 前10条
1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
2 方彬;面向盲人的个性化图书搜索系统[D];浙江大学;2011年
3 葛世海;基于J2EE的站群管理平台的设计与实现[D];电子科技大学;2010年
4 戚学磊;基于Lucene的站内搜索引擎技术的研究与应用[D];太原理工大学;2011年
5 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
6 宗宝琴;基于自然语言理解的智能检索接口技术的研究及其应用[D];河北科技大学;2011年
7 刘亚东;分布式医学搜索引擎的研究与实现[D];北京邮电大学;2011年
8 宋洪鑫;基于标签与内容的blog检索实验系统研究与实现[D];北京邮电大学;2011年
9 王旭;互联网舆情监控系统中聚焦爬虫的设计与实现[D];北京邮电大学;2011年
10 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 赵云志;统计分析法自动标引的改进[J];情报学报;2000年04期
中国硕士学位论文全文数据库 前1条
1 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 黎孟雄;;Web教学资源自动搜索系统的研究与实现[J];青岛科技大学学报(自然科学版);2008年06期
2 罗长寿;康丽;刘国靖;;基于遗传算法的主题信息搜索系统研究[J];现代情报;2009年03期
3 梁青;;解密“短信全能搜”[J];通信世界;2009年31期
4 余小鹏;;基于信息构建的电子商务网站搜索系统研究[J];情报科学;2011年05期
5 宋人杰;曹振丽;顾宁;;站内搜索系统动态摘要算法的研究[J];计算机工程与设计;2008年05期
6 贾庆莲;乔彦峰;邓文渊;;周视搜索系统对点目标的作用距离分析[J];光学学报;2009年04期
7 吕宜男;;计算机辅助搜索系统[J];机械与电子;1991年05期
8 张景中,高小山,周咸青;基于前推法的几何信息搜索系统[J];计算机学报;1996年10期
9 聂哲;特征提取搜索系统的设计与实现[J];计算机应用与软件;2004年02期
10 李越;孙彬;王东;;XQuery Web搜索系统的设计与实现[J];新疆石油天然气;2007年02期
中国重要会议论文全文数据库 前10条
1 刘雷;吕英华;杨文翰;;一种新型的漏泄电磁波搜索系统[A];电波科学学报[C];2011年
2 张雪;刘正捷;陈军亮;江彩华;;招聘网搜索系统的可用性研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
3 陆慧娟;唐文彬;程倬;王训斌;;基于WebGIS的散车配货和位置服务公共搜索系统[A];第四届和谐人机环境联合学术会议论文集[C];2008年
4 李瑜;郭俊波;虎嵩林;;一种基于发布订阅模型的博客搜索系统[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
5 张永华;洪锋;李明禄;薛广涛;;个性化的P2P内容搜索系统的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
6 黄甲平;韦芬霞;吴建盛;孙啸;;基因组调控元件识别软件的实现及各区域丰度的分析[A];第十次中国生物物理学术大会论文摘要集[C];2006年
7 周晓英;;信息构建理论的影响及其在网站建设中的应用[A];和谐社会:公共性与公共治理——2004学术前沿论坛论文集[C];2004年
8 张伟;马建庆;钟亦平;;基于滑动窗口提取和IDF过滤方法的专家搜索系统研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 周晓英;;政府网站的信息构建[A];小康社会:文化生态与全面发展——2003学术前沿论坛论文集[C];2004年
10 张雪;刘正捷;陈军亮;江彩华;;可用性研究方法在网站信息构建评估中的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 李彬彬;蓝帆、网擎携手打造一流搜索引擎[N];中国商报;2000年
2 Chris Kanaracus沈建苗 编译;企业搜索的未来[N];计算机世界;2008年
3 ;首家中文商业搜索系统上线[N];人民邮电;2006年
4 ;信息与数据的共享[N];中国电脑教育报;2005年
5 张学琦;厂商发力企业级搜索 国内市场待开拓[N];中国电子报;2008年
6 孙琎;牵手新闻集团Google巩固广告市场地位[N];第一财经日报;2006年
7 中国人民大学信息资源管理学院教授 周晓英;网站信息构建的要素和方法[N];中国计算机报;2007年
8 记者  李佳师;朱剑涵:专家搜索引擎的商业价值[N];中国电子报;2007年
9 本报记者 康健;27岁的搜狐副总裁:王小川曾经被抛弃[N];第一财经日报;2006年
10 本报记者 杨明;“新华搜索”:官办搜索春天到来?[N];民主与法制时报;2008年
中国博士学位论文全文数据库 前10条
1 戴彬;基于对等网络的分布式网络电话系统关键技术研究[D];华中科技大学;2006年
2 朱明杰;互联网搜索系统中的高性能查询问题研究[D];中国科学技术大学;2009年
3 韦世奎;基于信息融合的多媒体内容搜索[D];北京交通大学;2010年
4 范欣;针对移动设备的跨媒体网络信息检索及自适应信息显示研究[D];中国科学技术大学;2007年
5 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
6 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
7 朱凡微;大规模异构Web的方面搜索研究[D];浙江大学;2012年
8 曹海傧;海量视频的分布式协作处理与检索研究[D];中国科学技术大学;2013年
9 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
10 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 朱洪涛;垂直门户网站产品搜索系统的设计与实现[D];北京邮电大学;2010年
2 姚静;基于百科的中文知识搜索系统的设计与实现[D];哈尔滨工业大学;2011年
3 陈相如;针对结构化商品数据的多样性搜索系统的设计与实现[D];上海交通大学;2013年
4 李雪;旅游个性化搜索系统的研究与实现[D];北京邮电大学;2013年
5 朱瀛;商品搜索系统中商品名称分析子系统的设计与实现[D];南京大学;2013年
6 范能科;基于爬虫的小企业搜索系统的设计与实现[D];大连理工大学;2012年
7 宋越;GPS搜索系统监测平台的分析与设计[D];北京交通大学;2010年
8 陈晨;基于兴趣多边形的个性化搜索系统的研究与实现[D];复旦大学;2010年
9 马伟良;C2C电子商务网站的搜索系统设计[D];复旦大学;2010年
10 方彬;面向盲人的个性化图书搜索系统[D];浙江大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026