收藏本站
《郑州大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于DotLucene网站全文搜索系统的实现

廖继东  
【摘要】: 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。 搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。 本文首先介绍了Web搜索引擎的基本原理、核心技术和处理流程,并对如何提高搜索引擎的精确度和相关度进行了深入研究,对其核心算法进行了讨论和评估。本文重点开发了Web站内信息搜索系统。本文从基于C#的全文索引引擎DotLucene软件包入手,详细说明了Web网站站内信息搜索系统的开发过程和方法。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 曹一冰;华一新;汪军;王关军;;基于DotLucene的全文检索及其在GIS中的应用[J];测绘工程;2011年06期
2 郭邵萌;唐鑫泉;白深模;;基于DotLucene的桌面搜索引擎的设计与实现[J];鲁东大学学报(自然科学版);2012年01期
中国硕士学位论文全文数据库 前1条
1 陈淑华;企业短信互动系统设计及实现关键技术研究[D];中南大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 丁璇,侯汉清,章成志;中文网页标引源主题表达能力的调查统计[J];大学图书馆学报;2002年06期
2 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
3 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
4 傅赛香,严小卫;网页分类浏览器CBrowser的设计与实现[J];计算机应用;2001年12期
5 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
6 孙西全;马瑞芳;李燕灵;;基于Lucene的信息检索的研究与应用[J];情报理论与实践;2006年01期
7 林端宜,陈榕虎;搜索引擎研究新技术[J];情报探索;2005年03期
8 邹涛,黄源,张福炎;基于WWW的文本信息挖掘[J];情报学报;1999年04期
9 唐培和,杨新论,刘浩;Google搜索引擎剖析[J];情报杂志;2004年08期
10 李伟超,王兰敬;论搜索引擎的工作机制和发展趋势[J];现代情报;2002年12期
中国硕士学位论文全文数据库 前4条
1 许林杰;中文文本分词研究[D];山东师范大学;2003年
2 王晓华;基于内容的搜索引擎技术研究及其应用[D];郑州大学;2005年
3 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
4 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 李晓明;对中国曾有过静态网页数的一种估计[J];北京大学学报(自然科学版);2003年03期
3 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 朱慧;;新一代中文Google典型搜索技术及其发展趋势[J];图书与情报;2008年06期
7 曹一冰;华一新;汪军;王关军;;基于DotLucene的全文检索及其在GIS中的应用[J];测绘工程;2011年06期
8 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
9 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
10 苑雪;;网络中的安全隐患及对策[J];产业与科技论坛;2009年05期
中国重要会议论文全文数据库 前8条
1 田鹤楠;杜军平;;产品质量食品安全互联网舆情监控系统设计[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
2 刘雪芹;齐大朝;;基于robot的全文搜索引擎原理剖析[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
3 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
4 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 李斌;陈小荷;方芳;徐艳华;;高频最大交集型歧义字段问题研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
8 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
3 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
4 李章维;基于多Agent的数据广播信息平台研究及在远程教育中的应用[D];浙江大学;2004年
5 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
6 张景涛;基于多智能主体的炼化企业ERP系统应用研究[D];天津大学;2004年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
3 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
4 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 周月红;基于Lucene的站内搜索引擎的设计与开发[D];华东理工大学;2011年
7 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
8 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
9 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
10 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 田翔华;杨扬;;基于知识点题库系统模型构建及其应用系统的研究[J];电脑知识与技术;2009年04期
2 肖创柏,李玉鉴,郑广顺,向和平;基于全文检索技术的商业信函处理系统的设计与实现[J];计算机应用研究;2004年01期
3 张培军;;网络搜索引擎的现状及发展[J];科技情报开发与经济;2008年09期
4 余正涛,高盛祥,纪鹏程;RDAQAS中问句相似度计算方法研究[J];昆明理工大学学报(理工版);2004年02期
5 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
6 游荣彦,邓志才,李传宏;向量空间模型中特征词的区分度的定量研究[J];中文信息学报;2002年03期
7 冼健;莫玄朗;奚建清;;基于问题模式匹配的智能答疑系统原型[J];山东大学学报(理学版);2006年03期
8 殷卫霞;;基于全文检索引擎Lucene的应用研究[J];泰州职业技术学院学报;2009年01期
9 李占波;廖继东;李华;;基于DotLucene的垂直搜索引擎的研究[J];微计算机信息;2007年24期
10 商杰;朱战立;;数据库连接池技术研究与应用[J];现代电子技术;2007年05期
中国博士学位论文全文数据库 前1条
1 周科松;全文检索与GIS一体化及在应急管理中的应用研究[D];华东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 江毅铭;专业搜索引擎索引技术的研究与实现[D];北京化工大学;2005年
2 张旭;一个基于词典与统计的中文分词算法[D];电子科技大学;2007年
3 王卫玲;web文本分类中特征向量优化技术研究[D];山东师范大学;2007年
4 黄桂花;基于动态连接池的数据集成中间件的研究与实现[D];广西师范大学;2007年
5 王超;领域智能答疑系统[D];上海师范大学;2007年
6 莫海波;潜在语义索引分类模型的研究与改进[D];大连理工大学;2008年
7 刘期勇;基于LUCENE的多数据源全文检索系统的设计与实现[D];重庆大学;2008年
8 陈文博;中文文本自动分类系统的研究与实现[D];吉林大学;2008年
9 于明达;.NET多层架构在内容管理系统的设计研究[D];大连海事大学;2009年
10 曹悦;基于AJAX技术的网上考试系统的设计与实现[D];沈阳工业大学;2010年
【二级引证文献】
中国期刊全文数据库 前1条
1 郭年琴;曹建坤;;基于Lucene.net的有色冶金信息化服务平台文献检索系统的研究与实现[J];江西理工大学学报;2013年01期
中国硕士学位论文全文数据库 前1条
1 卢绍伟;公安部门短信息平台系统设计与实现[D];上海交通大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 苏培成;面向21世纪的中国语文现代化[J];北京大学学报(哲学社会科学版);2001年01期
2 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 李红松,田盛丰;Agent技术在Internet中的应用[J];电脑与信息技术;2001年04期
5 黄君羡,欧薇;浅谈互联网信息挖掘技术[J];广东交通职业技术学院学报;2003年04期
6 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
7 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
8 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
9 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
10 钟涛,陈新明,万钧,张世永;中文文本WEB搜索引擎的设计与实现[J];计算机工程与应用;2001年17期
中国硕士学位论文全文数据库 前1条
1 薛鹏军;基于知识库的中文网络检索工具——经济信息智能搜索引擎研究[D];南京农业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 何鹏,徐立臻,庄晓青;模糊聚类在Web信息检索中的应用研究[J];计算机工程;2002年10期
2 赵力;;网站全文搜索引擎技术的初步研究及应用[J];科技信息;2009年11期
3 严良达;;基于Lucene搜索引擎的设计与实现[J];宁波职业技术学院学报;2009年02期
4 李俊青;季文天;彭菊萍;;局域网FTP搜索引擎的建立[J];计算机与信息技术;2007年09期
5 龚鸣敏;;Web搜索引擎的设计和实现[J];软件导刊;2006年07期
6 孙鉴亮;;智能型搜索引擎[J];科技咨询导报;2007年15期
7 庞士梅;;覆盖聚类在Web信息检索中的应用研究[J];大学图书情报学刊;2006年04期
8 李秀学;;智能型搜索引擎研究[J];软件导刊;2006年15期
9 刚春燕;吴恩斯;;基于MAS兴趣模型的搜索引擎设计[J];计算机与信息技术;2009年04期
10 吴若健;;Web行为分析在搜索引擎精准营销中的应用[J];现代经济信息;2009年14期
中国重要会议论文全文数据库 前10条
1 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 刘振鹏;常晓萌;张杨;宋晓静;周冬冬;;基于QoS的语义Web服务选择[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 袁柳;李战怀;;基于语义搜索的Web服务匹配[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
6 姚静;郑佳谦;徐隽;牛军钰;;Intranet中Web对象的属性挖掘[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
7 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 雷景生;康耀红;;基于模糊相关的Web文档分类方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 买买提依明·哈斯木;维尼拉·木沙江;;研究维吾尔文Web文档聚类算法设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
2 本报记者 边歆;八大安全威胁预示Web安全新变化[N];网络世界;2010年
3 ;HTML5[N];人民邮电;2010年
4 ;有关社交Web的安全建议[N];网络世界;2009年
5 本报记者 汤浔芳;企业级Web 2.0很难突破10%[N];计算机世界;2010年
6 赵晓涛;Web安全 服务为王[N];网络世界;2008年
7 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
8 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
9 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
10 闫冰;“推”出Web交付新天地[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
4 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
5 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
6 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
7 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
8 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
9 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
10 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
2 黄华;基于搜索引擎和语义的Web服务发现研究[D];武汉理工大学;2011年
3 李建林;基于Lucene的Web搜索引擎的研究[D];兰州理工大学;2010年
4 廖继东;基于DotLucene网站全文搜索系统的实现[D];郑州大学;2007年
5 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
6 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年
7 周晔;一种增量式并行Web信息采集系统[D];暨南大学;2005年
8 王磊;基于Web数据挖掘的搜索引擎设计与实现[D];解放军信息工程大学;2010年
9 马恩穹;基于Web数据挖掘的个性化搜索引擎研究[D];南京理工大学;2012年
10 林子熠;基于模板的Web新闻搜索技术的研究与实现[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026