收藏本站
《电子科技大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Nutch的搜索系统的研究

尹辉  
【摘要】: 随着互联网技术的发展,网络信息资源的急剧增长,网民人数越来越多,网络在人们的日常生活和工作的作用越来越大,因此人们越来越多地关注如何快速有效地从海量的网络信息中,提取出潜在的、有价值的信息,使之有效地在工作和生活中发挥作用。搜索引擎(Search Engine)技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。 搜索引擎是一个对Web上的信息资源进行搜集整理,然后提供查询服务的系统,实际是Web上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻Web信息,将其进行分类、建立索引,然后把索引的内容存放到索引库中,便于以查询方式提交给用户。 自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。 本文对搜索引擎的架构、原理、组成、工作流程做了阐述。搜索引擎一般由搜索模块、索引模块、检索模块和用户接口组成。搜索模块主要功能是从Web上下载页面;索引模块对下载的页面内容进行分析并建立索引;检索模块实现用户查询关键词和目标文档匹配度的计算;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。本文在分析了搜一引擎的三个主要组成部分之后对如何提高搜索引擎的精确度和相关度进行了深入研究,对中文分词技术作了较详细的讨论,对其核心算法做了分析。 本文重点开发了中科慧创科技有限公司的补丁网站搜索系统。本文从介绍Nutch搜索引擎入手,详细说明了中科会会慧创科技有限公司的补丁网站搜索系统开发过程和方法,并且利用中国科学院计算技术研究所开发的汉语词法分析系统ICTCLAS来改进Nutch的中文分词模块,并且利用用户二次检索和重要主页加分等方法,对原有的基础排序算法进行了改进,提高了搜索结果的精确度。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
2 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
3 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
4 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期
5 金瑜,陆启明,高峰;基于上下文相关的最大概率汉语自动分词算法[J];计算机工程;2004年16期
6 庄毅,黎浩宏;搜索引擎技术现状及发展动向[J];计算机时代;2002年08期
7 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
8 王香莲;Google和百度两种搜索引擎比较研究[J];现代图书情报技术;2004年08期
9 李伟超,王兰敬;论搜索引擎的工作机制和发展趋势[J];现代情报;2002年12期
10 陈拥军,孟晓明,庞磊;ASP的安全漏洞与网络信息安全防护策略研究[J];计算机应用研究;2004年07期
中国硕士学位论文全文数据库 前1条
1 许林杰;中文文本分词研究[D];山东师范大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 马宏;;基于ASP开发的网站的安全性[J];科技情报开发与经济;2006年16期
2 张景元;巴连良;;基于Web的科研信息管理系统[J];计算机工程与设计;2007年19期
3 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 查志华;李伟;;搜索引擎的技术现状及发展趋势[J];兵团教育学院学报;2006年03期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
8 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
9 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
10 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
3 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
5 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
6 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
8 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 张冉;卡米力毛依丁;;基于论文参考文献引用分析的专业文献查询库[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
10 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
8 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 李晓丹;限定领域内基于web的智能问答系统[D];内蒙古大学;2005年
2 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
3 付小晶;基于Internet的多国货币识别接收器远程在线升级与诊断系统[D];中南大学;2005年
4 吴巍;复杂网络可视化与Link OLAP[D];北京邮电大学;2007年
5 谢华;Internet网页自动分类技术的研究[D];中南大学;2007年
6 冉德玲;智慧型教育资源网站内检索系统的研究与设计[D];华东师范大学;2005年
7 冯敏萱;面向计算机的“V_单+A_单”述补结构研究[D];南京师范大学;2003年
8 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
9 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
10 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 王继周,李成名;嵌入式移动GIS研究[J];测绘科学;2005年04期
2 余丰华,吴冲龙,刘刚;基于移动GIS的野外地质数据采集系统的设计[J];计算机应用;2004年S1期
3 陈传波,王桦;实时数据库的事务调度研究[J];计算机应用;2005年09期
4 李成名,王继周,刘勇;移动GIS的原理、方法与实践[J];武汉大学学报(信息科学版);2004年11期
5 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
6 杨海东,张莉;PageRank技术分析与搜索引擎检索效率研究[J];淮阴师范学院学报(自然科学版);2003年03期
7 文坤梅,卢正鼎,叶卫国,金莉;搜索引擎中页面更新策略的分析与改进[J];华中科技大学学报(自然科学版);2002年12期
8 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
9 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
10 吴光远,何丕廉,曹桂宏,聂颂;基于向量空间模型的词共现研究及其在文本分类中的应用[J];计算机应用;2003年S1期
中国博士学位论文全文数据库 前1条
1 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 谢荣岳;基于PDA的移动信息系统关键技术研究[D];国防科学技术大学;2004年
2 代磊;基于GIS的水库移民管理信息系统研究[D];西南大学;2006年
3 李海艳;移动GIS的概念体系研究[D];长安大学;2006年
4 张静媛;即时通文本及文件传输监控系统的设计与实现[D];西安电子科技大学;2007年
5 曹课兴;基于GIS的精准移民信息系统的开发研究[D];西南大学;2007年
6 李泽沛;基于野外数据采集的移动GIS研究[D];昆明理工大学;2008年
7 翁金象;中文文本分类研究[D];山东大学;2007年
8 张建辉;K-means聚类算法研究及应用[D];武汉理工大学;2007年
9 吴虎子;中文网页获取及自动分类技术研究[D];武汉理工大学;2007年
10 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年
【二级参考文献】
中国期刊全文数据库 前10条
1 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
4 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
5 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
6 陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期
7 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
8 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
9 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
10 梁南元;汉语计算机自动分词知识[J];中文信息学报;1990年02期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
2 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
3 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
4 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
5 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期
6 张敏;杜华;;Nutch中文分词的设计与实现[J];河北北方学院学报(自然科学版);2010年04期
7 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期
8 朱莹芳;;JAVA技术与人工智能在搜索引擎上的应用[J];硅谷;2009年24期
9 崔宇红;张奎;;基于Nutch的开放存取搜索引擎构建研究[J];现代图书情报技术;2010年10期
10 陈建峡;李倩倩;王春枝;;基于Nutch搜索引擎的E-learning系统开发[J];湖北工业大学学报;2011年05期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
3 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
4 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
5 常智荣;搜索引擎Nutch在数字图书馆中集成应用的研究与实现[D];北京邮电大学;2010年
6 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
7 陈艳斐;基于用户兴趣模型的校园网搜索引擎设计与应用[D];云南大学;2010年
8 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年
9 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
10 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026