收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Nutch的农业搜索引擎检索结果排序策略的研究

王春花  
【摘要】: 搜索引擎是从互联网上快速有效的定位信息的一门技术,其中和用户关系最紧密的是检索结果排序技术,其结果直接反应给用户体验感受,从某种程度上讲,好的排序结果成就好的搜索引擎。而随着我国计算机在农村的普及,农业信息剧增,农业搜索引擎的研究成为热门课题。本研究的目标是对搜索引擎检索结果排序策略进行深入分析研究,改进传统的PageRank算法,最终把它应用在基于Nutch建立的农业搜索引擎中。 本文首先分析搜索引擎的工作流程,研究网页抓取、索引建立、检索执行等环节含有的影响排序的因素;其次分析排序流程,找到了影响排序的关键性因素及其基本原理;再次分析了经典的排序算法及其实现过程;接着分析Nutch开源搜索引擎,研究其排序算法,分别从基于超链接分析的权威性和基于内容分析的相关性两方面对算法进行改进;最后在Nutch基础上,通过对网页抓取入口地址控制建立了农业类搜索引擎,并运用提出的改进排序算法对其进行改进。 具体实验中,给出了构建基于Nutch的农业搜索引擎的具体流程。采用了通用的P@n评估法和首页重复率评估法,对改进算法评估。通过具体实验,从量化的角度分析了算法效率,得出改进算法的用户满意度和首页重复率比改进前的算法提高了7%左右。 本文的主要成果是对PageRank算法超链接分析权威性的改进,包括两个方面:基于深2度链接分析的父网页非平均传递权值的思想实现和对新创资源与孤立资源的补偿策略。主要分析了以上两个创新的基本改进思路,提出了具体计算公式,并进行了简要分析说明。而对内容分析的相关性研究主要引入了农业主题向量概念和计算构造方法,并给出了文档的农业相关度计算公式。最后,进一步综合形成了引入内容分析的基于父子页面相关性的非平均传递权值的算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高飞;刘云;;Nutch中文分词方法的实现[J];网络安全技术与应用;2008年09期
2 王巧玲;彭静;王春红;;中文分词技术的研究及在Nutch中的实现[J];科技信息;2011年19期
3 付光;;面向招聘信息主题搜索引擎的研究与设计[J];广西教育;2011年18期
4 张斌;周尔宁;;基于Nutch的分布式纺织垂直搜索引擎研究[J];电脑知识与技术;2009年21期
5 蔡小艳;沈巍;胡婷婷;曹永刚;;Nutch中文分词插件的编写与实现[J];信息技术;2010年02期
6 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
7 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
8 申晋;;基于Lucene和Nutch的林业垂直搜索引擎的研建[J];农业网络信息;2008年04期
9 蔡小艳;寇应展;沈巍;郑伟;;Nutch-0.9中JE中文分词的实现[J];科学技术与工程;2008年17期
10 刘高原;张国平;;基于Nutch的搜索引擎技术[J];平顶山学院学报;2008年05期
11 蔡小艳;寇应展;沈巍;郑伟;;汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现[J];军械工程学院学报;2008年05期
12 张锦炘;;基于Nutch的中文搜索引擎的构建[J];图书馆研究与工作;2009年01期
13 王仕仲;宁龙兵;;基于Nutch的中文搜索引擎的研究与实现[J];电脑开发与应用;2009年07期
14 朱莹芳;;JAVA技术与人工智能在搜索引擎上的应用[J];硅谷;2009年24期
15 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
16 夏天;;Nutch的插件机制分析[J];广西师范大学学报(自然科学版);2010年01期
17 张敏;;中文垂直搜索引擎研究与实现[J];福建电脑;2010年06期
18 张敏;杜华;;Nutch中文分词的设计与实现[J];河北北方学院学报(自然科学版);2010年04期
19 郑小波;郑诚;封军;;基于Nutch专题搜索引擎的研究[J];微计算机信息;2010年30期
20 崔宇红;张奎;;基于Nutch的开放存取搜索引擎构建研究[J];现代图书情报技术;2010年10期
中国重要会议论文全文数据库 前1条
1 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
中国硕士学位论文全文数据库 前10条
1 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
2 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
3 鱼健榕;基于Nutch的搜索引擎系统的研究与实现[D];北京邮电大学;2011年
4 贺鹏程;基于Nutch技术的辛亥革命本体搜索引擎的设计与实现[D];华中师范大学;2011年
5 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年
6 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
7 刘凤灵;基于Nutch的漏洞垂直搜索引擎[D];北京邮电大学;2011年
8 夏树倩;基于Nutch的学术搜索引擎的研究与实现[D];东北大学;2011年
9 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
10 任妤;基于Nutch的科技主题搜索引擎Crawler的研究与实现[D];内蒙古科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978