收藏本站
《中国科学技术大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

农业复杂自适应搜索模型研究及实现

黄河  
【摘要】: 截止2009年底,互联网上的涉农网站已超过30000个,积累了丰富的农业技术、市场信息、政策法规、农业新闻等信息资源。然而由于互联网信息资源缺少统一的形式化表达,信息异质、异构、分散、重复现象严重,形成“信息孤岛”,很难发挥农业信息资源的集成效用。同时,由于农户文化水平、计算机操作能力的限制,“三农”用户很难使用传统的搜索工具去直接交互、捕捉和筛选个性化信息。面对海量的农业信息资源,“三农”用户只能望洋兴叹,“信息淹没”问题严重。因此,建立专业化、个性化、智能化的农业搜索模型及相应的搜索引擎系统意义重大。 本文针对互联网的开放性、分散性、层次性、演化性、巨量性等本质特性,提出了一种农业复杂自适应搜索模型。该模型建立农业信息资源发现、信息获取、信息处理与用户服务主体联盟,通过主体与网络资源、主体与网页内容和网页表现形式、主体与用户个性化需求之间的学习与适应机制,实现对复杂、动态的互联网环境的适应,从而提高农业搜索引擎的查全率与查准率,解决新一代搜索引擎面临的核心问题。 针对农业互联网资源的动态性和高度分散性特点,本文提出了AADWED(Adaptive Agriculture Deep Web Entry Discovery)算法,一种自适应农业领域Deep Web资源发现算法。该算法通过不断从样本中学习到合适的查询表达式提交给通用搜索引擎来高效获取领域Deep web资源入口页面。实验证明,该算法大幅度提高农业领域Deep Web资源发现的收益率。 针对对Web站点页面表现形式具有多样性、动态性等特点,本文提出了一种自适应的Web结构化数据提取算法。该算法在MDR算法的基础上,提出了一种基于相对熵的页面去噪算法,从而提高了Web结构化数据抽取的准确率。 针对互联网存在的大量农业领域数据描述不统一、不完整、冗余等问题,本文重点研究了农产品价格、供求等信息的空间属性自动标注和基于语义的数据冗余处理问题,提高了数据的质量和可用性,为进行精确检索和可视化分析服务提供了基础。 针对不同Web用户的个性化需求,本文提出了一种基于FCA的自动挖掘用户兴趣主题算法。挖掘出的兴趣主题模式被描述成一组形式化概念,兴趣主题模式之间的联系被显示的在概念格中描述出来,利于用户理解。本文还提出了一种文档和用户感兴趣主题相关度的计算方法。通过对比实验,证明该方法是有效的。 最后,本文基于所提出的农业复杂自适应搜索模型,设计并实现了农业垂直搜索引擎系统“中国搜农”,该系统已经开始大规模对外公开服务,并已在多个省市得到推广和应用。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
2 ;关键词搜索[J];每周电脑报;2000年38期
3 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
4 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
5 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
6 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
7 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
8 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
9 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
10 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
7 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
8 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026