收藏本站
《浙江大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

专业搜索引擎的研究与设计

寿周翔  
【摘要】:Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,因而难以满足专业用户(如某一领域的科技工作人员)对信息的需求。 本文主要的研究工作是针对搜索引擎的一个发展方向——专业搜索引擎,进行理论研究分析和具体设计。在专业搜索引擎的信息采集方面,为获取最优搜索路径,本文采用非贪婪的IpageRank策略指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效的实现搜索引擎的专用化。在信息检索的相关性方面,本文采取的方法是基于网页内容和结构的向量空间模型算法。针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,本文应用本体论通过概念来执行搜索,同时通过使用链接文档及相关的概念来进行过滤及排序。 本文设计的系统还在线提供二种数据挖掘技术,关联规则和聚类,让使用者方便地探索并且浏览搜索出来的文件。 本文的主要工作如下: 1.分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略主要存在的缺陷。 2.针对中文分词中歧义字段的切分问题,着重研究了交集型歧义字段的切分,并提出相应的分类解决方法。 3.针对专业搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的IpageRank搜索策略,并采用改进的VSM向量模型法对网页进行进一步的相关性过滤。 4.针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,我们提出基于本体论的排序算法,利用搜索词的本体语义来确定及排序相关的Web文档,以此来改进在文本检索中出现的同义,岐义及上下文敏感等问题。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP391.3

【相似文献】
中国期刊全文数据库 前10条
1 王兰成;;MNPOS:军事网络舆情分析系统研究[J];图书情报工作;2011年06期
2 朱雪莲;;专用Web信息收集系统的设计和实现[J];煤炭技术;2011年08期
3 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
4 蒋若珊;;医学信息检索途径和定制服务方法研究[J];咸宁学院学报;2011年04期
5 罗桂兰;段发梅;张丽娜;朱翻;刘朝明;;一种改进的BNS网络论坛搜索算法[J];大理学院学报;2011年04期
6 张利江;郭进利;李松伟;;河南省县级医院网上信息服务现状调查研究[J];价值工程;2011年21期
7 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
8 宋宝贵;田宝彩;;关于垂直搜索引擎的研究与思考[J];科技传播;2011年16期
9 刘金松;;搜索引擎的原理及spider程序浅析[J];电脑知识与技术;2011年25期
10 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
中国重要会议论文全文数据库 前10条
1 唐崇忻;;专业搜索引擎在高校图书馆个性化信息服务中的应用[A];福建省图书馆学会2008年学术年会论文集[C];2008年
2 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 李贺华;付鹤岗;;多Agent Web信息检索应用研究[A];2008年计算机应用技术交流会论文集[C];2008年
4 袁特;顾新建;胡恒杰;许琦;;一种企业竞争情报系统的研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
5 王宁;王敏;冷荣新;;谈互联网上生物医学信息资源的获取[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
6 戴黎春;;Internet上的花式纱线资源[A];第十三届全国花式纱线及其织物技术进步研讨会论文集[C];2006年
7 高莉;;医学参考文献的查询与应用[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
8 耿涛;;Web日志分析在电子数据取证中的应用[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
9 朱凯;;网络资源的应用[A];中华预防医学会预防医学情报专业委员会第十六届学术交流会论文集[C];2005年
10 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
2 李壮;专业搜索引擎涤荡搜索市场[N];中国高新技术产业导报;2005年
3 本报记者 童可;搜索引擎竞争升温行业细分时代来临[N];证券时报;2005年
4 巫宁;旅游专业搜索引擎风生水起[N];中国旅游报;2005年
5 本报记者  孙书博 郭望;搜索医药业的“百度”[N];医药经济报;2006年
6 本报记者  谢光飞;房地产专业搜索引擎要分市场一杯羹[N];中国经济时报;2006年
7 林洁珊;专业搜索引擎 特别信息一网打尽[N];江淮时报;2006年
8 记者  李佳师;朱剑涵:专家搜索引擎的商业价值[N];中国电子报;2007年
9 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
10 本报记者  李国训 实习记者 褚曼;雅虎中国重回门户[N];财经时报;2006年
中国博士学位论文全文数据库 前4条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 王德吉;复杂环境下自适应智能决策支持系统研究[D];中国科学技术大学;2007年
3 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 张玲;智能信息采集搜索策略研究[D];湖南大学;2004年
2 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
3 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
4 张晓龙;网络蜘蛛垂直搜索算法的改进与实现[D];哈尔滨工程大学;2008年
5 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
6 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
7 邹庆欣;基于Agent专业搜索引擎的研究[D];大连海事大学;2008年
8 赵士青;专业搜索引擎关键技术的研究[D];沈阳工业大学;2007年
9 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
10 何源源;迅雷资源搜索引擎的研究与实现[D];西北工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026