收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

主题型搜索引擎的研究与实现

侯震宇  
【摘要】: Tnternet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,提出了将基于内容和基于链接的搜索技术相结合的思想,设计了一个面向主题的搜索引擎iRobot系统,阐述了它的结构和设计开发原理。 论文共分三个部分。第一部分(第一章)为总论,阐述了网络信息检索发展的现状和搜索引擎发展的不足,指出了主题型搜索引擎的概念和进行研究的必要性。第二部分(第二章)为设计iRobot系统所涉及的关键技术的研究。本文系统阐述了信息检索的原理和搜索引擎技术,并对网络信息索引、本体论、网络挖掘、信息过滤、智能代理、网络信息检索算法做了深入的剖析。第三部分(第三到第七章)为iRobot的具体实现部分,在上述理论分析的基础上给出了iRobot系统的设计思想和原则,分析了iRobot的工作流程,并详细的介绍了iRobot的结构和实现技术。 iRobot系统是一个面向主题的搜索系统,用于为专业人士或机构搜集信息。整个系统的核心分为三个部分:1、初始化部分:系统的初始化部分包括向导程序和待搜索种子站点集合的扩充。iRobot系统种子站点集合的扩充由简单元搜索引擎和超链分析实现,向用户推荐一些与主题相关的待搜索站点,为主题搜索系统的爬行部分提供一个良好的起始运行环境。2、搜索部分:iRobot系统从众多的实时搜索算法中选择了Fish算法作为实现的核心,并对Fish算法做了改进,加入了关键字的上下文分析能力。iRobot系统的搜索部分采用了多线程搜索的技术,提高了搜索速度。3、结果处理部分:iRobot将存到本地的网页进行处理,去除网页中的无关信息,将网页分类存入数据库并最终提交用户,获取用户反馈。 文章的最后总结了iRobot系统的研究和开发经验,并对未来的工作进行了展望。iRobot系统是一个较高效率的网络信息搜索系统,实现了面向主题的实时搜索功能,具有种子站点的自动扩充功能和友好的人机接口。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李铃;搜索引擎发展方向[J];科技情报开发与经济;2005年21期
2 毛振鹏,胡滨,代海岩;搜索引擎质量评价体系研究[J];晋图学刊;2005年05期
3 王芳,张晓林;网络环境下的信息检索:搜索引擎技术分析[J];情报杂志;1999年05期
4 张健;周聘麟;杨艳;;网络信息检索工具的现状与发展趋势[J];西昌学院学报(自然科学版);2006年04期
5 莫春芳;;网络信息检索及其在竞争情报搜集中的应用[J];科技情报开发与经济;2007年25期
6 肖丽;网络搜索引擎的检索功能分析[J];情报杂志;2001年09期
7 宋蓓玲,王新;浅析构建网络信息检索体系[J];现代情报;2005年06期
8 张玲;利用搜索引擎对图书馆编目进行网络信息检索[J];现代情报;2003年06期
9 ;第九届全国搜索引擎和网上信息挖掘学术研讨会SEWM2011征文通知[J];软件;2010年12期
10 凌志泉;搜索引擎中的网络数据挖掘技术[J];计算机工程与设计;2003年09期
11 王霞,刘萍;浅谈网络信息检索[J];晋图学刊;2004年03期
12 龚剑;一种新型互联网信息检索系统的构想[J];现代情报;2005年09期
13 陈咏;;充分运用网络资源 实现信息共享[J];云南科技管理;2006年01期
14 陈鹤阳;王辉;;网络信息检索搜索引擎工具的比较研究[J];图书馆学研究;2008年01期
15 傅欣;第三代搜索引擎的智能化趋势研究[J];现代图书情报技术;2002年06期
16 李美生;GOOGLE信息检索全攻略[J];江西图书馆学刊;2005年01期
17 苏君华,周林兴;论注意力与网络信息检索的互动[J];情报科学;2005年08期
18 ;第三届全国搜索引擎和网上信息挖掘学术研讨会在清华大学举行[J];清华大学学报(自然科学版);2005年10期
19 鄢百其;林凌;金晓祥;;网络信息检索技巧及析疑[J];武汉科技大学学报(社会科学版);2008年02期
20 岑荣伟;刘奕群;张敏;茹立云;马少平;;基于日志挖掘的搜索引擎用户行为分析[J];中文信息学报;2010年03期
中国重要会议论文全文数据库 前10条
1 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 贾彦国;李培德;;Web检索结果聚类算法的改进[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
中国重要报纸全文数据库 前10条
1 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978