收藏本站
《中国科学院研究生院(文献情报中心)》 2003年
收藏 | 手机打开
二维码
手机客户端打开本文

主题型搜索引擎的研究与实现

侯震宇  
【摘要】: Tnternet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,提出了将基于内容和基于链接的搜索技术相结合的思想,设计了一个面向主题的搜索引擎iRobot系统,阐述了它的结构和设计开发原理。 论文共分三个部分。第一部分(第一章)为总论,阐述了网络信息检索发展的现状和搜索引擎发展的不足,指出了主题型搜索引擎的概念和进行研究的必要性。第二部分(第二章)为设计iRobot系统所涉及的关键技术的研究。本文系统阐述了信息检索的原理和搜索引擎技术,并对网络信息索引、本体论、网络挖掘、信息过滤、智能代理、网络信息检索算法做了深入的剖析。第三部分(第三到第七章)为iRobot的具体实现部分,在上述理论分析的基础上给出了iRobot系统的设计思想和原则,分析了iRobot的工作流程,并详细的介绍了iRobot的结构和实现技术。 iRobot系统是一个面向主题的搜索系统,用于为专业人士或机构搜集信息。整个系统的核心分为三个部分:1、初始化部分:系统的初始化部分包括向导程序和待搜索种子站点集合的扩充。iRobot系统种子站点集合的扩充由简单元搜索引擎和超链分析实现,向用户推荐一些与主题相关的待搜索站点,为主题搜索系统的爬行部分提供一个良好的起始运行环境。2、搜索部分:iRobot系统从众多的实时搜索算法中选择了Fish算法作为实现的核心,并对Fish算法做了改进,加入了关键字的上下文分析能力。iRobot系统的搜索部分采用了多线程搜索的技术,提高了搜索速度。3、结果处理部分:iRobot将存到本地的网页进行处理,去除网页中的无关信息,将网页分类存入数据库并最终提交用户,获取用户反馈。 文章的最后总结了iRobot系统的研究和开发经验,并对未来的工作进行了展望。iRobot系统是一个较高效率的网络信息搜索系统,实现了面向主题的实时搜索功能,具有种子站点的自动扩充功能和友好的人机接口。
【学位授予单位】:中国科学院研究生院(文献情报中心)
【学位级别】:硕士
【学位授予年份】:2003
【分类号】:G354

【引证文献】
中国期刊全文数据库 前5条
1 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期
2 丛荣华;;网络教育中的数据收集技术[J];长春师范学院学报;2006年10期
3 庞孝梅;;网络信息资源开发实现方式的探讨[J];产业与科技论坛;2008年11期
4 张秋惠;谢延华;;一种主题型Web爬行器的设计和实现[J];漯河职业技术学院学报(综合版);2006年03期
5 李思达;;探析当前计算机网络信息检索技术[J];无线互联科技;2012年02期
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 王红胜;多文档全文检索系统的设计与开发[D];电子科技大学;2010年
3 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
4 陈必坤;基于Nutch的图情博客搜索引擎的设计与实现[D];郑州大学;2011年
5 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
6 李娟;高校数字图书馆中基于Agent的智能信息采集与服务原型系统的研究[D];武汉理工大学;2005年
7 胡一俊;web超链分析应用研究[D];武汉大学;2005年
8 杨治秋;专题搜索引擎关键技术的研究[D];燕山大学;2006年
9 林海霞;中文专业搜索引擎优化策略研究[D];燕山大学;2006年
10 段雪英;基于.NET的气象主题搜索引擎系统的研究与实现[D];南京信息工程大学;2007年
【参考文献】
中国期刊全文数据库 前3条
1 郑毅,吴斌,史忠植;基于概念空间的文本检索系统[J];计算机工程与应用;2002年12期
2 廖明宏,程光明,吴翔虎;一个WWW智能搜索引擎[J];计算机应用研究;2001年05期
3 曹玉霞;搜索引擎新思维[J];现代图书情报技术;2000年05期
中国博士学位论文全文数据库 前1条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前2条
1 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
2 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
【共引文献】
中国期刊全文数据库 前10条
1 李育嫦;搜索引擎中完善关键词检索功能的探索[J];图书与情报;2003年05期
2 刘德仿;王斌;;面向教学领域的智能搜索引擎的研究与开发[J];电化教育研究;2007年05期
3 杨鹏,叶少珍;基于关键词和语义融合的WEB检索[J];福建电脑;2005年08期
4 吴东辰;;国内外几种主要搜索引擎比较[J];福建图书馆理论与实践;2005年04期
5 裘江南;王磊;王宁;;基于描述逻辑的概念检索模型[J];辽宁工程技术大学学报(自然科学版);2009年03期
6 李力;;关于网络信息获取工具搜索引擎的研究[J];广东广播电视大学学报;2006年03期
7 郑庆华,王朝静,孙霞;一种基于结构化语料库的概念语义网络自动生成算法[J];计算机研究与发展;2005年03期
8 陈俊杰;刘炜;;一种基于本体的个性化模式库建模方法[J];计算机研究与发展;2007年07期
9 余大勇,李玉谨,孙济庆;一种新的多Agent协作的信息检索模型[J];计算机工程与应用;2004年12期
10 沙莎,曾慧宏,罗三定;一种面向元数据描述文档的概念检索方法[J];计算机工程与应用;2005年25期
中国重要会议论文全文数据库 前1条
1 吴东辰;;比较国内外几种主要的搜索引擎[A];福建省图书馆学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前6条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
3 宋艳;CRM中基于CABOSFV改进算法的客户聚类研究[D];哈尔滨工程大学;2004年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
6 苏用专;现代制造企业知识管理的机制、模式与体系构建研究[D];武汉理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
2 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
3 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年
4 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年
5 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
6 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
7 宋兴华;基于用户模型的中文个性化检索系统研究[D];吉林大学;2011年
8 吕增辉;基于.NET的对象持久化研究与应用[D];沈阳理工大学;2011年
9 郇秀花;基于情景的个性化检索技术研究[D];安徽大学;2011年
10 周剑烽;基于语义本体的信息检索方法的研究[D];杭州电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
2 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
3 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期
4 胡誉耀;元搜索引擎在数字图书馆中的运用[J];图书与情报;2003年05期
5 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
6 袁伟,丛荣华;网络资源建设的思考[J];长春师范学院学报;2003年02期
7 冀胜利;李波;;基于SVM的中文文本分类算法[J];重庆工学院学报(自然科学版);2008年07期
8 高波;;一种面向主题的搜索引擎的实现[J];常州工学院学报;2008年02期
9 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
10 陈子昕;;基于SVM的文本分类系统设计与实现[J];东莞理工学院学报;2008年03期
中国博士学位论文全文数据库 前10条
1 张智雄;Internet科技信息资源门户网站(STIP)系统的实践研究[D];中国科学院文献情报中心;2000年
2 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
3 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
4 毛军;Web信息服务中受控语言研究[D];中国科学院研究生院(文献情报中心);2002年
5 周皓峰;关联规则挖掘的拓展性研究[D];复旦大学;2003年
6 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
7 李四明;基于智能Agent的网上农业信息挖掘研究[D];中国农业大学;2003年
8 王晓宇;Web搜索与Web缓存的若干关键问题研究[D];复旦大学;2003年
9 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
10 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
2 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
3 贾自艳;中文智能搜索引擎关键技术研究[D];北京工业大学;2001年
4 王胜海;网络智能知识服务系统设计与实现[D];中国科学院研究生院(文献情报中心);2002年
5 张俭恭;扩展元搜索引擎(EMSE)的系统设计[D];中国科学院研究生院(文献情报中心);2002年
6 侯向丹;蚂蚁算法扩展性及应用研究[D];河北工业大学;2002年
7 乔冬梅;搜索引擎现状与发展研究[D];郑州大学;2002年
8 韩亚洪;结合内容与链接分析搜索特定主题的权威Web信息源[D];河海大学;2003年
9 尹浩;基于WWW的新闻搜索引擎的设计与实现[D];西南交通大学;2003年
10 吴政;面向侨务信息主题的搜索引擎[D];华侨大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 谢能付;王文生;段延娥;;基于概念空间的领域信息爬虫设计研究[J];江西师范大学学报(自然科学版);2008年02期
2 庞孝梅;浅谈网络信息资源开发的实现方式[J];重庆工学院学报;2005年03期
3 张福泉;;基于启发式搜索的主题策略研究[J];重庆科技学院学报(自然科学版);2011年05期
4 庞孝梅;;网络信息资源开发实现方式的探讨[J];产业与科技论坛;2008年11期
5 徐诗亮;;一种基于概念空间的主题爬虫设计方法[J];福建电脑;2008年10期
6 宋凯伦;邱广华;李珊;;基于Web的定向信息采集系统的设计与实现[J];福建电脑;2011年11期
7 彭知辉;;论公安机关网络情报源的开发[J];广州市公安管理干部学院学报;2009年03期
8 孙乐;方自金;;基于互联网的信息采集系统的设计与实现[J];河北大学成人教育学院学报;2010年04期
9 杨红艳;;基于智能Agent技术的个性化数字图书馆系统模型[J];吉林工程技术师范学院学报;2010年07期
10 周长安;;浅论基于广域网的校园网络信息资源系统建设[J];湖南科技学院学报;2006年05期
中国重要会议论文全文数据库 前2条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前2条
1 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
2 薛庆吉;基于3G网络的移动学习平台关键技术研究与应用[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
2 刘婕;基于Agent的危险化学品安全生产信息采集系统研究[D];昆明理工大学;2010年
3 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
4 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
5 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
6 李莎莎;增量式Web信息采集与信息提取系统的研究与实现[D];武汉理工大学;2011年
7 石京;基于语义本体的垂直搜索引擎模型研究[D];大连海事大学;2011年
8 唐佳;重大事件网络信息资源长期保存方法研究[D];辽宁师范大学;2011年
9 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
10 于景茹;基于Lucene的职位垂直搜索引擎的研究与实现[D];郑州大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
2 孙铁利,邓安生;智能用户接口Agent的用户模型与系统构建方法[J];东北师大学报(自然科学版);2000年03期
3 罗庆霖,周琴;信息过滤模型及其基于神经网络的改进[J];电脑与信息技术;2000年03期
4 强自力;网络分类目录及其分类法[J];大学图书馆学报;1999年04期
5 林锦贤,钟春芳;基于Agent的Web网页自适应检索模型[J];福州大学学报(自然科学版);2000年03期
6 马献明,严小卫,陈宏朝;个性化网上信息代理技术的研究概述[J];广西师范大学学报(自然科学版);2000年03期
7 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
8 周欣,沙朝锋,朱扬勇,施伯乐;兴趣度——关联规则的又一个阈值[J];计算机研究与发展;2000年05期
9 张灵玲,周文辉,韩耀伟,李俊,潘金贵,三枝武男,坂上修二,奥山明;基于Internet的课件信息发现和收集Agent的研究[J];计算机研究与发展;1999年04期
10 李业丽,林鸿飞,姚天顺;基于示例的用户信息需求模型的获取和表示[J];计算机工程与应用;2000年09期
【相似文献】
中国期刊全文数据库 前10条
1 李铃;搜索引擎发展方向[J];科技情报开发与经济;2005年21期
2 毛振鹏,胡滨,代海岩;搜索引擎质量评价体系研究[J];晋图学刊;2005年05期
3 王芳,张晓林;网络环境下的信息检索:搜索引擎技术分析[J];情报杂志;1999年05期
4 张健;周聘麟;杨艳;;网络信息检索工具的现状与发展趋势[J];西昌学院学报(自然科学版);2006年04期
5 莫春芳;;网络信息检索及其在竞争情报搜集中的应用[J];科技情报开发与经济;2007年25期
6 肖丽;网络搜索引擎的检索功能分析[J];情报杂志;2001年09期
7 宋蓓玲,王新;浅析构建网络信息检索体系[J];现代情报;2005年06期
8 张玲;利用搜索引擎对图书馆编目进行网络信息检索[J];现代情报;2003年06期
9 ;第九届全国搜索引擎和网上信息挖掘学术研讨会SEWM2011征文通知[J];软件;2010年12期
10 凌志泉;搜索引擎中的网络数据挖掘技术[J];计算机工程与设计;2003年09期
中国重要会议论文全文数据库 前10条
1 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 贾彦国;李培德;;Web检索结果聚类算法的改进[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
9 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
10 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
5 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
6 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026