收藏本站
《武汉理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的专题性搜索引擎的研究与实现

蒋子龙  
【摘要】: Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,难以满足专业用户如某一领域的科技工作人员对信息的需求,在这种情形下,专题性搜索引擎应运而生。 然而目前流行的专题性搜索多在语法级层面进行实践、对查询语句仅进行机械性的匹配,效果不够理想。本课题—基于本体的专题性搜索引擎选择引入本体技术,通过对用户的查询输入进行一定的语义分析和处理,使得搜索引擎具备一定的智能性,对搜索结果在查全率和查准率上都有所提高。 在信息采集方面,本论文给出了设计专题网络蜘蛛的方法:在对抓取下来的网页进行处理时,本文采取以词典分词为基础的正反向全切分算法进行中文分词;针对用户搜索关键字的模糊性及搜索返回结果的欠精确问题,本文应用本体通过相关概念之间的关联执行搜索,在返回用户查询结果时通过使用链接文档及相关的概念进行过滤及排序。 本论文的主要工作如下: (1)阐述了搜索引擎的概念和发展现状,分析了搜索引擎的基本原理、构成。突出介绍专题性搜索引擎的优势。 (2)设计出专题网络蜘蛛。给出了专题性网络蜘蛛程序设计的策略和模型,实现了Spider程序对Internet上的网页资源按照主题相关进行访问、抓取并保存到网页文件库。 (3)运用倒排索引原理,实现了对网页文件的索引。在索引处理过程中,对网页文本库中的网页文件进行初步分析,滤去无效内容,再利用以词典分词为基础的正反向全切分算法对正文进行中文分词处理,最后提取文档特征信息,建立倒排索引文件。 (4)设计出鞋业领域的本体库。查阅鞋业领域知识,在专业人士的帮助下确定领域核心概念,按照本体构建方法和规则,利用prot(?)g(?)工具开发出鞋业领域的本体知识库。 (5)设计出基于本体的查询器。在用户查询部分,根据用户输入的关键词,先利用以词典分词为基础的正反向全切分算法进行分词处理,提取出初步关键词;将初步关键词与本体库中的概念实例进行匹配、推理,得出标准关键词;再进入索引库进行搜索查找,对查询结果按网页与查询条件的相关度排序显示给用户。 (6)对基于本体的专题性搜索引擎系统进行了总体上的实现,针对一些例子进行了测试,并对结果做出了分析。 基于上述对本文工作内容的总结,本文的特色在于: (1)结合鞋业领域的特点,利用prot(?)g(?)本体建模工具开发出适合鞋业领域的本体库,对鞋业领域的本体建模做出了有益的探索。 (2)根据设计的页面相关性判断策略,开发出有自己特色的Spider程序,对专题性网络蜘蛛的设计做出了一次有意义的实践。 (3)目前专题性搜索引擎的设计多停留在语法级别的应用上,本论文设计实现的基于本体的专题性搜索引擎系统是一次语义级的探索,对类似系统的开发有借鉴意义。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前2条
1 宋庭新;张成雷;李成海;黄必清;;中小企业云制造服务平台的研究与开发[J];计算机集成制造系统;2013年05期
2 张素智;李宝燕;樊得强;;面向用户的本体爬虫研究与设计[J];郑州轻工业学院学报(自然科学版);2010年06期
中国重要会议论文全文数据库 前1条
1 张素智;李宝燕;樊得强;;面向用户和领域本体的Web信息采集系统[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
中国硕士学位论文全文数据库 前4条
1 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
2 王甲坤;基于互联网的话题分类及敏感话题发现技术研究与实现[D];电子科技大学;2011年
3 赵丽红;后缀数组在维、哈、柯搜索引擎中的应用[D];新疆大学;2012年
4 朱玉平;基于P2P网络的资源搜索算法的研究[D];山东师范大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
2 沈岳;;搜索引擎技术综述[J];北京城市学院学报;2007年04期
3 董红斌,李滨丽,李洪峰;基于Mobile Agent的信息搜索技术[J];哈尔滨师范大学自然科学学报;2002年02期
4 王艳宣,董守斌,曹以诚,杜正平,吴云鹏;基于语义的生物学专业搜索引擎设计[J];华南理工大学学报(自然科学版);2004年S1期
5 李强;李建华;;基于向量空间模型的过滤不良文本方法[J];计算机工程;2006年10期
6 王进,陈恩红,张振亚,王煦法;基于本体的跨语言信息检索模型[J];中文信息学报;2004年03期
7 陈康,武港山;基于Ontology的信息检索技术研究[J];中文信息学报;2005年02期
8 丁晟春;顾德访;;Ontology及其在信息检索中的应用研究[J];情报理论与实践;2006年01期
9 吴丹;;本体在信息检索中的作用及实例研究[J];情报杂志;2006年06期
10 郭祥文,刘惟一,钱民,张忠玉;基于本体论的信息检索[J];云南大学学报(自然科学版);2003年04期
中国硕士学位论文全文数据库 前4条
1 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
2 尹浩;基于WWW的新闻搜索引擎的设计与实现[D];西南交通大学;2003年
3 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
4 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 刘珊慧;万韵;杨乐;;基于本体的农业信息资源语义检索过程研究[J];安徽农业科学;2009年23期
2 刘鹏举;朱秀杰;周宇飞;李志清;唐小明;;基于OWL的森林资源数据智能化采集技术[J];北京林业大学学报;2008年01期
3 曾庆祥;廖建新;安宝贵;朱春梅;于川;;基于Lucene算法的移动终端资源搜索引擎研究与设计[J];北京工商大学学报(自然科学版);2008年05期
4 高峰;张永奎;;基于最大熵模型的不良文本识别[J];电脑开发与应用;2009年01期
5 林海文;;文本挖掘技术研究[J];电脑知识与技术;2008年34期
6 刘霞;阳小华;;基于本体的个性化信息检索研究[J];电脑知识与技术;2009年25期
7 熊国萍;唐敏;;智能型文本过滤的创新模式与系统设计[J];电脑知识与技术;2010年12期
8 万毅;廉恒丽;王锐;杨鹏;徐勇勇;;随机对照试验评价的语义模型研究[J];第四军医大学学报;2009年22期
9 司卫国,赵捧未;移动Agent在信息检索中的应用研究[J];电子科技;2004年11期
10 杨晓东;林晓霞;崔孟荣;;基于本体的网络信息检索[J];福建电脑;2006年09期
中国重要会议论文全文数据库 前5条
1 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
3 孙晓玲;林鸿飞;;统一语义视图下的垂直领域跨语言检索模型[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 冯淑芳;王素格;;面向观点挖掘的汽车本体知识库的构建[A];第六届全国信息检索学术会议论文集[C];2010年
5 梁循;杨健;陈华;曾月卿;;互联网金融信息搜索[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 黄逸民;基于多Agent的智能管理信息系统理论与应用研究[D];浙江大学;2002年
2 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
3 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
4 夏天;研究性学习支持系统[D];华东师范大学;2007年
5 何琳;古农学本体的半自动构建及检索研究[D];南京农业大学;2007年
6 郭健;基于多Agent的智能管理信息系统研究[D];天津大学;2007年
7 万毅;循证医学证据评价的语义模型与应用研究[D];第四军医大学;2009年
8 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
9 徐斌;基于Agent的集装箱码头实时调度系统的研究[D];大连理工大学;2010年
10 赵生辉;中国少数民族语言电子文件集成管理的体系架构研究[D];武汉大学;2012年
中国硕士学位论文全文数据库 前10条
1 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
2 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
3 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
4 郭剑;语义检索在出版社网站中的应用研究[D];北京印刷学院;2010年
5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
6 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
7 朱培焱;汉英跨语言网址搜索引擎的设计与实现[D];西安电子科技大学;2010年
8 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
9 王立政;基于本体的知识检索模型优化研究[D];吉林大学;2011年
10 陈凯;搜索引擎有关排序算法研究[D];武汉理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 梁晔;刘宏哲;;运用Jena对本体模型进行推理及其应用[J];北京联合大学学报(自然科学版);2009年03期
2 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
3 尹超;胡卫民;刘飞;;新产品开发过程应用服务提供平台的运行支持系统[J];重庆大学学报;2008年05期
4 李岚;任雪利;;基于后缀数组的快速排序算法[J];甘肃联合大学学报(自然科学版);2006年05期
5 张志宏;;云计算平台管理系统的研究与实现[J];电信工程技术与标准化;2012年04期
6 邓绪水;宋庭新;黄必清;;单点登录技术在企业资源集成中的应用[J];湖北工业大学学报;2010年02期
7 沈岳;;搜索引擎技术综述[J];北京城市学院学报;2007年04期
8 朱桂明;金士尧;郭得科;;IPSBSAR:一种基于熟人关系的增量式P2P搜索算法[J];计算机研究与发展;2009年08期
9 陈苒,董占球;WWW信息搜索技术研究[J];计算机工程与应用;2001年14期
10 于婧;汪斌强;;SSON:一种基于结构化P2P网络路由的语义覆盖网络结构[J];计算机科学;2007年06期
中国博士学位论文全文数据库 前4条
1 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
2 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
3 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
4 王向辉;P2P网络拓扑结构研究[D];哈尔滨工程大学;2008年
中国硕士学位论文全文数据库 前10条
1 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
2 刘杰;基于Chord与语义融合的P2P搜索技术研究[D];哈尔滨理工大学;2010年
3 王焱;基于P2P网络的资源搜索方法研究及其在远程教育系统中的应用[D];湖北工业大学;2011年
4 李杨;基于Chord的P2P搜索模型研究与改进[D];西安电子科技大学;2011年
5 张静;无结构P2P网络搜索策略的研究[D];南京邮电大学;2011年
6 刘兴宇;基于倒排索引的全文检索技术研究[D];华中科技大学;2004年
7 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
8 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
9 苏旋;分布式网络爬虫技术的研究与实现[D];哈尔滨工业大学;2006年
10 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【二级引证文献】
中国期刊全文数据库 前1条
1 姜龙;张澜;赵强;;基于O2O模式的大科学工程协同技术研究与应用[J];广西大学学报(自然科学版);2014年05期
中国硕士学位论文全文数据库 前6条
1 张晓瑞;面向领域本体的主题搜索服务研究[D];华东交通大学;2012年
2 张美珍;面向用户偏好的Web搜索排序模型研究[D];天津理工大学;2013年
3 王晓飞;基于主题特征的Web信息挖掘模型的研究与实现[D];北京邮电大学;2013年
4 程旭东;云制造中基于本体的制造服务资源分类与管理[D];湖北工业大学;2013年
5 李涛;软性材料裁床生态系统服务方法和平台[D];浙江大学;2014年
6 张成雷;中小企业云制造服务平台的研究与开发[D];湖北工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 卢效峰,郑权;基于用户行为分析的搜索引擎模型[J];北方工业大学学报;2004年03期
2 雷鸣,王建勇,赵江华,单松巍,陈葆珏;第三代搜索引擎与天网二期[J];北京大学学报(自然科学版);2001年05期
3 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
4 蔡旭晖,刘泽星;Internet信息检索与计算机基础教学[J];长沙铁道学院学报(社会科学版);2004年03期
5 康桂英,刘春平;新一代中文智能搜索引擎研究[J];东南大学学报(哲学社会科学版);2002年S1期
6 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
7 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
8 张成洪,肖军建,张诚;Web内容抽取及其数据管理方法[J];复旦学报(自然科学版);2001年02期
9 曾长缨;互联网信息搜索结果的排序问题[J];广东科技;2004年11期
10 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
【相似文献】
中国期刊全文数据库 前10条
1 魏文国;谢桂园;;自适应最优搜索算法的网络蜘蛛的设计与实现[J];计算机应用;2007年11期
2 于俊洋;李俊;;基于C#的网络蜘蛛的设计和实现[J];中国教育信息化;2008年21期
3 陈瑜芳;何克右;;网络蜘蛛的设计与实现[J];现代计算机(专业版);2009年11期
4 包桂燕;;网络蜘蛛搜索策略评价[J];民营科技;2010年04期
5 潘欣;吕静波;张素莉;;基于网络蜘蛛的新词自动发现算法研究[J];长春工程学院学报(自然科学版);2011年03期
6 李浩;蒋蘋;;网络蜘蛛的研究与实现[J];科技信息;2012年26期
7 徽剑;;网络蜘蛛就是那只母鸡[J];新华航空;2009年03期
8 柳婷;;网络蜘蛛的简单设计与研究[J];大众商务;2010年16期
9 容雪;追星族与网络蜘蛛[J];电脑爱好者;2000年24期
10 华伟臣;张秀琼;;网络蜘蛛搜索研究[J];乐山师范学院学报;2006年05期
中国重要会议论文全文数据库 前3条
1 林海霞;原福永;陈金森;;主题网络蜘蛛搜索策略贪婪性解决方法[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
2 梁一平;刘连芳;周小平;申文明;;网络蜘蛛Nutch的分析、定制与二次开发[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 袁特;顾新建;胡恒杰;许琦;;一种企业竞争情报系统的研究[A];先进制造技术论坛暨第五届制造业自动化与信息化技术交流会论文集[C];2006年
中国重要报纸全文数据库 前2条
1 江苏 刘波;网络蜘蛛[N];中国电脑教育报;2000年
2 ;搜索引擎为自由信息导航[N];中国电脑教育报;2005年
中国硕士学位论文全文数据库 前10条
1 袁凯;基于主题的网络蜘蛛的设计与实现[D];北京交通大学;2008年
2 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
3 刘德钦;面向企业竞争情报的主题网络蜘蛛的研究与实现[D];西安电子科技大学;2011年
4 张晓龙;网络蜘蛛垂直搜索算法的改进与实现[D];哈尔滨工程大学;2008年
5 冯月;基于专业搜索引擎网络蜘蛛搜索策略研究[D];电子科技大学;2007年
6 詹晶晶;基于WEB挖掘的网络蜘蛛的研究与实现[D];厦门大学;2007年
7 尹江;基于文档分类及超链接优选策略主题蜘蛛的研究与实现[D];西南交通大学;2008年
8 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
9 林海霞;中文专业搜索引擎优化策略研究[D];燕山大学;2006年
10 陈再兴;全功能检索系统搜索引擎设计[D];湖北工业大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026