收藏本站
《哈尔滨理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

主题搜索引擎的研究与实现

李永春  
【摘要】: 随着信息的高速增长与网络的普及,互联网已发展成目前最大的信息资源库,在海量的网络信息中,如何从中快速和准确找到所需要的信息,已成为人们不得不面对一个问题。搜索引擎的出现帮助用户解决了如何方便查找信息的困难。但目前搜索引擎是面向所有用户的,所以要保证返回结果的全面性,因此难以满足用户对某特定领域的信息需求。因此面向专业领域的搜索即主题搜索开始出现。 然而传统搜索引擎包括主题搜索对用户查询输入仅进行机械性的匹配,查询结果不够理想。本文在主题搜索过程中尝试结合本体技术,对用户的查询输入进行一定的语义处理,以提高搜索引擎的查询效率。 首先概述了搜索引擎的基本原理和主题搜索引擎的特点,指出两者的关键区别在于网页爬行策略的不同,重点分析了检索框架Lucene的低耦合代码组织结构、索引组成方式和内部数据流,并通过实例验证Lucene的检索性能明显优于传统检索方式。 然后介绍了本体的概念、分类和描述语言,在对本体构建原则和构建方法进行研究比较后,给出本文系统所用的本体构建方法:确定领域概念和概念层次关系,添加属性、实例和约束信息以完善概念间的关系。本文选用工具软件Protégé3.4.1自顶向下方式构建本体。 最后在主题搜索系统实现过程中,信息采集模块通过扩展已有的爬虫框架Heritrix完成主题信息的收集,预处理模块利用Lucene的对信息建立倒排索引并对其分词方式进行扩展,查询模块结合本体对查询信息进行扩展。通过对目标网站的抓取、抓取网页的信息抽取和最后查询测试,检验本文设计系统的可行性。对比本文实验系统与传统搜索引擎系统的查询结果,可以表明本文系统具有更好查准率和信息引导提示。为本体与搜索引擎技术的结合提供一种新的思路。
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国硕士学位论文全文数据库 前1条
1 张晓瑞;面向领域本体的主题搜索服务研究[D];华东交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 陈苒,董占球;WWW信息搜索技术研究[J];计算机工程与应用;2001年14期
2 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
3 王茂光;管红杰;史忠植;;基于主体网格的本体驱动自主学习系统[J];计算机工程;2008年08期
4 宋宇;孟祥增;;基于改进Fish-search算法的多媒体检索[J];计算机工程;2008年11期
5 胡涛;路红英;;基于Nutch的搜索引擎的研究[J];计算机时代;2007年01期
6 陈琦;伍朝辉;姚芳;宋秀荣;张付志;;基于TF*IDF的垃圾邮件过滤特征选择改进算法[J];计算机应用研究;2009年06期
7 朱学昊;王儒敬;余锋林;唐昱;;基于Lucene的站内搜索设计与实现[J];计算机应用与软件;2008年10期
8 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
9 王进,陈恩红,张振亚,王煦法;基于本体的跨语言信息检索模型[J];中文信息学报;2004年03期
10 丁晟春;顾德访;;Ontology及其在信息检索中的应用研究[J];情报理论与实践;2006年01期
中国硕士学位论文全文数据库 前4条
1 刘强国;主题搜索引擎设计与研究[D];电子科技大学;2007年
2 蒋建洪;基于分布式的搜索引擎框架研究和实现[D];西北工业大学;2007年
3 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
4 蒋子龙;基于本体的专题性搜索引擎的研究与实现[D];武汉理工大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 张涛;;针对企业网站的搜索引擎优化策略[J];湖北工业大学学报;2009年05期
2 张涛;廖力;;基于链接的网站搜索引擎优化策略[J];湖北工业大学学报;2010年05期
3 蔡小艳;沈巍;胡婷婷;曹永刚;;Nutch中文分词插件的编写与实现[J];信息技术;2010年02期
4 宋海洋;崔金生;刘晓然;;基于P2P技术的网络资源搜索机制研究[J];信息技术;2011年05期
5 孙虞禄;万旻;马庆贤;;在计量管理中实现全文检索[J];计测技术;2007年06期
6 李桂华;;基于Jena的语义信息检索应用研究[J];计算机与信息技术;2010年Z1期
7 宋晓雯;;基于骨架法的企业本体构建方法改进[J];经济论坛;2010年07期
8 杨仁广;张艳;;网络多媒体教学资源主题搜索系统的设计与实现[J];江苏广播电视大学学报;2011年03期
9 刘健;汤小春;晋峰;;基于主题元搜索的结果整合算法研究[J];计算机工程与应用;2010年35期
10 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
中国重要会议论文全文数据库 前5条
1 张素智;李宝燕;樊得强;;面向用户和领域本体的Web信息采集系统[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
2 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
3 陈松航;朱凤华;吕宜生;查磊;;面向人工交通系统的本体知识库构建与应用[A];第六届(2011)中国管理学年会——系统管理与复杂性科学分会场论文集[C];2011年
4 孙晓玲;林鸿飞;;统一语义视图下的垂直领域跨语言检索模型[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 包丽苹;;中职学校数字图书馆建设之我见[A];福建省图书馆学会2010年学术年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
2 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
3 邱奇志;基于本体的学习对象发现机制的研究与应用[D];武汉理工大学;2009年
4 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
5 潘建国;基于语义的用户建模技术与应用研究[D];上海大学;2009年
6 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年
7 赵生辉;中国少数民族语言电子文件集成管理的体系架构研究[D];武汉大学;2012年
8 杨志和;教育资源云服务本体与技术规范研究[D];华东师范大学;2012年
9 吴佑波;基于本体的汽配行业外协加工服务业务协作方法研究[D];浙江大学;2012年
10 薛庆吉;基于3G网络的移动学习平台关键技术研究与应用[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
3 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
4 杜娟;基于语义网格的知识地图资源组织研究与应用[D];哈尔滨工程大学;2010年
5 宁健;面向生物医学领域的跨语言信息检索[D];大连理工大学;2010年
6 肖好冰;本体构建与网络交流平台的设计与实现[D];中国海洋大学;2010年
7 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
8 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
9 赵少华;基于本体论的汽车故障诊断知识建模及知识系统的研究[D];华东理工大学;2011年
10 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 谭月辉;肖冰;陈建泗;齐京礼;李志勇;;Jena推理机制及应用研究[J];河北省科学院学报;2009年04期
2 任宁;;XML技术研究[J];黑龙江科技信息;2010年18期
3 陈尧清;薛建武;崔璇;;一种异步本体系统的实现框架[J];计算机应用研究;2009年02期
4 黄颖;黄治平;;HtmIParser提取网页信息的设计与实现[J];江西理工大学学报;2007年06期
5 张盛蕾;;基于Lucene的校园网搜索引擎的设计与实现[J];华章;2011年06期
6 魏毅峰;张亮;;基于本体的搜索引擎模型设计[J];软件导刊;2010年07期
7 陈丹;郭伟青;;信息搜索引擎综述及系统架构设计[J];商场现代化;2008年03期
8 刘静;;改进潜在语义索引的个性化搜索引擎的设计[J];苏州市职业大学学报;2010年02期
9 王晓盈;王晓璇;刘鹏;;中文本体构建及可视化研究[J];计算机技术与发展;2010年02期
10 马中杰;郑诚;苏喻;;一种基于知识库的语义检索系统模型[J];微型机与应用;2010年20期
中国硕士学位论文全文数据库 前10条
1 蒲宇达;基于web的网页链接与正文抽取技术研究[D];哈尔滨工业大学;2006年
2 秦嘉伟;基于本体的信息检索方法研究[D];上海交通大学;2007年
3 孙炜;基于语义网技术的主题搜索引擎原型研究及其在电子政务领域的应用[D];北京交通大学;2008年
4 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
5 黄华勇;奥运竞技体育项目技战术分析知识库的研究与实现[D];南京理工大学;2008年
6 吴建强;垂直搜索引擎爬虫系统的研究与实现[D];贵州大学;2008年
7 赵永平;面向特定领域的主题搜索技术研究[D];哈尔滨工程大学;2008年
8 蓝雪燕;基于Ontology的信息搜索技术研究与实现[D];天津大学;2009年
9 毛鑫;基于本体的语义信息集成与知识发现研究[D];华北电力大学(北京);2010年
10 孔德镛;基于本体技术的旅游信息语义查询系统研究[D];西北大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 黄建莲;中国搜索引擎服务市场的现状及发展[J];华北科技学院学报;2005年03期
2 沈岳;;搜索引擎技术综述[J];北京城市学院学报;2007年04期
3 董红斌,李滨丽,李洪峰;基于Mobile Agent的信息搜索技术[J];哈尔滨师范大学自然科学学报;2002年02期
4 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期
5 王艳宣,董守斌,曹以诚,杜正平,吴云鹏;基于语义的生物学专业搜索引擎设计[J];华南理工大学学报(自然科学版);2004年S1期
6 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
7 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
8 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
9 张晓冬,张书杰,邢俊丽,李俊玉;关于信息过滤模型的探讨[J];计算机工程与应用;2002年05期
10 廖乐健,曹元大,李新颖;基于Ontology的信息抽取[J];计算机工程与应用;2002年23期
中国博士学位论文全文数据库 前1条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前8条
1 刘向辉;专题性智能搜索引擎的研究与实现[D];昆明理工大学;2001年
2 尹浩;基于WWW的新闻搜索引擎的设计与实现[D];西南交通大学;2003年
3 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
4 李富萍;基于多Agent的信息搜索引擎技术研究与应用[D];中北大学;2005年
5 彭丽;元搜索引擎技术的研究与应用[D];西北工业大学;2007年
6 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
7 徐金雷;专业搜索引擎的排序算法研究[D];南京师范大学;2007年
8 张功杰;基于本体的领域资源语义检索研究[D];暨南大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 ;关键词搜索[J];每周电脑报;2000年38期
2 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
3 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
4 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
5 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
6 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
7 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
8 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
9 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期
10 凤元杰,刘正春,王坚毅;搜索引擎主要性能评价指标体系研究[J];情报学报;2004年01期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
6 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
7 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
8 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
7 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
8 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
9 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
10 姜蕊;问天下谁识搜索?[N];中国高新技术产业导报;2006年
中国博士学位论文全文数据库 前10条
1 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
2 陈艳斐;基于用户兴趣模型的校园网搜索引擎设计与应用[D];云南大学;2010年
3 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
4 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
7 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
8 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
9 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
10 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026