收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的主题搜索引擎技术研究

卢革超  
【摘要】:本文首先介绍了构建基于本体的主题搜索引擎所需要的关键技术。本体作为特定领域的知识库,为网页分类器提供相似度计算的依据。主题爬行技术是主题搜索引擎的最前端,它从互联网上提取符合主题的网页。中文分词技术将中文网页分解成机器可处理的中文词汇,便于主题爬虫及检索模块分析处理。 本文的第二部分提出了基于本体的主题爬虫技术,其核心是基于本体的网页分类器。与传统的分类器不同,基于本体的网页分类器利用本体提供的知识作为指导,可以更为智能地分析网页中携带的语义信息,这种方式比仅从字面上计算相似性的传统分类器在精确性、灵活性上有本质提高。本文利用基于本体的网页分类器,使用JAVA语言编写了一个主题爬虫,在互联网上抓取旅游领域相关网页。 最后,本文利用Lucene开源工具包,为搜集到的主题相关网页建立索引,并使用Lucene提供的查询接口制作了用户检索界面,根据用户提供的关键词,从索引文件中检索出符合条件的网页。 实验结果表明,基于本体的主题爬虫可以准确地采集主题相关网页。基于Lucene的检索模块可以准确地给出检索结果。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

知网文化
【引证文献】
中国硕士学位论文全文数据库 前2条
1 熊璐;基于领域本体的中文财经Blog搜索引擎的设计与实现[D];江西理工大学;2012年
2 周吟雪;基于海量文本信息挖掘的地理信息变化发现[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 李景,苏晓鹭,钱平;构建领域本体的方法[J];计算机与农业.综合版;2003年07期
2 林春梅,何跃;创建企业本体模型的研究[J];计算机应用研究;2003年01期
3 李鹏;陶兰;王弼佐;;一种改进的本体语义相似度计算及其应用[J];计算机工程与设计;2007年01期
中国博士学位论文全文数据库 前2条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
2 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
中国硕士学位论文全文数据库 前2条
1 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
2 赵大明;基于本体的专业搜索引擎的研究与设计[D];西北大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 陈韧;韩永国;潘明;;基于本体的课程知识管理系统设计[J];兵工自动化;2007年05期
2 谭娟;李伯虎;;面向语义的C4ISR/Sim集成系统设计[J];北京航空航天大学学报;2006年10期
3 张德政;阿孜古丽;刘洁卉;;基于图分析的领域知识获取技术[J];北京科技大学学报;2007年S2期
4 张文秀;朱庆华;;领域本体的构建方法研究[J];图书与情报;2011年01期
5 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期
6 唐培丽;解飞;陈志雨;;基于概念检索的中文搜索引擎研究[J];长春大学学报;2006年04期
7 张泽清;;基于领域本体的语义检索技术研究[J];赤峰学院学报(自然科学版);2011年06期
8 张泽清;;基于Ontology的人力资源语义检索技术研究[J];长春理工大学学报(自然科学版);2011年02期
9 李雪瑞;赵冬青;;空间信息本体的开发[J];测绘科学;2006年03期
10 魏震方;王世华;沈华;;位置服务上下文计算本体形式化实现方法[J];测绘科学;2010年01期
中国重要会议论文全文数据库 前10条
1 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
2 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年
3 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
4 景东升;;基于本体和agent的地理空间信息语义共享初探[A];中国地理信息系统协会第八届年会论文集[C];2004年
5 王宏生;赵文;张路;;基于DOM解析的OWL本体关系数据库存储模式设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 王丹;赵荣娟;;P2P系统中一种基于代理的RDF文档查询模型[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
7 汪婷婷;吴军华;朱莹;刘一田;;基于RDF/XML的网格资源分层描述[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
8 蒋鹏;;基于本体的电子政务文档智能检索方法的研究[A];信息经济学与电子商务:第十三届中国信息经济学会学术年会论文集[C];2008年
9 林建祥;;LOGO思想与可拓、创新、智慧[A];第六届中国科学家论坛论文汇编[C];2007年
10 胡金柱;舒江波;陈志伟;杜志强;窦桂琴;;基于本体构件的工作流检索研究[A];第四届中国软件工程大会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 胡沙;面向服务的模具企业信息系统集成平台关键技术研究[D];华中科技大学;2010年
2 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
3 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年
4 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
5 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年
6 张珊;REST式GIS服务聚合研究及软件开发[D];华东师范大学;2011年
7 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
8 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
9 汪楚娇;语义环境下提升机故障人工免疫诊断方法研究[D];中国矿业大学;2010年
10 李淑霞;地名本体及其在地理空间数据组织中的应用研究[D];解放军信息工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
2 杨立志;基于语义网的图像检索算法的研究[D];广西师范学院;2010年
3 肖好冰;本体构建与网络交流平台的设计与实现[D];中国海洋大学;2010年
4 芦荣松;基于产品研发的IGDSS知识表示及其推理机制研究[D];中国海洋大学;2010年
5 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
6 王娟;基于本体的课程资源管理系统研究[D];江西师范大学;2010年
7 雷傲雄;基于本体的面向服务架构建模研究[D];江西师范大学;2010年
8 毛敏芹;对搜索引擎扩充语义信息功能方法研究[D];华东师范大学;2010年
9 朱坤;基于语义网的教学资源管理系统关键技术研究[D];天津理工大学;2010年
10 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 隋春光;李霖;;本体的概念、构建及其在地理信息科学中的应用[J];测绘通报;2010年04期
2 刘植惠;;本体(Ontology)与语义网(Semantic Web)[J];重庆图情研究;2006年03期
3 范冬梅;卢志茂;张汝波;潘树燊;;基于信息增益改进贝叶斯模型的汉语词义消歧[J];电子与信息学报;2008年12期
4 朱礼军,陶兰,刘慧;领域本体中的概念相似度计算[J];华南理工大学学报(自然科学版);2004年S1期
5 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
6 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
7 徐德智;王怀民;;基于本体的概念间语义相似度计算方法研究[J];计算机工程与应用;2007年08期
8 曹彦荣;何建邦;;地理信息语义关系元数据研究及应用[J];计算机科学;2004年01期
9 李景,苏晓鹭,钱平;构建领域本体的方法[J];计算机与农业.综合版;2003年07期
10 陈炯,张永奎;一种基于词聚类的中文文本主题抽取方法[J];计算机应用;2005年04期
中国博士学位论文全文数据库 前1条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
中国硕士学位论文全文数据库 前10条
1 王俊;基于Web搜索的舆情分析系统的设计与实现[D];北京邮电大学;2011年
2 石卉;基于网络内容分析法的舆情信息研究及应用[D];华中师范大学;2011年
3 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
4 何世柱;文本分类和聚类若干模型的研究[D];江西师范大学;2011年
5 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
6 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
7 曹红;林业主题搜索引擎研究[D];北京林业大学;2005年
8 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
9 刘春艳;语义Web环境下基于SKOS的叙词表到本体的转换研究[D];吉林大学;2006年
10 许泉立;Web环境下基于Ontology的空间信息查询检索机制研究[D];云南师范大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
3 戴先宇,王明文,吴水秀,张石林;带参数的搜索引擎[J];江西师范大学学报(自然科学版);2002年04期
4 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
5 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
6 朱礼军,陶兰,刘慧;领域本体中的概念相似度计算[J];华南理工大学学报(自然科学版);2004年S1期
7 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
8 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
9 马亮,陈群秀,蔡莲红;一种改进的自适应文本信息过滤模型[J];计算机研究与发展;2005年01期
10 张岩,李文辉,孟宇,庞云阶;应用PSO的快速纹理合成算法[J];计算机研究与发展;2005年03期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前7条
1 聂颂;具有自动分类功能的主题搜索引擎的研究[D];天津大学;2004年
2 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
3 于海龙;面向PU问题的文本分类的研究与实现[D];吉林大学;2005年
4 彭丽;元搜索引擎技术的研究与应用[D];西北工业大学;2007年
5 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
6 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
7 张功杰;基于本体的领域资源语义检索研究[D];暨南大学;2007年
【相似文献】
中国期刊全文数据库 前9条
1 陈大平;;搜索引擎技术方式之探析[J];长春理工大学学报(高教版);2009年10期
2 骆庆;;中文搜索引擎中的网络蜘蛛[J];福建电脑;2006年12期
3 骆庆;向华;;搜索引擎技术的关键技术——排序[J];福建电脑;2006年10期
4 王玲;;搜索引擎技术的现状与展望[J];科技文献信息管理;2004年02期
5 张焕武;;搜索引擎技术研究的现状与展望[J];科技情报开发与经济;2009年03期
6 王苏舰;李鹏;吕华侨;;个性化搜索引擎应用于信息服务业初探[J];现代情报;2010年04期
7 张瑞平;;搜索引擎技术分类及其发展过程[J];中共山西省委党校学报;2010年03期
8 王小兰;;浅析数字图书馆检索工具及其功能[J];江西图书馆学刊;2007年01期
9 李冰岩;黄地龙;郝园;;基于Web的搜索引擎算法的研究[J];电脑与电信;2010年05期
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026