收藏本站
《西南交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于领域本体的主题爬虫研究及实现

林碧霞  
【摘要】: 随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于智能化、专业化的需求也一直在提高,如何让搜索引擎更加智能化、专业化是一个挑战。 垂直搜索引擎正是在用户对专业化需求的环境下产生的,它通过主题爬虫对Web上特定领域的网页进行抓取,保存成网页库,然后被垂直搜索所使用。针对人们对于智能化的需求,人们发现了哲学的本体论可以被应用于信息检索中。本体技术是语义网中的一种先进的知识表示技术。本体具有良好的概念层次结构和对逻辑推理的支持能力,概念间关系概括语义的能力,能很好地为语义检索提供知识基础的能力。所以研究将本体论技术应用于主题爬虫成为了当今学术界热点。 本论文分析了主题爬虫的国内外研究现状,结合了本体论技术,进行主题爬虫的研究与实现。本文的具体工作如下: (1)给出基于领域本体的主题爬虫的框架及相关模块介绍。 (2)提出了根据本体层次树进行上下文主题描述,用于指导主题爬虫的爬行; (3)改进了本体层次树各概念的语义相似度及相关度计算方法,并给出了本体层次树各概念的向量表示综合方法; (4)根据本文的上下文主题描述,提出了网页内容与链接相关度的算法; (5)根据领域本体的构建方法及Protege本体构建工具,构建了教育技术领域的本体; (6)基于开源Bot.jar进行了扩展、实现基于领域本体的教育技术领域主题爬虫。 实验表明,通过改进了本体层次树的概念相似度、相关度计算方法后,它们的综合方法能更好地区分概念间关系;本文所提出的基于领域本体的上下文主题描述,能有效指导爬虫,体现语义性;提出的基于领域本体的网页内容相关度和链接相关度算法能较大幅度地提高爬行的查准率。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【引证文献】
中国期刊全文数据库 前1条
1 王帅;周国民;王健;;主题爬虫相关度算法研究综述[J];计算机与现代化;2013年04期
中国硕士学位论文全文数据库 前6条
1 张行;木材垂直搜索引擎设计与实现[D];北京林业大学;2012年
2 魏胜辉;机械领域文本采集和分类的研究与设计[D];西安建筑科技大学;2012年
3 史艳;垂直搜索引擎中主题爬行技术的研究[D];重庆大学;2012年
4 谢剑芳;Web主题信息检索中的语义检索技术研究及应用[D];重庆交通大学;2012年
5 熊璐;基于领域本体的中文财经Blog搜索引擎的设计与实现[D];江西理工大学;2012年
6 周吟雪;基于海量文本信息挖掘的地理信息变化发现[D];电子科技大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 张晨彧;穆斌;;语义Web中的语义度量与本体映射[J];合肥工业大学学报(自然科学版);2006年03期
2 朱礼军,陶兰,刘慧;领域本体中的概念相似度计算[J];华南理工大学学报(自然科学版);2004年S1期
3 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
4 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
5 郑国良;叶飞跃;林国俊;耿冬;;基于领域本体的主题信息采集方法[J];计算机应用;2008年12期
6 何琳;杜慧平;侯汉清;;领域本体的半自动构建方法研究[J];图书馆理论与实践;2007年05期
7 肖敏;;领域本体的构建方法研究[J];情报杂志;2006年02期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前9条
1 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
2 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
3 张囡囡;面向语义网的领域本体半自动构建方法的研究[D];大连海事大学;2008年
4 张志刚;领域本体构建方法的研究与应用[D];大连海事大学;2008年
5 杨贞;基于本体的主题爬虫的设计与实现[D];合肥工业大学;2008年
6 肖洪;面向知识组织与检索的SCORM语义化研究[D];北京大学;2006年
7 尹江;基于文档分类及超链接优选策略主题蜘蛛的研究与实现[D];西南交通大学;2008年
8 吴聪聪;基于本体的专业搜索引擎的研究[D];天津大学;2007年
9 杨月奎;基于语义的主题爬行方向研究[D];西华大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
4 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
5 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
6 谭娟;李伯虎;;面向语义的C4ISR/Sim集成系统设计[J];北京航空航天大学学报;2006年10期
7 张德政;阿孜古丽;刘洁卉;;基于图分析的领域知识获取技术[J];北京科技大学学报;2007年S2期
8 张梅;郝佳;阎艳;李波;;基于本体的知识建模技术[J];北京理工大学学报;2010年12期
9 杨晓;张迎新;;Apriori算法在消费市场价格分析中的研究与应用[J];北京工商大学学报(自然科学版);2009年03期
10 李梦奇;谢志江;;基于市场供应的包装机械模块化设计[J];包装工程;2008年09期
中国重要会议论文全文数据库 前10条
1 罗艳;;论数据挖掘的发展前景及潜在价值[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
2 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
3 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年
4 王宏生;赵文;张路;;基于DOM解析的OWL本体关系数据库存储模式设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 杨子良;陶宏才;;一种基于向量运算的频繁项集快速挖掘算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 李久丹;陈剑;覃涛;;数据挖掘技术理论研究[A];广西计算机学会2010年学术年会论文集[C];2010年
7 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
8 王丹;赵荣娟;;P2P系统中一种基于代理的RDF文档查询模型[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
9 汪婷婷;吴军华;朱莹;刘一田;;基于RDF/XML的网格资源分层描述[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
10 蒋鹏;;基于本体的电子政务文档智能检索方法的研究[A];信息经济学与电子商务:第十三届中国信息经济学会学术年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 胡沙;面向服务的模具企业信息系统集成平台关键技术研究[D];华中科技大学;2010年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年
5 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
8 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年
9 张珊;REST式GIS服务聚合研究及软件开发[D];华东师范大学;2011年
10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
3 赵永华;多学科本体构建与集成技术研究[D];山东科技大学;2010年
4 杨立志;基于语义网的图像检索算法的研究[D];广西师范学院;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
7 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
8 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
9 肖好冰;本体构建与网络交流平台的设计与实现[D];中国海洋大学;2010年
10 芦荣松;基于产品研发的IGDSS知识表示及其推理机制研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 隋春光;李霖;;本体的概念、构建及其在地理信息科学中的应用[J];测绘通报;2010年04期
3 刘植惠;;本体(Ontology)与语义网(Semantic Web)[J];重庆图情研究;2006年03期
4 范冬梅;卢志茂;张汝波;潘树燊;;基于信息增益改进贝叶斯模型的汉语词义消歧[J];电子与信息学报;2008年12期
5 朱礼军,陶兰,刘慧;领域本体中的概念相似度计算[J];华南理工大学学报(自然科学版);2004年S1期
6 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
7 王辉;左万利;王晖昱;宁爱军;孙志伟;满春雷;;基于质心向量的增量式主题爬行[J];计算机研究与发展;2009年02期
8 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
9 陈杰;蒋祖华;;领域本体的概念相似度计算[J];计算机工程与应用;2006年33期
10 徐德智;王怀民;;基于本体的概念间语义相似度计算方法研究[J];计算机工程与应用;2007年08期
中国博士学位论文全文数据库 前3条
1 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
2 胡鹤;本体方法及其时空推理应用研究[D];吉林大学;2004年
3 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前10条
1 卢革超;基于本体的主题搜索引擎技术研究[D];吉林大学;2011年
2 林捷;主题网络爬虫的研究和实现[D];武汉理工大学;2011年
3 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年
4 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年
5 王俊;基于Web搜索的舆情分析系统的设计与实现[D];北京邮电大学;2011年
6 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
7 石卉;基于网络内容分析法的舆情信息研究及应用[D];华中师范大学;2011年
8 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
9 何世柱;文本分类和聚类若干模型的研究[D];江西师范大学;2011年
10 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
【二级引证文献】
中国期刊全文数据库 前1条
1 刘海燕;黄睿;黄轩;;基于主题爬虫的漏洞库维护系统[J];计算机与现代化;2014年08期
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 高洁;论电信企业客户信用管理系统的构建[J];北京邮电大学学报(社会科学版);2003年04期
4 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
5 高波,眭莉;基于粗糙集的网页训练样本集的分类属性的选择[J];常州工学院学报;2004年02期
6 王红梅,朱洪秀,王凌;对中文搜索引擎未来发展的探讨[J];东北电力学院学报;2001年04期
7 沈中南,史元春;学习对象元数据的分层描述[J];中国远程教育;2002年02期
8 林炜,蔺永华;HTTP协议及其发展[J];电脑学习;1999年01期
9 李雅丽;李然;;DNS在网络中的应用[J];电脑知识与技术(学术交流);2007年09期
10 曹树金,马利霞;描述教育资源的元数据标准[J];大学图书馆学报;2004年02期
中国博士学位论文全文数据库 前5条
1 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
2 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
3 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
4 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
5 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 吴政;面向侨务信息主题的搜索引擎[D];华侨大学;2003年
2 刘峰;通用中英文专业搜索引擎技术的研究及应用[D];大连理工大学;2004年
3 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
4 邵留国;基于本体论的智能检索研究[D];中南大学;2003年
5 艾丹祥;基于本体论的知识检索研究[D];武汉大学;2004年
6 张申恒;基于本体的企业文本检索模型研究[D];合肥工业大学;2005年
7 陈杰;主题搜索引擎中网络蜘蛛搜索策略研究[D];浙江大学;2006年
8 胡一俊;web超链分析应用研究[D];武汉大学;2005年
9 陈建;领域本体的创建和应用研究[D];对外经济贸易大学;2006年
10 郁书好;基于本体的教学知识库研究[D];河海大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 李景,苏晓鹭,钱平;构建领域本体的方法[J];计算机与农业;2003年07期
2 肖敏;;领域本体的构建方法研究[J];情报杂志;2006年02期
3 马文峰;杜小勇;;知识网格研究[J];图书情报工作;2007年10期
4 许勇;王智学;李宗勇;;领域本体的一致性检查[J];计算机工程;2009年01期
5 宋佳;王盼卿;齐剑锋;李晓辉;;装备领域本体的构建方法研究[J];微计算机信息;2009年15期
6 张付志;李伟静;朱彩云;;基于领域本体的跨系统个性化服务用户模型[J];计算机工程;2009年13期
7 王涵;张功杰;;领域本体建模研究与实现[J];煤炭科技;2009年02期
8 陈坚;何洁月;;RDF可信度扩展在领域本体构建中的应用[J];计算机技术与发展;2006年01期
9 李衍淼;霍常青;;本体论在企业信息检索中的应用[J];福建电脑;2006年08期
10 徐忠华;程方玉;王强;周传宏;;基于领域本体的PDM系统工程更改管理模型[J];机电工程;2006年12期
中国重要会议论文全文数据库 前10条
1 冯瑾;;初始领域本体获取研究——以国际共运领域为例[A];中国图书馆学会专业图书馆分会2009年学术年会论文集[C];2009年
2 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 叶琼;李绍稳;张友华;刘恺;;农业领域本体知识的云化方法研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
4 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
5 张士靖;胡兆芹;;医学领域本体的构建实践[A];中华医学会第十二次全国医学信息学术会议论文汇编[C];2006年
6 刘新华;刘文剑;;基于领域本体的技术准备信息集成技术研究[A];全国先进制造技术高层论坛暨第七届制造业自动化与信息化技术研讨会论文集[C];2008年
7 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 李甜甜;;基于本体论的供应链知识管理[A];经济发展与管理创新--全国经济管理院校工业技术学研究会第十届学术年会论文集[C];2010年
9 王茹;邢毓华;;古建筑领域本体构建研究[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年
10 程晓;郑德权;杨宇航;邵国军;;面向半结构化文本的领域本体关系抽取[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前1条
1 杞人;我基于中文的农业本体论研究与应用国际领先[N];科技日报;2011年
中国博士学位论文全文数据库 前10条
1 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
2 欧阳柳波;领域本体覆盖度评价关键技术研究[D];中南大学;2012年
3 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年
4 谷建军;基于叙词表的中医古籍文献领域本体建模方法研究[D];中国中医科学院;2006年
5 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
6 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
7 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
8 李丽双;领域本体学习中术语及关系抽取方法的研究[D];大连理工大学;2013年
9 李景;领域本体的构建方法与应用研究[D];中国农业科学院;2009年
10 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 牟冬梅;本体在医学数字信息资源知识组织中的应用研究[D];吉林大学;2005年
2 史军强;WEB信息集成技术研究[D];电子科技大学;2005年
3 叶剑;基于领域本体的E-Learning系统研究[D];华中师范大学;2011年
4 付佳佳;基于叙词表的领域本体建模研究[D];华东师范大学;2006年
5 许琳;基于本体的个性化信息服务用户模型构建研究[D];吉林大学;2008年
6 冯艳华;基于语义的构件描述和检索方法的研究[D];西北大学;2005年
7 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
8 张江;本体在领域知识管理中的应用研究[D];重庆大学;2005年
9 赵娟;本体在Web服务发现中的应用[D];西北大学;2006年
10 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026