收藏本站
《吉林大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的主动学习主题爬行的研究与实现

任斌  
【摘要】: 本文的主要工作是构建基于旅游领域的本体,借助本体的语义功能实现了主题爬行,并对本体主动学习进行了深入研究。整个系统共划分为四个主要模块,分别是网页爬行模块、相关度计算模块、相关网页处理模块和本体学习模块。该系统最大的特点是引入了两个循环迭代过程,分别是网络爬虫爬行迭代过程和本体增量式自主学习的迭代过程。爬虫爬行的迭代过程是根据URL列表中提取相关度较高的URL进行下载访问,并借助本体的概念和网页的特征项词条,进行相关度的计算,提取相关度较高的网页中的URL,加入到URL列表中待下次爬行抓取。本体增量学习迭代过程是将相关度较高的网页内容转换为纯文本形式,通过语言学和统计学等相关方法及hownet或wordnet等工具实现本体概念和概念的关系提取过程。通过以上两个循环迭代过程,系统能够抓取大量与旅游领域相关的网页。最后,通过对实验数据的分析,比较使用本体和不使用本体两种情况,使用基于本体的主动学习的爬虫获得网页相关度及收获率都明显的优于不使用本体的爬虫。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
3 栾艳 ,丁二玉 ,骆斌;基于Ontology的语义检索技术[J];计算机工程与应用;2005年28期
4 廖明宏;本体论与信息检索[J];计算机工程;2000年02期
5 万捷,滕至阳;本体论在基于内容信息检索中的应用[J];计算机工程;2003年04期
6 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 林春梅,何跃;创建企业本体模型的研究[J];计算机应用研究;2003年01期
9 龚华明;张元虹;薛征山;张艳梅;;旅游本体的构建研究[J];科技广场;2008年08期
10 宋峻峰,张维明,肖卫东,唐九阳;基于本体的信息检索模型研究[J];南京大学学报(自然科学版);2005年02期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前3条
1 滕岩;基于领域知识的智能信息检索研究[D];山东大学;2006年
2 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
3 成晓;基于本体的旅游网站站内检索研究[D];南京理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 唐琨皓;杨贯中;刘燕玲;;基于本体的任务模型研究与应用[J];办公自动化;2009年02期
6 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
7 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
8 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
9 梁晔;周海燕;;本体论与语义Web[J];北京联合大学学报(自然科学版);2007年01期
10 刘鹏举;朱秀杰;周宇飞;李志清;唐小明;;基于OWL的森林资源数据智能化采集技术[J];北京林业大学学报;2008年01期
中国重要会议论文全文数据库 前10条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 冯宇;王川川;杨璇;;本体论及其在产品信息组织中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
3 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
4 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
5 吴晶晶;荆继武;高能;;基于本体的信息系统开发[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
7 李甜甜;;基于本体论的供应链知识管理[A];经济发展与管理创新--全国经济管理院校工业技术学研究会第十届学术年会论文集[C];2010年
8 姚文琳;王莉;王璀民;;基于Ontology的知识检索系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前10条
1 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
2 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 王强;空间信息服务聚合的关键技术研究[D];解放军信息工程大学;2010年
6 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
7 孙卫红;基于知识的网络化制造工艺设计技术及其在机床装备制造中的应用[D];浙江大学;2010年
8 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
4 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
7 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 唐微;网络信息提取系统关键技术研究[D];大连理工大学;2009年
10 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 宋军;张明山;;认知心理学在人机界面中的应用[J];包装工程;2006年05期
3 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
4 凌云,陈毓芬,王英杰;基于用户认知特征的地图可视化系统自适应用户界面研究[J];测绘学报;2005年03期
5 陈明;轻松拥有自己的站内搜索引擎[J];电脑爱好者;2004年23期
6 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
7 陈刚,金芝,陆汝钤;虚拟企业及其协作模型[J];电子学报;2002年S1期
8 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
9 王洪伟,吴家春,蒋馥;基于描述逻辑的本体模型研究[J];系统工程;2003年03期
10 梁碧允;傅秀芬;梁文健;;基于认知心理和人机界面的教学网站设计[J];广东工业大学学报;2006年02期
中国博士学位论文全文数据库 前5条
1 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
2 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
3 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
4 胡霞;认知语境研究[D];浙江大学;2005年
5 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前3条
1 任涛;基于本体和描述逻辑的Web服务查找技术研究[D];山东大学;2005年
2 张江;本体在领域知识管理中的应用研究[D];重庆大学;2005年
3 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 秦永平;网页信息共享技术[J];计算机应用;2000年02期
2 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
3 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
4 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
5 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
6 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
7 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
8 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
9 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
10 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
9 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
10 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026