收藏本站
《吉林大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于本体的主动学习主题爬行的研究与实现

任斌  
【摘要】: 本文的主要工作是构建基于旅游领域的本体,借助本体的语义功能实现了主题爬行,并对本体主动学习进行了深入研究。整个系统共划分为四个主要模块,分别是网页爬行模块、相关度计算模块、相关网页处理模块和本体学习模块。该系统最大的特点是引入了两个循环迭代过程,分别是网络爬虫爬行迭代过程和本体增量式自主学习的迭代过程。爬虫爬行的迭代过程是根据URL列表中提取相关度较高的URL进行下载访问,并借助本体的概念和网页的特征项词条,进行相关度的计算,提取相关度较高的网页中的URL,加入到URL列表中待下次爬行抓取。本体增量学习迭代过程是将相关度较高的网页内容转换为纯文本形式,通过语言学和统计学等相关方法及hownet或wordnet等工具实现本体概念和概念的关系提取过程。通过以上两个循环迭代过程,系统能够抓取大量与旅游领域相关的网页。最后,通过对实验数据的分析,比较使用本体和不使用本体两种情况,使用基于本体的主动学习的爬虫获得网页相关度及收获率都明显的优于不使用本体的爬虫。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
3 栾艳 ,丁二玉 ,骆斌;基于Ontology的语义检索技术[J];计算机工程与应用;2005年28期
4 廖明宏;本体论与信息检索[J];计算机工程;2000年02期
5 万捷,滕至阳;本体论在基于内容信息检索中的应用[J];计算机工程;2003年04期
6 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期
7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
8 林春梅,何跃;创建企业本体模型的研究[J];计算机应用研究;2003年01期
9 龚华明;张元虹;薛征山;张艳梅;;旅游本体的构建研究[J];科技广场;2008年08期
10 宋峻峰,张维明,肖卫东,唐九阳;基于本体的信息检索模型研究[J];南京大学学报(自然科学版);2005年02期
中国博士学位论文全文数据库 前1条
1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前3条
1 滕岩;基于领域知识的智能信息检索研究[D];山东大学;2006年
2 杨小佳;基于本体的公共交通领域智能信息检索研究[D];大连海事大学;2007年
3 成晓;基于本体的旅游网站站内检索研究[D];南京理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 唐琨皓;杨贯中;刘燕玲;;基于本体的任务模型研究与应用[J];办公自动化;2009年02期
6 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
7 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
8 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
9 梁晔;周海燕;;本体论与语义Web[J];北京联合大学学报(自然科学版);2007年01期
10 刘鹏举;朱秀杰;周宇飞;李志清;唐小明;;基于OWL的森林资源数据智能化采集技术[J];北京林业大学学报;2008年01期
中国重要会议论文全文数据库 前10条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 冯宇;王川川;杨璇;;本体论及其在产品信息组织中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
3 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
4 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
5 吴晶晶;荆继武;高能;;基于本体的信息系统开发[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
6 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
7 李甜甜;;基于本体论的供应链知识管理[A];经济发展与管理创新--全国经济管理院校工业技术学研究会第十届学术年会论文集[C];2010年
8 姚文琳;王莉;王璀民;;基于Ontology的知识检索系统的设计与实现[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前10条
1 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
2 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 王强;空间信息服务聚合的关键技术研究[D];解放军信息工程大学;2010年
6 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
7 孙卫红;基于知识的网络化制造工艺设计技术及其在机床装备制造中的应用[D];浙江大学;2010年
8 安璐;基于自组织映射的期刊主题研究[D];武汉大学;2009年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 赵娜;基于知识地图的多领域本体语义互联研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
4 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
7 赵阳耀;基于本体的数据源映射方法与策略[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 唐微;网络信息提取系统关键技术研究[D];大连理工大学;2009年
10 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 宋军;张明山;;认知心理学在人机界面中的应用[J];包装工程;2006年05期
3 张利彪,周春光,刘小华,马铭;粒子群算法在求解优化问题中的应用[J];吉林大学学报(信息科学版);2005年04期
4 凌云,陈毓芬,王英杰;基于用户认知特征的地图可视化系统自适应用户界面研究[J];测绘学报;2005年03期
5 陈明;轻松拥有自己的站内搜索引擎[J];电脑爱好者;2004年23期
6 侯汉清,薛鹏军;基于知识库的网页自动标引和自动分类系统的设计[J];大学图书馆学报;2004年01期
7 陈刚,金芝,陆汝钤;虚拟企业及其协作模型[J];电子学报;2002年S1期
8 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期
9 王洪伟,吴家春,蒋馥;基于描述逻辑的本体模型研究[J];系统工程;2003年03期
10 梁碧允;傅秀芬;梁文健;;基于认知心理和人机界面的教学网站设计[J];广东工业大学学报;2006年02期
中国博士学位论文全文数据库 前5条
1 徐振宁;基于本体的Web数据语义信息的表示与处理方法研究[D];中国人民解放军国防科学技术大学;2002年
2 李景;本体理论及在农业文献检索系统中的应用研究——以花卉学本体建模为例[D];中国科学院研究生院(文献情报中心);2004年
3 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
4 胡霞;认知语境研究[D];浙江大学;2005年
5 杜文华;本体的构建及其在数字图书馆中的应用研究[D];武汉大学;2005年
中国硕士学位论文全文数据库 前3条
1 任涛;基于本体和描述逻辑的Web服务查找技术研究[D];山东大学;2005年
2 张江;本体在领域知识管理中的应用研究[D];重庆大学;2005年
3 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
10 刘军;张净;;基于DOM的网页主题信息的抽取[J];计算机应用与软件;2010年05期
中国重要会议论文全文数据库 前10条
1 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
9 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
10 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
10 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 李冠宇;基于智能体和本体的语义数据集成研究[D];大连理工大学;2010年
6 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
7 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
8 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
9 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
10 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
2 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
8 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
9 邢敏玲;基于网页分块的主题爬虫方法研究[D];重庆大学;2011年
10 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026