收藏本站
《西安电子科技大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于领域概念定制的主题爬虫系统的设计与实现

蒋科  
【摘要】: 近些年随着互联网中信息量的快速增长,如何及时准确的从互联网上获取信息也变得越来越重要,而面向主题搜索引擎技术的应用正是为此应运而生的。主题搜索引擎是特殊化的搜索引擎,它只面向某一具体的领域或主题,比起通用搜索引擎能更准确,更广泛的搜集领域或主题信息。然而如何为领域、主题相关性的判定制定准确的规则,如何有效的分析过滤无关资源保留相关主题资源,如何扩大对主题资源的搜索的覆盖度,成了主题爬虫系统的研究重点。 论文首先,介绍了搜索引擎的相关技术和相关的HTTP协议,描述了通用爬虫系统的工作原理及体系结构,重点阐述了主题爬虫系统的工作原理及体系结构。进而提出了主题爬虫系统相关度和重要度模块的结构设计。其次,研究了主题爬虫系统中主题相关性判定的关键算法并作了相应的应用分析;然后,提出了基于领域概念定制的网页评价算法设计,并设计出主题对象确立算法设计模块、初始种子优化算法设计模块、主题相关度分析算法设计模块和链接重要度分析算法设计模块。最后,成功实现了基于领域概念定制的主题爬虫系统并以足球新闻为主题对系统进行了测试,证明本系统有良好的主题资源搜索准确性和覆盖性。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP311.52

【相似文献】
中国期刊全文数据库 前10条
1 张巍,李志蜀;基于PageRank算法的搜索引擎优化策略[J];计算机应用;2005年07期
2 夏崇镨;康丽;;基于叙词表的主题爬虫技术研究[J];现代图书情报技术;2007年05期
3 陈晨;;基于主题爬虫的个性化搜索引擎技术研究[J];黑龙江科技信息;2010年31期
4 赵思佳;尹婷;;基于规则引擎的个性化主题网页爬虫的研究[J];计算机技术与发展;2011年03期
5 柴嘉斌;李广华;李长春;;主题爬虫搜索策略的研究[J];科技信息;2011年12期
6 韩金华;;搜索引擎算法综述[J];硅谷;2011年20期
7 刘悦,杨志峰,程学旗,王斌;利用链接分析技术提高搜索引擎查找质量的研究[J];微电子学与计算机;2002年05期
8 陈芸;Google的排名算法分析[J];景德镇高专学报;2005年02期
9 刘小鸿;;搜索引擎技术及其优化策略[J];中国医学教育技术;2010年02期
10 刘兵;;基于JavaScript等多链接分析的主题爬虫设计实现[J];许昌学院学报;2010年02期
中国重要会议论文全文数据库 前3条
1 ;Web搜索引擎原理与应用[A];四川省通信学会2005年学术年会论文集[C];2005年
2 卢悠悠;汪小帆;;节点重要性指标在有向网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
3 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前2条
1 刘悦;WWW上链接分析算法的若干研究[D];中国科学院研究生院(计算技术研究所);2004年
2 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 袁浩;主题爬虫搜索Web页面策略的研究[D];中南大学;2009年
2 王玉辉;垂直搜索引擎关键技术研究及应用[D];华北电力大学(河北);2009年
3 蒋科;基于领域概念定制的主题爬虫系统的设计与实现[D];西安电子科技大学;2007年
4 张霄;搜索引擎优化与营销的分析与研究[D];北京邮电大学;2009年
5 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
6 陈学进;Web结构挖掘研究[D];合肥工业大学;2006年
7 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年
8 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年
9 赵静;基于PageRank的MBA教育资源搜索引擎研究[D];大连海事大学;2009年
10 王丽;Web数据挖掘在个性化搜索技术上的研究[D];大连交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026