收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向主题的网络爬虫系统的设计与实现

赵康  
【摘要】:随着互联网的普及和网络规模的扩大,网页数据量远远超过了通用搜索引擎的覆盖范围。为提高抓取资源的质量,产生了主题网络爬虫。在爬取过程中,主题网络爬虫倾向于访问主题相似度高的页面。传统的主题爬虫策略通常基于网页文本内容或网页链接结构对网页主题进行分析。基于网页文本内容的主题判定策略只关注了网页正文文本信息,由于没有关注链接结构容易陷入局部最优解;基于网页链接结构的主题判定策略能够通过多个网页链接预测网页主题,但是由于缺少文本辅助判定主题相关性,经常会导致爬虫出现“主题偏移”。尽管现在有混合主题爬行策略的相关研究,改进了主题判定和爬取算法,但在查全率、查准率以及爬取速度方面仍然存在可提升的空间。为了提升主题爬虫的主题判定性能,本文提出了基于HowNet的文本主题相似度判定算法。首先提出了基于“知网”(HowNet)的主题相似度评价方法,针对传统信息量(IC)评价方法计算不够准确的缺点,本文对传统IC计算模型进行了改进。在IC计算过程中增加上位词、同义词、近义词和多义词的处理。针对向量空间模型(VSM)向量维度过高的问题,提出了一种基于HowNet的文本特征降维方法。在利用词频-逆文档频率算法(TF-IDF)对文本内容进行预处理之后,利用HowNet对文本向量进行进一步降维。最后将网页的文本内容相似度与网页链接结构相结合,设计了一种改进的混合主题相似度判定算法。该算法基于前述的HowNet的主题相似度评价方法来计算文本相似度,将文本相似度与网页排名(PageRank)算法相结合共同计算网页的PageRank值。通过仿真实验验证,该算法能够提高主题相似度判定的准确性,同时避免在爬虫运行后期获取的网页主题偏离预定主题。基于提出的混合主题判定算法,设计实现了一个主题爬虫系统。本文对该系统的功能需求进行了详细的分析,利用WebCollector框架实现爬虫功能,利用Neo4j和Mysql对主题对比文本和主题相关网页进行持久化存储。主题爬虫系统主要包括网页解析模块、文本处理模块、主题策略模块和主题对比文本模块。网页解析模块可以提取网页中的文本内容,文本处理模块可以将网页文本进行预处理并转化为网页文本特征向量,主题策略模块可以对网页的主题相似度进行判定,主题对比文本模块可以提供主题相似度对比时所需的对比文本。测试结果表明,该系统可以有效的通过关键字确定爬取主题,通过对比文本模块获得高相关性对比文本,能够以种子链接为URL调度起点完成相关主题网页爬取与存储,在爬取过程中避免了对大量无关网页的爬取。在性能方面该系统具有较好的时间性能、并发性与兼容性。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 耿磊;;起步阶段的网页信息资源长期保存[J];上海档案;2012年02期
2 王永红;;试论计算机网页设计中图形设计的处理运用[J];河北农机;2019年06期
3 陈建平;;高校重要网页信息采集归档实践探析[J];浙江档案;2017年09期
4 杨金弓;赵璐;郭森;;《网页信息展示》[J];美苑;2015年S2期
5 赵阳;;高校网页翻译特点、难点及英译经验总结[J];校园英语;2017年12期
6 王彦焱;李文超;;分类加权的TF-IDF的网页分类算法[J];数码世界;2017年07期
7 程倩楠;谭龙;李浩飞;;面向BIU的网页解析[J];科学中国人;2017年23期
8 李培丰;;基于“控制字符”网页信息的隐藏技术[J];福建电脑;2014年06期
9 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
10 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
11 巫满秀;;浅谈网页信息的保存技巧[J];福建电脑;2007年07期
12 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
13 双哲;孙蕾;;基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J];计算机应用与软件;2017年02期
14 夏小艳;;网页信息呈现方式影响用户决策研究述评[J];经营与管理;2016年11期
15 ;网页信息[J];中国动物保健;2002年02期
16 张莉;李晶;李慧;郭睿;;浅谈现代网页设计与制作[J];吉林交通科技;2010年02期
17 刘姝虹;;计算机图像处理技术在网页设计中的运用[J];计算机产品与流通;2017年08期
18 韦薇;;计算机网页设计中的布局与排版研究[J];现代信息科技;2018年06期
19 任军利;;网站管理地址泄露下网页信息快速加密仿真[J];计算机仿真;2017年05期
中国重要会议论文全文数据库 前10条
1 李培丰;;基于“控制字符”网页信息的隐藏技术[A];中国职协2014年度优秀科研成果获奖论文集(中册)[C];2014年
2 项尚;;计算机图像处理技术在网页设计中的运用[A];教师教育论坛(第三辑)[C];2019年
3 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
6 雷静;刘伟;黄道丽;;网页信息排列方式、色彩和层级深度对视觉搜索效率的影响[A];第十五届全国图象图形学学术会议论文集[C];2010年
7 张一鸣;;基于网页信息的印象形成的研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
8 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 杨震;殷俊;;移动互联网环境下适合运营商网络基础能力的搜索引擎设计研究[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
中国博士学位论文全文数据库 前5条
1 张梦妮;面向网站无障碍评估的网页抽样方法研究[D];浙江大学;2018年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 张亚楠;基于用户行为的信任感知推荐方法研究[D];哈尔滨工程大学;2014年
中国硕士学位论文全文数据库 前10条
1 赵康;面向主题的网络爬虫系统的设计与实现[D];北京邮电大学;2019年
2 邓钰莹;扁平化风格在网页界面设计中的应用研究[D];哈尔滨师范大学;2019年
3 井迪;基于Nutch的分布式爬虫系统的研究与优化[D];东北大学;2015年
4 何滕巴奥;教育浏览器下的网页分类算法的研究与设计[D];华中师范大学;2018年
5 聂忠磊;基于Web的仿冒网站信息检测及管理系统设计与实现[D];哈尔滨工业大学;2017年
6 高兆远;基于多特征挖掘的网页信息抽取方法研究[D];哈尔滨工业大学;2018年
7 贾雪鹏;钓鱼网页联合特征与智能检测算法研究与实现[D];西安工业大学;2018年
8 郭熠;网页图片文字比例和复杂度对网页美学和可用性的影响[D];浙江大学;2018年
9 南天柱;基于深度学习的钓鱼网页识别研究[D];西安科技大学;2018年
10 黄鑫宇;网页设计对快时尚服饰品牌促销作用研究[D];西安工程大学;2018年
中国重要报纸全文数据库 前9条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 本报记者 付丽丽;你的低价机票被“虫子”吃了[N];科技日报;2017年
3 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
4 上海宝山政府门户网站 黄永庆;网上“领导信箱”形同虚设应问责[N];东方城乡报;2010年
5 本报记者 焦雯;为建设美丽中国锦上添花[N];中国文化报;2013年
6 陈英凤;市长信箱缘何 “机器人办公”[N];深圳商报;2010年
7 胡立彪;欺客大店别嚣张[N];中国质量报;2015年
8 王健;信息高速新生活[N];黔西南日报;2015年
9 于发修;寻找搜索的技巧[N];中国计算机报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978