收藏本站
《北京邮电大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网络爬虫技术的内容探测系统设计与实现

黄晓鹏  
【摘要】: 随着信息产业的飞速发展,互联网与人们的日常生活联系日趋紧密。互联网上的业务范围在日是益扩大,互联网已经从早期的电子邮件应用转变为集合网络娱乐、信息获取、交流沟通以及商务交易于一体的综合业务大平台。然而在业务发展和网民数量增长的同时互联网存在的问题也日益暴露出来,尤其是网络上泛滥的不良信息资源,严重影响网民尤其是青少年的身心健康。为此对网络资源的内容探测系统研究显得越来越重要。通过内容探测系统对互联网上存在的网页内容进行安全检查,实现对网络资源的绿化,这为网民提供一个健康的网络环境起到积极的推进作用,具有很大的意义和价值。 本文首先分析了互联网发展的现况以及存在的问题。然后介绍了内容探测系统的两种实现方法:主动探测技术和被动监测技术,并简要分析了两种探测技术的特点和实现方式。在此基础上提出本文所选用的实现方案——基于网络爬虫技术的内容探测技术。通过网络爬虫技术实现对互联网上的网页内容进行提取,并对提取的网页进行文本和图像识别。接下来介绍了与内容探测技术相关的技术研究与实现。综合比较各种技术方案,提出本文的内容探测技术的设计与实现方案。其中对抓取的图片文件进行图像识别是本文的研究重点。本文使用的图像识别技术采用基于支持向量机(SVM)为理论基础,通过提取输入图像的若干特征信息,将输入图像映射到高维向量空间,使得图像能够被超平面进行线性划分,并在此基础进行图像识别系统的设计实现以及识别率测试。最后总结本文所作的工作,并指出下一步工作方向。 基于网络爬虫的内容探测系统能够对网络上存在的文本和图片中包含的违规信息进行有效鉴定。它对遏制网络上不良信息的传播起到积极作用,为互联网整治工作提供了保证,具有很强的现实意义。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3

免费申请
【相似文献】
中国期刊全文数据库 前10条
1 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期
2 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期
3 贺财平;覃事刚;刘建勋;;Web服务搜索引擎的设计与实现[J];计算机应用与软件;2011年01期
4 刘明辉;张志平;张新民;;网络资源聚合方法探析[J];机械管理开发;2008年05期
5 王舜燕;李蕾;吴兵华;;基于ID3分类算法的深度网络爬虫设计[J];现代图书情报技术;2008年06期
6 詹恒飞;杨岳湘;方宏;;Nutch分布式网络爬虫研究与优化[J];计算机科学与探索;2011年01期
7 王芳;陈海建;;深入解析Web主题爬虫的关键性原理[J];微型电脑应用;2011年07期
8 陈汶滨;夏学梅;;基于聚焦爬虫的手机天气预报系统[J];今日科苑;2009年02期
9 刘磊安;符志强;;基于Lucene.net网络爬虫的设计与实现[J];电脑知识与技术;2010年08期
10 张睿涵;林振荣;李建民;衷湾;;基于主题定制的专利网络爬虫的设计与实现[J];计算机与现代化;2011年07期
中国重要会议论文全文数据库 前10条
1 王荣本;王超;初秀民;;路面破损图像识别研究进展[A];中国公路学会筑路机械学会第十四次学术年会论文集[C];2003年
2 唐中实;朱丽云;孔林;尹平;童辉;黄淑伟;;电子签名图像识别原型系统研究[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
3 姜楠;张春森;;遗传算法在图像模板匹配中的应用[A];高精度几何量光电测量与校准技术研讨会论文集[C];2008年
4 宁辉;唐远河;解光勇;刘汉臣;邵建斌;;水中气泡的图像识别技术[A];2004全国光学与光电子学学术研讨会、2005全国光学与光电子学学术研讨会、广西光学学会成立20周年年会论文集[C];2005年
5 陈振林;;具有露霜判别能力的精密露点仪研制[A];中国仪器仪表学会第三届青年学术会议论文集(上)[C];2001年
6 偰国平;;一种准确识别图像中目标物体边缘的算法设计[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(上册)[C];2008年
7 许开宇;徐志京;郑华耀;;基于小波变换的图像识别研究[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 姚大平;柳庆;陆学祥;;基于支持向量机的货物识别系统的设计与实现[A];天津市电视技术研究会2009年年会论文集(1)[C];2009年
9 彭泽军;何建国;;基于不变矩及模糊神经网络的图像识别[A];中国工程物理研究院科技年报(2003)[C];2003年
10 俞建荣;卜凡亮;李文力;陆晓军;;流化床气泡运动的图像识别与分析[A];第三届全国信息获取与处理学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 李红;法研究出图像识别软件[N];科技日报;2000年
2 记者 张兆军通讯员 郑原驰;图像识别混合交通控制系统问世[N];科技日报;2008年
3 海言;慧视:让电脑“识文断字”[N];科技日报;2007年
4 本报记者 李彬;手机变搜索引擎[N];科技日报;2006年
5 易凡;瑞萨智能交通技术亮相ITS[N];电子资讯时报;2007年
6 沈仪;沈阳仪表院成功研制自动图像识别划片机[N];中国工业报;2009年
7 田梦;PDF图像识别助推电子政务[N];计算机世界;2007年
8 李克;DVIR:物流技术的一项重大创新[N];现代物流报;2007年
9 沈晓光编译;半导体技术向低耗能发展[N];中国电子报;2008年
10 吕网大;“汉芯三号”面世[N];人民日报;2004年
中国博士学位论文全文数据库 前10条
1 王宇新;基于特征分布的图像识别方法研究与应用[D];大连理工大学;2012年
2 翟俊海;基于小波变换和模糊粗糙集技术的图像识别[D];河北大学;2010年
3 胡新宇;基于机器视觉的家蚕微粒子图像识别方法的研究[D];武汉理工大学;2011年
4 林勇;基于振动谱图像识别的故障诊断方法研究[D];浙江大学;2009年
5 罗刚银;全自动血型分析系统关键技术的研究[D];中国科学院研究生院(长春光学精密机械与物理研究所);2012年
6 李杰;隐马尔可夫模型的研究及其在图像识别中的应用[D];清华大学;2004年
7 王克如;基于图像识别的作物病虫草害诊断研究[D];中国农业科学院;2005年
8 赵书涛;基于计算机视觉的直读仪表校验方法研究[D];华北电力大学(河北);2006年
9 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
10 李进;视觉导航智能车辆的路径识别和跟踪控制[D];合肥工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 黄晓鹏;基于网络爬虫技术的内容探测系统设计与实现[D];北京邮电大学;2010年
2 崔春雷;军用自动报靶系统中图像识别技术的研究[D];大连海事大学;2004年
3 龚文勇;改进的基于光照方向的虚假图像识别[D];吉林大学;2010年
4 刘胜强;纸卷数字化和图像识别在网上阅卷中的应用[D];电子科技大学;2010年
5 王睿;基于图像识别与匹配技术的奶牛保险系统研究[D];内蒙古大学;2011年
6 王相维;基于图像识别技术的结构位移监测系统的开发和应用[D];南京理工大学;2009年
7 甘洪泉;基于嵌入式视频监控系统的指针识别[D];华北电力大学(北京);2004年
8 刘栋嫣;基于图像识别技术的智能点钞机设计[D];哈尔滨理工大学;2005年
9 白洁;视频监控网络图像系统研究与实现[D];西北工业大学;2004年
10 董辉;基于神经网络的图像识别系统的研究及实现[D];西南农业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026