收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于网页内容分析的Web信息抽取技术及其应用

杨秀丽  
【摘要】: 随着计算机网络的发展和信息化社会的到来,搜索引擎正在发挥着日益重要的作用。通用搜索引擎以其方便、快捷、索引信息量大等特点而为人们所熟知,但使用它们检索特定领域的信息,或它们在面向特定领域的应用时,往往检索得到的信息准确性和专指性不强。因此,开发针对某一专题或应用的搜索引擎有实用价值和现实意义。在专题搜索引擎的开发中,用于爬取相关网页的网络蜘蛛的设计与实现对搜索引擎的整体性能有较大影响。 自1999年以来,我国高校招生规模逐年扩大,学生人数的大幅度增加,给高校学生的培养及就业带来了诸多压力。因此,运用科学的方法对在校学生教育信息和毕业生就业信息实施管理显得尤为重要,更重要的是,可以更好地对高校的招生和培养工作给予辅助指导。基于上述需求,本课题对以大学生就业信息及教育信息为主题的专用搜索引擎中的网络蜘蛛程序进行了设计与实现。在网页抓取过程中根据一定的规则分析页面内容,完成相关信息的抽取和分析,过滤与主题无关的内容,并将其存储到网页库中,进而完成搜索引擎中的数据准备工作,为后续处理奠定基础。本论文叙述了网络蜘蛛的实现过程,给出了系统架构,并通过将本文所述算法与其他的开源网络蜘蛛抓取网页的性能对比,分析了相应的性能。该算法能比较准确地抽取到相关网页的内容,同时,本文亦对其可能存在的不足进行了说明。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘筱;浅谈网页内容之动态更改[J];微电脑世界;2002年01期
2 龚德和;;获取网页内容方法多[J];电脑知识与技术(经验技巧);2007年04期
3 陈欣;卓力;;面向敏感网页识别的网页内容获取方案的设计与实现[J];测控技术;2009年05期
4 邱江涛;唐常杰;李川;朱军;;基于块分布的新闻网页内容提取[J];吉林大学学报(工学版);2009年05期
5 一啸;;精彩内容 瞬间分享[J];电脑迷;2010年10期
6 继华;;时空穿梭 快速找回以前看过的网页内容[J];电脑迷;2010年16期
7 张宝政;;网页内容防采集策略的研究[J];数字技术与应用;2010年05期
8 解姝;叶施仁;肖春;;社会媒体网页内容的分割与抽取[J];计算机工程;2011年21期
9 王悠悠;吴中博;;网页内容提取工具的设计与实现[J];电脑知识与技术;2011年32期
10 王国庆;;如伺保存和修改网页内容[J];广东电脑与电讯;1999年08期
11 齐志勇;;轻松截取无边框网页内容[J];河北教育(教学版);2006年06期
12 杨宇;;如何复制受限网页内容?[J];农村青少年科学探究;2012年01期
13 毕文慧;美化我们的网页——“表格布局之后的网页内容填充”教学设计[J];信息技术教育;2004年02期
14 曹春华;;获取加密网页内容的快捷方法[J];电脑迷;2005年02期
15 施水才;程涛;王霞;吕学强;;基于网页内容的广告推介研究[J];中文信息学报;2007年04期
16 李锋;;基于网站拓扑的网页内容精化算法[J];计算机工程;2007年21期
17 郑国良;叶飞跃;张滨;林国俊;;基于网页内容和链接价值的相关度方法的实现[J];计算机工程与设计;2008年23期
18 ;Java程序——不难[J];中国计算机用户;1997年35期
19 天天来;;网上资料手到擒来[J];电脑应用文萃;2001年11期
20 杨仁广;孟祥增;原佳丽;;一种基于网页内容和链接分析的主题搜索算法[J];情报杂志;2008年06期
中国重要会议论文全文数据库 前2条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 张建标;肖创柏;;网页内容实时监控审计系统的设计与实现[A];第十九次全国计算机安全学术交流会论文集[C];2004年
中国硕士学位论文全文数据库 前10条
1 史正群;网页内容分级系统的设计与实现[D];北京交通大学;2015年
2 苗苗;基于页面分块的网页内容提取的研究与实现[D];武汉理工大学;2010年
3 马晓兰;网页内容分级过滤系统研究[D];华东师范大学;2004年
4 李连霞;基于多特征的HTML网页内容提取的研究[D];山东大学;2008年
5 张强;网页内容获取及基于意图的聚类[D];北京邮电大学;2010年
6 周洪喜;基于人工标注技术的网页内容抽取系统开发[D];复旦大学;2010年
7 张琼;Web主题网页内容安全监管研究[D];西安电子科技大学;2008年
8 解姝;社会媒体网页内容分割与主题频繁簇的抽取[D];湘潭大学;2011年
9 罗超然;一种通用的网页内容抽取模块的设计与实现[D];北京邮电大学;2015年
10 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
中国重要报纸全文数据库 前10条
1 李点;卫星可加快网页内容传送[N];北京科技报;2001年
2 ;世纪互联推内容加强服务[N];中国电子报;2000年
3 浙江 姚恺丰;屏蔽非打印元素二法[N];电脑报;2004年
4 实习生 马霞;无障碍阅读系统:让互联网不再有“盲区”[N];科技日报;2011年
5 ;学生上网的保护[N];中国电脑教育报;2003年
6 王洁;新手问答[N];中国电脑教育报;2003年
7 李峰 曹诚志;加强反腐倡廉网络宣教的思考[N];中国纪检监察报;2005年
8 张常伟罗朱 本报记者 唐先武;用网络贯穿的文化“快车道”[N];科技日报;2008年
9 Xman;熊宝宝图标的EXE文件[N];电脑报;2002年
10 钊;香港网瞅准电视上网[N];中华工商时报;2000年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978