收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文网页自动采集与分类系统设计与实现

于洪波  
【摘要】: 随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息已经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。 传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,其中有相当大的一部分利用率很低,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。同时如何有效地对采集到的网页实现自动分类,以创建更为有效、快捷的搜索引擎也是非常必要的。网页分类是组织和管理信息的有效手段,它可以在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息。传统的操作模式是对其人工分类后进行组织和管理。随着Internet上各种信息的迅猛增加,仅靠人工的方式来处理是不切实际的。因此,网页自动分类是一项具有较大实用价值的方法,也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。 本文首先介绍了课题背景、研究目的和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、信息抽取技术、中文分词技术、特征提取技术、网页分类技术等。在综合比较了几种典型的算法之后,本文选取了主题爬虫的方法和分类方面表现出色的KNN方法,同时结合去重、分词和特征提取等相关技术的配合,并对中文网页的结构和特点进行了分析后,提出中文网页采集和分类的设计与实现方法,最后通过程序设计语言来实现,在本文最后对系统进行了测试。测试结果达到了系统设计的要求,应用效果显著。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 张莉,曾致远;Windows下网页信息实时监听程序的设计与实现[J];微计算机信息;2005年03期
10 江祥奎,原思聪;中文网页分类中的网页特征提取方法[J];电脑开发与应用;2005年10期
11 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
12 刘杰;刘冰;刘猛;陈晓红;;一种基于Oracle Text的中文网页自动分类系统[J];网络安全技术与应用;2007年05期
13 xingyunMe;剪剪贴贴~好精彩——网页信息剪贴收集专家eNotebook[J];电脑校园;2003年11期
14 王少宇,杜娟,秦前清;基于内容的网页信息处理方法[J];计算机应用;2005年04期
15 徐晓丹;;中文网页自动摘要系统的研究[J];计算机与现代化;2006年09期
16 冯是聪,张志刚,李晓明;一种中文网页自动分类方法的实现及应用[J];计算机工程;2004年05期
17 武湖成;;中文网页文字信息的提取方法[J];电脑与电信;2007年10期
18 李芳芳;葛斌;毛星亮;汤大权;;基于语义关联的中文网页主题词提取方法研究[J];计算机应用研究;2011年01期
19 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
20 蒋昌金;彭宏;陈建超;马千里;严桂夺;;基于组合词和同义词集的关键词提取算法[J];计算机应用研究;2010年08期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
7 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
8 薛长勇;;营养相关网络资源简介[A];2009年国家级继续医学教育项目临床营养新进展培训班论文集[C];2009年
9 王强;;发挥高校综合优势 办好学报英文网页[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C];2006年
10 甘卫东;郭宏骞;曾令奇;;泌尿外科病人使用因特网情况及相关专业网页质量调查[A];第十五届全国泌尿外科学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
5 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
8 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
9 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
10 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
9 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
10 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 陈翔;趋势科技:近十万中文网页遭入侵[N];中国计算机报;2008年
3 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
4 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
5 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
6 郑依华;搜索引擎也开源[N];计算机世界;2006年
7 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
8 路人甲;请个专家来贴图[N];电脑报;2005年
9 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
10 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978