收藏本站
《解放军信息工程大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

网络文本信息采集分析关键技术研究与实现

丁宝琼  
【摘要】:随着互联网的迅猛发展, Web网页已经成为人们发布、获取信息的重要平台,网页数量也呈爆炸式增长。如何有效、快速地从这些海量的资源中找出用户关心的信息,成为目前网络技术研究的热点方向之一。 为了解决这个问题,也针对目前已经开发在用的大部分网络文本信息采集软件的缺陷,本文主要完成了以下研究工作: 第一、对Web文档的组织形式进行了深入分析,并综合考虑目前网页分块算法的优缺点,提出一种基于VIPS算法的DOM树方法,实现了对Web页面的准确分块;在分块的基础上,实现了网络噪声的有效去除和文本信息的正确提取。 第二、对网页信息的更新检测机制进行了研究。分析了目前主流算法的缺陷,在网页分块的基础上,提出一种新的更新检测机制,实现了网络数据的增量式采集,有效减少了信息冗余。 第三、对网页排序算法进行了研究。分析了HITS算法和ARC算法的优缺点,提出一种基于网页板块权重设置的新算法—BHITS算法,有效缓解了数据采集中的主题泛化与漂移现象,实现了基于主题的信息采集。 在实用、高效的设计准则下,本文综合利用聚焦爬虫技术、文本分类处理技术和以上关键技术,开发了Web网页文本信息采集处理系统,实现了Web网页文本信息的多模式快速采集处理。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期
2 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
3 赵经纬;;呼叫中心跨入社交媒体时代[J];通信世界;2011年28期
4 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
5 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
6 任铭;;互联网舆情热点分析统计方法研究[J];科技促进发展(应用版);2010年06期
7 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
8 陈淼;;基于数据包分析的网页还原技术研究[J];中国科技信息;2011年16期
9 何震;;针对OCR准确度不高的金融票据电子化解决方案[J];金融科技时代;2011年08期
10 齐威;刘知一;王仝杰;;面向互联网视频的话题分析技术研究[J];广播与电视技术;2011年07期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
5 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
6 张阳;李战怀;近藤广幸;;WEB PAGE的自动分类[A];第十六届全国数据库学术会议论文集[C];1999年
7 羌鑫林;刘许清;杨洁;高剑锋;;浅谈DGN数据中的文本信息到SHP格式的转换[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
8 曹剑芬;陈方炘;;基于文本信息的韵律结构预测及其在合成系统中的应用[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
9 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 闫洁;咱的信息:运营商保留那么久干啥?[N];新华每日电讯;2008年
3 蒋秀娟;常发短信会使人变笨吗?[N];科技日报;2007年
4 童岱;手机短信稳私安全吗[N];北京科技报;2008年
5 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
6 吴辰光;三大厂商抢食07年游戏机市场[N];北京商报;2007年
7 山东 牟晓东;加密文字信息技巧两则[N];电子报;2008年
8 山东 牟晓东;三种清除空格的方法[N];电子报;2008年
9 王朝选;讯飞语音助力中国航天[N];中国高新技术产业导报;2008年
10 周蓉蓉;移动时代的变迁[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
3 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 王智慧;可还原式数据嵌入技术的研究[D];大连理工大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 吴明巧;数字图像信息隐写与隐写分析技术研究[D];国防科学技术大学;2007年
8 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
9 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
10 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 沈洲;基于用户访问意图的网页动态建模技术的研究[D];东北大学;2008年
8 寇春花;主题爬虫的研究与实现[D];东北大学;2008年
9 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
10 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026