收藏本站
《武汉理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

增量式Web信息采集与信息提取系统的研究与实现

李莎莎  
【摘要】:随着网络的迅猛发展,人们越来越依赖从网络上获取信息。网络信息资源的保存寿命通常只有几十天,随着时间的推移,大量旧的网络信息资源正在被新的网络信息淹没。如何更迅速更准确地从互联网上采集有用的信息成为研究的热点。大规模的非增量式采集技术已经发展很成熟。为了避免因重复搜集未变化的网页而带来时间上的浪费,增量采集技术应运而生。为了提高更新采集的效率和信息抽取的抽准率,本文主要针对增量更新的Web信息采集及基于隐马尔夫模型的信息提取进行了研究。 本文分析了Web信息采集系统的研究背景、研究意义、发展现状以及其面临的各种困难和挑战,阐述了信息采集系统的工作原理和网络爬虫的工作流程,在研究信息采集系统以及信息抽取的核心技术的基础上结合增量信息采集系统的需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案,构建了一个性能良好,具有可扩展性的增量信息采集及信息提取系统。该系统包括如下几个模块:页面采集、页面解析、URL去重、页面去重和更新检测。论文的主要工作以及创新如下: 1.引入了目录型网页,提高了发现新网页的效率,采用FWKNN算法有效地识别了目录型网页。 2.针对MD5算法过于苛刻的问题,本文采取基于网页框架和规则的方法先对网页去噪后,再对网页正文计算得出唯一的MD5值。此方法在一定程度上提高了网页相似性分析的准确率。 3.在预测网页的变化频率方面,通过分析泊松模型存在的缺点,引入了更新频率计算窗口,提出内容分析和网页隶属分析,避免了建立模型前需要大量的训练数据,能更准确地预测网页变化频率。 4.在研究隐马尔可夫模型的基础上,改进了基于HMM的信息抽取方法,对含有固定格式的信息项采用正则表达式处理,并对未知观测值概率进行了平滑处理。实验表明该方法获得了更好的抽取效果。 最后,通过改进的Web增量采集及信息提取系统的实验,分析了运行的数据,证明系统已成功达到了预期的目标。
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.09

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 杨眉;;网页更新预测算法研究现状[J];软件导刊;2013年04期
中国重要会议论文全文数据库 前1条
1 陈诚;李光亚;童庆;;增量爬取技术的策略框架设计[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
中国硕士学位论文全文数据库 前1条
1 齐文龙;基于爬虫技术的基金信息采集系统的设计与实现[D];天津大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期
2 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
3 张玲,黄铁军,高文;基于隐马尔可夫模型的引文信息提取[J];计算机工程;2003年20期
4 吴丽辉,王斌,张刚;一个个性化的Web信息采集模型[J];计算机工程;2005年22期
5 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[J];计算机工程;2007年19期
6 孟涛;王继民;闫宏飞;;网页变化与增量搜集技术[J];软件学报;2006年05期
7 王大伟;张岩;曾皓;潘延辉;;一个预测网页变化的增量式更新模型[J];微计算机信息;2009年06期
8 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
9 利业鞑;增量式并行webcrawler模型研究[J];沿海企业与科技;2005年10期
10 陈振洲,李磊,姚正安;基于SVM的特征加权KNN算法[J];中山大学学报(自然科学版);2005年01期
中国硕士学位论文全文数据库 前2条
1 吴芬芬;信息抽取算法研究[D];吉林大学;2006年
2 龚诚;网页增量式采集技术研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 宋健豪;赵刚;;基于启发式规则优化的网页元素提取方法[J];信息安全与技术;2012年06期
2 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
3 郭力军;朱群雄;;基于RSS数据源的用户兴趣模型改进及应用[J];北京化工大学学报(自然科学版);2011年01期
4 朱华;浅谈网络信息资源采集技术[J];国家图书馆学刊;2004年02期
5 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
6 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
7 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期
8 庞孝梅;浅谈网络信息资源开发的实现方式[J];重庆工学院学报;2005年03期
9 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
10 庞孝梅;;网络信息资源开发实现方式的探讨[J];产业与科技论坛;2008年11期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
3 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
4 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年
5 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
6 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
7 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
9 姜丽华;张宏斌;;基于Multi-Agent的个性化Web信息采集系统[A];中国农业信息科技创新与学科发展大会论文汇编[C];2007年
10 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
3 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
4 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
5 吴超;信息检索中top-k问题的并行算法及优化研究[D];中国科学技术大学;2011年
6 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
7 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
9 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
10 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 杜广飞;Web应用移动化适配服务中间件的研究与实现[D];郑州大学;2010年
4 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
5 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年
6 王思丽;藏文网页自动发现与采集技术研究[D];西北民族大学;2010年
7 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
8 王晓地;Web信息采集技术研究与实现[D];华南理工大学;2010年
9 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
10 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王敬,冯新力;中国证券投资基金的需求细分与供给创新[J];财经科学;2004年06期
2 王丹,魏宝忠,于戈,王国仁;移动Agent在分布式平台上的研究与实现[J];东北大学学报;2002年05期
3 高灵霞;;基于主题爬虫的个性化搜索引擎技术分析[J];电脑知识与技术;2009年32期
4 熊江;嵌入式系统与普适计算[J];单片机与嵌入式系统应用;2003年04期
5 李甫英;证券投资基金在我国发展的历史和现状[J];党史文苑;2004年06期
6 杜利民,谢凌云,刘斌;HMM非特定人连续语音识别的嵌入式实现[J];电子与信息学报;2005年01期
7 马于涛;张海粟;刘玉超;陈桂生;;一种Web服务综合描述模型[J];电子与信息学报;2012年03期
8 张浩,骆正虎,杨敬安;基于Java语言的移动Agent开发平台[J];合肥工业大学学报(自然科学版);2001年05期
9 沈文勤,李庆超,邵志清;搜索引擎的渐增式爬行和备份式更新模式[J];华东理工大学学报;2004年03期
10 周英飚,王军;基于神经网络的增量式crawler重访频率研究[J];华中科技大学学报(自然科学版);2004年12期
中国重要会议论文全文数据库 前1条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前7条
1 刘威;面向普适计算的上下文建模和推理技术研究[D];南京邮电大学;2011年
2 贾春鑫;面向主题的双约束网页采集方法的研究和实现[D];上海交通大学;2011年
3 刘珠峰;基于手绘草图的三维建模研究[D];南京航空航天大学;2010年
4 刘凡;Web页面跟踪系统的研究与实现[D];清华大学;2003年
5 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
6 龚诚;网页增量式采集技术研究[D];哈尔滨工业大学;2007年
7 陆娜;我国证券投资基金业发展中的主要问题及对策研究[D];西南财经大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 王建勇,单松巍,雷鸣,谢正茂,李晓明;海量Web搜索引擎系统中用户行为的分布特征及其启示[J];中国科学E辑:技术科学;2001年04期
3 田盛丰,黄厚宽;基于支持向量机的数据库学习算法[J];计算机研究与发展;2000年01期
4 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
5 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
6 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期
7 范莉娅;肖田元;;从HTML表格自动构建局部本体方法的研究[J];计算机集成制造系统;2007年09期
8 庄明,老松杨,吴玲达;一种统计和词性相结合的命名实体发现方法[J];计算机应用;2004年01期
9 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
10 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
中国硕士学位论文全文数据库 前1条
1 侯震宇;主题型搜索引擎的研究与实现[D];中国科学院研究生院(文献情报中心);2003年
【相似文献】
中国期刊全文数据库 前10条
1 秦永平;网页信息共享技术[J];计算机应用;2000年02期
2 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
3 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
4 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
5 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
6 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
7 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
8 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
9 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
10 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
9 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
10 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026