收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Deep Web的网络信息抽取技术研究

王培正  
【摘要】: 在信息化时代,获得信息的途径越来越多。互联网作为信息的载体,在传播效率和信息容量方面都有无可替代的地位。但是随着信息量的增加,用户在互联网上获得真正所需信息的变得越来越困难。搜索引擎的出现改善了目前的状况,但是用户想要获得专业化的信息仍然不够方便。目前,页面中的信息大都保存在网站的后台数据库中,这些数据必须通过数据库访问技术才能访问到。因此针对页面的信息抽取技术研究成为目前一个比较热门的方向。 在Web信息抽取中,一般将整个Web分成两个领域:Surface Web和Deep Web,SurfaceWeb其实就是一般的通过点击HTML中的链接访问到的网页,Deep Web是通过特定的数据库访问技术查询后台数据库从而动态生成的页面。Deep Web的信息在一定程度上是通过模板生成的,所以它的数据呈现了一种结构化的性质。同时,在垂直搜索引擎中,结构化或半结构化的信息抽取技术是其实现的关键技术之一。而垂直搜索其实搜索的领域就是基于Deep Web网络的。目前,对这些数据的抽取都是利用包装器产生的,在包装器生成过程中,需要对网页分析并生成针对该网页的抽取规则。在分析网页时多余的“非主要数据”信息参与生成抽取规则不仅会影响包装器抽取的效率,而且影响结果的准确性。 本文提出了对HTML页面进行数据区域划分的思想。将HTML页面分成主要数据区域和非主要数据区域,然后利用HTML DOM树结构进行数据区域的识别和抽取。在数据区域识别中用到叶子节点相似度的特点对HTML DOM树中的节点进行层次的划分;在数据块的抽取中,对节点之间的关系再次比较,如果满足节点的相似度问题,那么就可以知道数据块的位置区域。在最终的数据位置,也就是数据项的识别上本文利用了HTML树编辑距离算法对树进行编辑距离匹配,最终选出最好的数据项节点,然后将节点中的信息抽取出来。总之,本文是通过对整个网页DOM树上同层次的各个节点的比较,将具有相似节点特征的联合节点进行划分,分成若干相似的数据区域,构成抽取各条信息的简单树结构。然后按照Deep Web数据的特点制定抽取规则,从而提取方法树的结构化信息。实验结果表明该方法在一定程度上提高了数据抽取的效率和抽取的准确率的召回率。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前1条
1 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
3 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
4 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
5 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
6 李颖;刘国华;佟冰;刘顺江;;基于素数的多源模式匹配方法的研究[J];燕山大学学报;2009年02期
7 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
8 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
10 霍娜;吕国英;;基于规则匹配的灾难性追踪事件信息抽取的研究[J];电脑开发与应用;2012年06期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
5 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
6 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
4 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
5 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
6 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
7 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
8 王颜新;非常规突发事件情境重构模型研究[D];哈尔滨工业大学;2011年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
4 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
5 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
6 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
7 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
8 周建斌;基于J2EE Web应用的科学数据共享平台的研究与实现[D];华南理工大学;2010年
9 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
10 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期
2 李向阳,苗壮;自由文本信息抽取技术[J];情报科学;2004年07期
3 李昕;王红梅;;信息抽取技术探析[J];通化师范学院学报;2008年04期
4 闫俊英;;信息抽取技术综述[J];福建电脑;2013年05期
5 张丙奇,姜吉发;企业相关信息抽取技术研究与系统实现[J];微电子学与计算机;2004年01期
6 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
7 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
8 来建梅;曹慧;马金刚;;中医药领域信息抽取技术的研究与应用[J];山东科学;2011年06期
9 曲伟峰;化松收;;一种基于案例分析的文本信息抽取技术[J];辽宁师专学报(自然科学版);2012年03期
10 孙师尧;;信息抽取技术在军事标图系统中的应用[J];电子科技;2013年12期
中国重要会议论文全文数据库 前3条
1 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 李昕;朱永盛 ;武港山;;论坛消息语义结构的提取与分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前1条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
中国硕士学位论文全文数据库 前10条
1 周峰;基于信息抽取技术的复杂网络自动构建的研究与实现[D];北京邮电大学;2009年
2 吴兰兰;基于本体的文本信息抽取技术及实现[D];东北师范大学;2011年
3 吴晓彦;基于结构语义熵的互联网商品信息抽取技术研究[D];复旦大学;2009年
4 郑长松;Web信息智能抽取技术的研究与实现[D];电子科技大学;2009年
5 孔德冉;基于领域Ontology的Web信息抽取研究[D];东北师范大学;2009年
6 胡航丽;基于Web的股评观点倾向性分析研究[D];北京工商大学;2010年
7 任仲晟;基于树形结构的Web信息抽取技术研究[D];厦门大学;2007年
8 陈晓颖;基于概念模型的中文网页信息抽取技术的研究[D];上海交通大学;2007年
9 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
10 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026