收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Deep Web的网络信息抽取技术研究

王培正  
【摘要】: 在信息化时代,获得信息的途径越来越多。互联网作为信息的载体,在传播效率和信息容量方面都有无可替代的地位。但是随着信息量的增加,用户在互联网上获得真正所需信息的变得越来越困难。搜索引擎的出现改善了目前的状况,但是用户想要获得专业化的信息仍然不够方便。目前,页面中的信息大都保存在网站的后台数据库中,这些数据必须通过数据库访问技术才能访问到。因此针对页面的信息抽取技术研究成为目前一个比较热门的方向。 在Web信息抽取中,一般将整个Web分成两个领域:Surface Web和Deep Web,SurfaceWeb其实就是一般的通过点击HTML中的链接访问到的网页,Deep Web是通过特定的数据库访问技术查询后台数据库从而动态生成的页面。Deep Web的信息在一定程度上是通过模板生成的,所以它的数据呈现了一种结构化的性质。同时,在垂直搜索引擎中,结构化或半结构化的信息抽取技术是其实现的关键技术之一。而垂直搜索其实搜索的领域就是基于Deep Web网络的。目前,对这些数据的抽取都是利用包装器产生的,在包装器生成过程中,需要对网页分析并生成针对该网页的抽取规则。在分析网页时多余的“非主要数据”信息参与生成抽取规则不仅会影响包装器抽取的效率,而且影响结果的准确性。 本文提出了对HTML页面进行数据区域划分的思想。将HTML页面分成主要数据区域和非主要数据区域,然后利用HTML DOM树结构进行数据区域的识别和抽取。在数据区域识别中用到叶子节点相似度的特点对HTML DOM树中的节点进行层次的划分;在数据块的抽取中,对节点之间的关系再次比较,如果满足节点的相似度问题,那么就可以知道数据块的位置区域。在最终的数据位置,也就是数据项的识别上本文利用了HTML树编辑距离算法对树进行编辑距离匹配,最终选出最好的数据项节点,然后将节点中的信息抽取出来。总之,本文是通过对整个网页DOM树上同层次的各个节点的比较,将具有相似节点特征的联合节点进行划分,分成若干相似的数据区域,构成抽取各条信息的简单树结构。然后按照Deep Web数据的特点制定抽取规则,从而提取方法树的结构化信息。实验结果表明该方法在一定程度上提高了数据抽取的效率和抽取的准确率的召回率。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期
2 李向阳,苗壮;自由文本信息抽取技术[J];情报科学;2004年07期
3 李昕;王红梅;;信息抽取技术探析[J];通化师范学院学报;2008年04期
4 闫俊英;;信息抽取技术综述[J];福建电脑;2013年05期
5 张丙奇,姜吉发;企业相关信息抽取技术研究与系统实现[J];微电子学与计算机;2004年01期
6 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
7 伍守芹;李晓昀;;信息抽取技术研究与探讨[J];福建电脑;2010年04期
8 来建梅;曹慧;马金刚;;中医药领域信息抽取技术的研究与应用[J];山东科学;2011年06期
9 曲伟峰;化松收;;一种基于案例分析的文本信息抽取技术[J];辽宁师专学报(自然科学版);2012年03期
10 孙师尧;;信息抽取技术在军事标图系统中的应用[J];电子科技;2013年12期
11 谭锋;李天真;崔亮亮;;Web信息抽取系统研究综述[J];科技创新导报;2010年34期
12 吴振慧;;Web信息抽取的研究[J];电脑知识与技术;2006年35期
13 肖春;周建龙;;生物医学领域中的文本信息抽取技术与系统综述[J];计算机应用研究;2007年09期
14 朱晴;姜利群;张言辉;;半结构化的Deep Web信息抽取技术[J];电脑知识与技术;2010年15期
15 崔春;龚捷;;Web信息抽取研究综述[J];电脑知识与技术;2011年10期
16 宋鑫莹;赵铁军;;网络信息抽取技术分析与比较[J];智能计算机与应用;2013年05期
17 曲伟峰;赵晓燕;于智;;文本信息抽取技术研究[J];辽宁师专学报(自然科学版);2014年02期
18 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
19 胡睿,张冬茉,杜蓬;基于结点语义关系的信息抽取技术[J];计算机工程;2001年04期
20 刘振;张智雄;;开放信息抽取技术的现状研究[J];情报杂志;2013年11期
中国重要会议论文全文数据库 前3条
1 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 李昕;朱永盛 ;武港山;;论坛消息语义结构的提取与分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前1条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
中国硕士学位论文全文数据库 前10条
1 周峰;基于信息抽取技术的复杂网络自动构建的研究与实现[D];北京邮电大学;2009年
2 吴兰兰;基于本体的文本信息抽取技术及实现[D];东北师范大学;2011年
3 吴晓彦;基于结构语义熵的互联网商品信息抽取技术研究[D];复旦大学;2009年
4 郑长松;Web信息智能抽取技术的研究与实现[D];电子科技大学;2009年
5 孔德冉;基于领域Ontology的Web信息抽取研究[D];东北师范大学;2009年
6 胡航丽;基于Web的股评观点倾向性分析研究[D];北京工商大学;2010年
7 任仲晟;基于树形结构的Web信息抽取技术研究[D];厦门大学;2007年
8 陈晓颖;基于概念模型的中文网页信息抽取技术的研究[D];上海交通大学;2007年
9 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
10 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978