基于包装器模型的信息抽取算法研究
【摘要】:
随着计算机技术的普及和网络技术的发展, Web己经发展为一个巨大的信息仓库,成为日益重要和最具潜力的全球信息传递与共享的资源。然而,想要快速、准确地从海量的资源中找到所需要的信息并被其他程序所应用,就成为了一大难题。因此,需要应用信息抽取技术从大量的半结构化信息中抽取出结构化的、符合主题的数据。由于HTML网页主要是供浏览的,并不是用来供操纵和使用的,其中的数据很难被应用程序直接使用。因此,将数据从网页中抽取出来并且将它们传递给应用程序使用依然是一个复杂、困难但又有意义的任务。
本文对Web信息抽取的一些基本概念做简要介绍,并简述Web信息抽取技术的产生和发展。在此基础上,详细介绍当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。
作者的工作主要体现在两个方面:一、在WEB页面匹配算法的基础上,采用了先去除噪声的分析与设计思想,对抽取的内容先进行去除噪声处理,将基于视觉的算法与基于DOM树匹配的算法相结合,提出基于视觉的DOM树去噪方法,从而达到提高抽取的效率。二、针对去噪后的页面,研究基于页面树的包装器自动生成方法,结合实例给出发现并解决页面中的选择模式和迭代模式的不匹配方法。通过实验,提出页面匹配树算法。具体分步匹配方法中,先处理字符不匹配和选择不匹配生成初级模板,再处理迭代不匹配后生成终极模板。本文所研究的解决不匹配问题,发现抽象有序树并生成包装器的算法,能够自动地抽取数据,不需要人为干预。
|
|
|
|
1 |
刘军;张树生;白晓亮;朱润新;;三角网格简化的一种新方法——抽取算法[J];机械科学与技术;2007年03期 |
2 |
张凯,曹加恒,舒风笛,曹斌,熊晖;数据开采中基于用户需求的关联模型[J];武汉大学学报(自然科学版);1999年05期 |
3 |
龙腾,李眈,吴琼之;频率步进雷达参数设计与目标抽取算法[J];系统工程与电子技术;2001年06期 |
4 |
恽佳丽;何军;黄厚宽;;基于语料库的多词单位抽取算法[J];北京交通大学学报;2009年05期 |
5 |
唐正军,宋建社;SAR 图像边缘的小波抽取算法研究[J];上海航天;1999年01期 |
6 |
邓绪斌;朱扬勇;;ReDE:一个基于正则表达式的生物数据抽取方法[J];计算机研究与发展;2005年12期 |
7 |
郝振涛,汪庆宝;用神经元网络识别手写数字的研究[J];北京工业大学学报;1993年03期 |
8 |
孙晨,周志华,陈兆乾;神经网络规则抽取研究[J];计算机应用研究;2000年02期 |
9 |
艾海舟,许万雍,周远清;一种简单的线条特征抽取算法[J];机器人;1989年04期 |
10 |
周根林,曾庆凯,王绪龙;多字体印刷汉字识别中笔段直接抽取算法研究[J];计算机学报;1990年04期 |
11 |
黄信新,齐德昱,王秀媛;实时图像轮廓抽取算法研究[J];计算机应用;2001年03期 |
12 |
张祖勋,吴军,张剑清;一种基于线空间的直线抽取算法研究[J];武汉大学学报(信息科学版);2004年03期 |
13 |
周南,崔屹;基于数学形态学的骨架抽取算法[J];计算机工程与应用;1997年05期 |
14 |
毛二可,龙腾,韩月秋;频率步进雷达数字信号处理[J];航空学报;2001年S1期 |
15 |
王涛,孟庆春,殷波,李祯,李占斌;神经网络规则提取及其在特征带识别中的应用[J];数据采集与处理;2003年01期 |
16 |
崔桓,蔡东风,苗雪雷;基于网络的中文问答系统及信息抽取算法研究[J];中文信息学报;2004年03期 |
17 |
赵明;手写印刷体汉字识别方法2-D EAG[J];软件学报;1991年03期 |
18 |
战德臣,李成江,姜玲珍,陈景春;复杂干涉图象条纹抽取疑难点的自动处理[J];宇航学报;1996年03期 |
19 |
高阳,陆鑫,李宁,陈世福;一种自适应概率规划规则抽取算法[J];南京大学学报(自然科学版);2003年02期 |
20 |
严明,田立生,刘建华;用于高分辨率测向的噪声子空间抽取算法[J];清华大学学报(自然科学版);1997年09期 |
|
|
|
|
|
1 |
凌茵;;步进频率信号处理[A];图像 仿真 信息技术——第二届联合学术会议论文集[C];2002年 |
|