收藏本站
收藏 | 论文排版

基于包装器模型的信息抽取算法研究

李知颖  
【摘要】: 随着计算机技术的普及和网络技术的发展, Web己经发展为一个巨大的信息仓库,成为日益重要和最具潜力的全球信息传递与共享的资源。然而,想要快速、准确地从海量的资源中找到所需要的信息并被其他程序所应用,就成为了一大难题。因此,需要应用信息抽取技术从大量的半结构化信息中抽取出结构化的、符合主题的数据。由于HTML网页主要是供浏览的,并不是用来供操纵和使用的,其中的数据很难被应用程序直接使用。因此,将数据从网页中抽取出来并且将它们传递给应用程序使用依然是一个复杂、困难但又有意义的任务。 本文对Web信息抽取的一些基本概念做简要介绍,并简述Web信息抽取技术的产生和发展。在此基础上,详细介绍当前Web信息抽取技术的一些常用方法,并对这些方法进行分类,进而对这些方法进行对比分析,指出各种方法的优缺点。 作者的工作主要体现在两个方面:一、在WEB页面匹配算法的基础上,采用了先去除噪声的分析与设计思想,对抽取的内容先进行去除噪声处理,将基于视觉的算法与基于DOM树匹配的算法相结合,提出基于视觉的DOM树去噪方法,从而达到提高抽取的效率。二、针对去噪后的页面,研究基于页面树的包装器自动生成方法,结合实例给出发现并解决页面中的选择模式和迭代模式的不匹配方法。通过实验,提出页面匹配树算法。具体分步匹配方法中,先处理字符不匹配和选择不匹配生成初级模板,再处理迭代不匹配后生成终极模板。本文所研究的解决不匹配问题,发现抽象有序树并生成包装器的算法,能够自动地抽取数据,不需要人为干预。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘军;张树生;白晓亮;朱润新;;三角网格简化的一种新方法——抽取算法[J];机械科学与技术;2007年03期
2 张凯,曹加恒,舒风笛,曹斌,熊晖;数据开采中基于用户需求的关联模型[J];武汉大学学报(自然科学版);1999年05期
3 龙腾,李眈,吴琼之;频率步进雷达参数设计与目标抽取算法[J];系统工程与电子技术;2001年06期
4 恽佳丽;何军;黄厚宽;;基于语料库的多词单位抽取算法[J];北京交通大学学报;2009年05期
5 唐正军,宋建社;SAR 图像边缘的小波抽取算法研究[J];上海航天;1999年01期
6 邓绪斌;朱扬勇;;ReDE:一个基于正则表达式的生物数据抽取方法[J];计算机研究与发展;2005年12期
7 郝振涛,汪庆宝;用神经元网络识别手写数字的研究[J];北京工业大学学报;1993年03期
8 孙晨,周志华,陈兆乾;神经网络规则抽取研究[J];计算机应用研究;2000年02期
9 艾海舟,许万雍,周远清;一种简单的线条特征抽取算法[J];机器人;1989年04期
10 周根林,曾庆凯,王绪龙;多字体印刷汉字识别中笔段直接抽取算法研究[J];计算机学报;1990年04期
11 黄信新,齐德昱,王秀媛;实时图像轮廓抽取算法研究[J];计算机应用;2001年03期
12 张祖勋,吴军,张剑清;一种基于线空间的直线抽取算法研究[J];武汉大学学报(信息科学版);2004年03期
13 周南,崔屹;基于数学形态学的骨架抽取算法[J];计算机工程与应用;1997年05期
14 毛二可,龙腾,韩月秋;频率步进雷达数字信号处理[J];航空学报;2001年S1期
15 王涛,孟庆春,殷波,李祯,李占斌;神经网络规则提取及其在特征带识别中的应用[J];数据采集与处理;2003年01期
16 崔桓,蔡东风,苗雪雷;基于网络的中文问答系统及信息抽取算法研究[J];中文信息学报;2004年03期
17 赵明;手写印刷体汉字识别方法2-D EAG[J];软件学报;1991年03期
18 战德臣,李成江,姜玲珍,陈景春;复杂干涉图象条纹抽取疑难点的自动处理[J];宇航学报;1996年03期
19 高阳,陆鑫,李宁,陈世福;一种自适应概率规划规则抽取算法[J];南京大学学报(自然科学版);2003年02期
20 严明,田立生,刘建华;用于高分辨率测向的噪声子空间抽取算法[J];清华大学学报(自然科学版);1997年09期
中国重要会议论文全文数据库 前1条
1 凌茵;;步进频率信号处理[A];图像 仿真 信息技术——第二届联合学术会议论文集[C];2002年
中国博士学位论文全文数据库 前2条
1 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
2 由海景;支持网络认证的NVD编著软件设计与实现[D];华中科技大学;2013年
3 刘立波;数学形态学在二值图象处理与分析中的研究及应用[D];西北大学;2002年
4 邹伟松;从归结证明树抽取程序[D];大连理工大学;2002年
5 王洪明;基于AR模型极点的雷达目标类型识别算法[D];国防科学技术大学;2003年
6 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
7 郑莉;三维流场数值计算实时显示系统研究[D];南京理工大学;2002年
8 高尚伟;数字水印技术的研究和应用[D];哈尔滨工程大学;2002年
9 王岗;非面向对象系统中对象抽取方法的研究与实现[D];江西师范大学;2002年
10 尹浩;基于WWW的新闻搜索引擎的设计与实现[D];西南交通大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978