收藏本站
《复旦大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向复杂数据源的数据抽取模型和算法研究

邓绪斌  
【摘要】:随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系统的研究工作。数据集成系统组合来自不同数据源的数据,目的在于以一个统一的视图提供给用户使用。 数据抽取是数据集成系统的基础问题之一,这一问题可简单地描述为:给定数据源S,确定一个S到数据库R的映射M,该映射用数据抽取模型、抽取规则和抽取算法去抽取S中的数据对象,用数据库模式、映射规则和组装算法将已抽取的数据对象组装到R中(本文将数据抽取模型、抽取规则、数据库模式和映射规则通称为元数据)。实现映射M的计算机程序称为包装器。数据集成系统常用包装器生成工具生成所需的包装器。由于数据源的多样性和复杂性,如何快速准确地为各种数据源建立包装器是数据集成系统实现的关键。这一课题已成为计算机界研究的热点,也是本文研究的核心问题。 本文的研究动机是从各种生物数据源中抽取感兴趣的数据对象,将这些数据对象组装到生物数据集成系统中,目的在于为生物学家搭建方便的查询分析平台。从数据抽取的角度讲,生物数据源不仅规模庞大,抽取准确度要求高,而且往往具有一些会导致现有包装器生成工具失效的复杂特性。首先,生物数据源中的数据对象具有结构复杂性:数据对象往往具有多层嵌套结构,对象的成分可以缺失、多次重复、有序出现或无序出现;其次,抽取规则具有复杂性:生物数据源常用非标准标签对数据对象进行分隔,许多需抽取的对象甚至没有恰当标签,某些指定的标签可能会在数据对象内容中出现,导致歧义(即数据源中含有噪声成分);第三,映射规则具有复杂性:往往需要对已抽取的数据对象实施一些扩展操作后才能将它们组装到数据库中。 本文从分析现有包装器生成工具在处理复杂生物数据源时存在的问题入手,提出了两种面向复杂数据源的数据抽取模型和算法,在此基础上设计和实现了ReDE包装器生成工具和L-树包装器生成工具。本文的主要研究成果包括: (1) 提出了一套面向无噪声复杂数据源的新型数据抽取方法 针对现有包装器生成工具需要手工生成和维护大量元数据的问题,本文实现了利用元数据间的依赖关系,从正则表达式(Regular Expression,简称RE)自动导出其他元数据的映射方法。这一方法降低了元数据生成和维护的工作量,保证了元数据间的一致性;针对传统RE匹配算法在解决数据抽取问题时存在的不足,本文设计了一种基于传统RE匹配的新型数据抽取算法,该算法将传统RE匹配作为基本建筑模块,利用RE分析树在数据源中递归地进行数据对象的切分、
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前4条
1 张维化;杨国林;;数据挖掘技术在数据抽取中的研究与应用[J];内蒙古师范大学学报(自然科学汉文版);2008年04期
2 邓文红;周忠丽;宋振明;徐扬;;基于服务专业化的数据抽取方法研究[J];河南大学学报(自然科学版);2012年06期
3 高爽;曹玺;;公共服务信息数据在国际贸易可视化建设中的作用[J];物流技术;2012年03期
4 孙巍;;一种基于复合文本描述的科学数据特征表示方法[J];现代图书情报技术;2009年05期
中国博士学位论文全文数据库 前1条
1 刘懿;松耦合模型驱动的流域水资源管理决策支持系统研究及应用[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前5条
1 王小莹;数据挖掘在基于组件技术的施工管理系统中的应用[D];长春理工大学;2006年
2 岳国伟;基于本体的Web页面结构化信息抽取[D];山东科技大学;2007年
3 郝鹏飞;移动应用统计平台用户细分工具的设计与实现[D];北京邮电大学;2012年
4 申淑娟;基于语义与规则的燃气管线到综合管线数据抽取方法研究[D];南京师范大学;2012年
5 朱新宁;油藏工程数据目录服务系统的研究与实现[D];东北石油大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 薛宏伟;芜湖电厂给水控制和主汽温控制改造[J];安徽电气工程职业技术学院学报;2005年03期
2 张润梅,龚剑,章曙光;机器人足球队的结构设计研究[J];安徽建筑工业学院学报(自然科学版);2003年01期
3 龚剑;关于高校开展机器人足球比赛的思考[J];安徽建筑工业学院学报(自然科学版);2005年04期
4 高朋;黄世祥;;地区现代化水平BP人工神经网络评价方法初探[J];安徽农业大学学报(社会科学版);2006年03期
5 陈红琳;;基于MAS的农产品供应链可追溯系统研究[J];安徽农业科学;2011年35期
6 曹永涛 ,陈海清 ,周开基 ,郑生全;电磁兼容专家系统框架研究[J];安全与电磁兼容;2004年01期
7 郑虹;杨鸿雁;;Rough知识发现在焊接领域中的应用[J];鞍山师范学院学报;2006年04期
8 胡毅亭,陈网桦,彭金华,刘荣海;关于建立火炸药安全数据库的探讨[J];火炸药学报;1999年03期
9 张琦;廖捷;吴建军;刘玉;;基于FTA的通用装备电子系统故障诊断专家系统设计[J];兵工学报;2008年02期
10 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 沈霖;吴蕙;张帆;张芸;;提高有限元网格自动剖分成功率的研究[A];首届中国CAE工程分析技术年会暨2005全国计算机辅助工程(CAE)技术与应用高级研讨会论文集[C];2005年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 鲍林江;贾世发;;电网经济运行实时分析监测系统的研究[A];2003中国电机工程学会电力系统自动化专委会供用电管理自动化分专业委员会成立暨第一届学术交流会议论文集[C];2003年
5 张影;;基于Oracle的空间碎片减缓设计专家数据库系统[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 刘海芳;陈正军;潘小勇;张海荣;胡国林;;Al方法在梭式窑温度控制中的应用[A];中国硅酸盐学会陶瓷分会2009年年会论文集(一)[C];2009年
7 索雪松;索雪峰;李阳;张曙光;;漏水声波数据可信度的模糊推理过程[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
8 王敏;陈中治;董继恩;;基于事例的桥梁设计专家系统初探[A];中国公路学会计算机应用分会2010年学术年会论文集[C];2010年
9 叶红军;;城市规划决策支持系统的原理及应用初探[A];2010年湖南省优秀城乡规划论文集[C];2010年
10 王明艳;李萍;薛克敏;;基于面向对象的规则专家系统的研究[A];2008年安徽省科协年会机械工程分年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 陈韶斌;基于知识推理和视觉机理的遥感图像目标识别方法研究[D];华中科技大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 吴修国;面向目标的迁移工作流建模方法研究[D];山东大学;2010年
5 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
6 张彩珍;太阳能级硅(SOG-Si)光伏电池中多孔硅吸杂工艺及其神经网络分析方法研究[D];兰州大学;2011年
7 陈佳林;柔性逻辑的健全性研究与应用[D];北京邮电大学;2011年
8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
9 郑书朋;飞行模拟器的计算机系统实时调度与通信关键技术研究[D];哈尔滨工业大学;2011年
10 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
5 林华云;蒸汽发生器检修机械臂的视觉测量研究[D];哈尔滨工程大学;2010年
6 王东阳;多智能体调度优化算法研究[D];哈尔滨工程大学;2010年
7 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
8 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
9 杨旭;基于模糊控制的变频变压供水系统的研究与应用[D];辽宁工程技术大学;2009年
10 祝文娟;基于遗传模糊神经网络的建筑工程造价估算模型[D];河南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 岳志远;曹志先;车涛;李新;;冰湖溃决洪水的二维水动力学数值模拟[J];冰川冻土;2007年05期
2 苏建云;黄耀裔;陈文成;;基于FME的GIS数据格式转换研究[J];北京测绘;2009年01期
3 李欣宇;傅彦;;一种适合于科学数据的聚类算法[J];成都信息工程学院学报;2006年03期
4 张书亮,陶陶,闾国年;地理信息共享与互操作框架研究[J];测绘科学;2004年06期
5 袁平,韩景润;基于元数据面向电子政务的空间信息共享[J];测绘科学;2005年01期
6 姜艳媛;郭健;王卉;;地理空间矢量数据交换中间件的研究[J];测绘技术装备;2006年02期
7 李新通,何建邦;GIS互操作与OGC规范[J];地理信息世界;2003年05期
8 杜清运;空间信息的微观语言学概念模型[J];地理信息世界;2004年06期
9 李辉;吴功和;;流域基础地理信息分类编码研究与实施[J];地理信息世界;2006年05期
10 曾澜;;我国地理空间信息共享的分类方法和地理编码规则研究[J];地理信息世界;2006年06期
中国重要会议论文全文数据库 前2条
1 白云;高国勇;;基于Web的城市地下管线元数据共享机制的研究[A];吉林省测绘学会2008年学术年会论文集(上)[C];2008年
2 张赪军;黄红梅;白小霞;朱靖;;构建企业级虚拟数据中心[A];第六届全国信号和智能信息处理与应用学术会议论文集[C];2012年
中国博士学位论文全文数据库 前9条
1 宋利祥;溃坝洪水数学模型及水动力学特性研究[D];华中科技大学;2012年
2 周海燕;空间数据挖掘的研究[D];中国人民解放军信息工程大学;2003年
3 王华;企业物流成本控制研究[D];武汉理工大学;2004年
4 吴强;智能群体决策支持系统中若干关键理论与方法研究[D];中国科学技术大学;2006年
5 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
6 晁会霞;基于油田多源数据分析与挖掘的白豹地区储层特征研究[D];长安大学;2009年
7 胡东波;模型驱动的决策支持系统研究[D];中南大学;2009年
8 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
9 邵荃;突发事件应急平台模型库中模型链构建方法的研究[D];清华大学;2009年
中国硕士学位论文全文数据库 前10条
1 逯文晖;网格下分布决策模型库目录管理系统设计与实现[D];辽宁师范大学;2010年
2 李桂琼;多Agent数据库中间件的研究[D];河海大学;2003年
3 崔应寿;基于CORBA/Java中间件技术的地理信息Web发布研究[D];武汉大学;2004年
4 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
5 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
6 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
7 胡波;基于LDAP的校园网统一目录服务及其管理实现[D];武汉理工大学;2005年
8 郑丽萍;本体映射的研究[D];山东科技大学;2005年
9 朱红梅;模型资源的语义表示和应用研究[D];山东科技大学;2005年
10 于洋;异构数据集成系统中目录服务的研究与实现[D];大连海事大学;2005年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 张凯,曹加恒,舒风笛,曹斌,熊晖;数据开采中基于用户需求的关联模型[J];武汉大学学报(自然科学版);1999年05期
2 龙腾,李眈,吴琼之;频率步进雷达参数设计与目标抽取算法[J];系统工程与电子技术;2001年06期
3 邓绪斌;朱扬勇;;ReDE:一个基于正则表达式的生物数据抽取方法[J];计算机研究与发展;2005年12期
4 李岱;邓绪斌;朱扬勇;;VI-DE:DE-Wrapper的可视化编辑调试环境[J];计算机工程;2006年08期
5 恽佳丽;何军;黄厚宽;;基于语料库的多词单位抽取算法[J];北京交通大学学报;2009年05期
6 唐正军,宋建社;SAR 图像边缘的小波抽取算法研究[J];上海航天;1999年01期
7 郝振涛,汪庆宝;用神经元网络识别手写数字的研究[J];北京工业大学学报;1993年03期
8 孙晨,周志华,陈兆乾;神经网络规则抽取研究[J];计算机应用研究;2000年02期
9 艾海舟,许万雍,周远清;一种简单的线条特征抽取算法[J];机器人;1989年04期
10 周根林,曾庆凯,王绪龙;多字体印刷汉字识别中笔段直接抽取算法研究[J];计算机学报;1990年04期
中国重要会议论文全文数据库 前1条
1 凌茵;;步进频率信号处理[A];图像 仿真 信息技术——第二届联合学术会议论文集[C];2002年
中国博士学位论文全文数据库 前2条
1 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
2 蒋伟华;搜索引擎中的信息抽取技术研究[D];湖南大学;2001年
3 刘立波;数学形态学在二值图象处理与分析中的研究及应用[D];西北大学;2002年
4 邹伟松;从归结证明树抽取程序[D];大连理工大学;2002年
5 张霞;GIS内部信号识别的神经网络建模及小波算法实现[D];天津大学;2003年
6 王洪明;基于AR模型极点的雷达目标类型识别算法[D];国防科学技术大学;2003年
7 郑莉;三维流场数值计算实时显示系统研究[D];南京理工大学;2002年
8 高尚伟;数字水印技术的研究和应用[D];哈尔滨工程大学;2002年
9 王岗;非面向对象系统中对象抽取方法的研究与实现[D];江西师范大学;2002年
10 尹浩;基于WWW的新闻搜索引擎的设计与实现[D];西南交通大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026