收藏本站
《复旦大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

面向复杂数据源的数据抽取模型和算法研究

邓绪斌  
【摘要】:随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系统的研究工作。数据集成系统组合来自不同数据源的数据,目的在于以一个统一的视图提供给用户使用。 数据抽取是数据集成系统的基础问题之一,这一问题可简单地描述为:给定数据源S,确定一个S到数据库R的映射M,该映射用数据抽取模型、抽取规则和抽取算法去抽取S中的数据对象,用数据库模式、映射规则和组装算法将已抽取的数据对象组装到R中(本文将数据抽取模型、抽取规则、数据库模式和映射规则通称为元数据)。实现映射M的计算机程序称为包装器。数据集成系统常用包装器生成工具生成所需的包装器。由于数据源的多样性和复杂性,如何快速准确地为各种数据源建立包装器是数据集成系统实现的关键。这一课题已成为计算机界研究的热点,也是本文研究的核心问题。 本文的研究动机是从各种生物数据源中抽取感兴趣的数据对象,将这些数据对象组装到生物数据集成系统中,目的在于为生物学家搭建方便的查询分析平台。从数据抽取的角度讲,生物数据源不仅规模庞大,抽取准确度要求高,而且往往具有一些会导致现有包装器生成工具失效的复杂特性。首先,生物数据源中的数据对象具有结构复杂性:数据对象往往具有多层嵌套结构,对象的成分可以缺失、多次重复、有序出现或无序出现;其次,抽取规则具有复杂性:生物数据源常用非标准标签对数据对象进行分隔,许多需抽取的对象甚至没有恰当标签,某些指定的标签可能会在数据对象内容中出现,导致歧义(即数据源中含有噪声成分);第三,映射规则具有复杂性:往往需要对已抽取的数据对象实施一些扩展操作后才能将它们组装到数据库中。 本文从分析现有包装器生成工具在处理复杂生物数据源时存在的问题入手,提出了两种面向复杂数据源的数据抽取模型和算法,在此基础上设计和实现了ReDE包装器生成工具和L-树包装器生成工具。本文的主要研究成果包括: (1) 提出了一套面向无噪声复杂数据源的新型数据抽取方法 针对现有包装器生成工具需要手工生成和维护大量元数据的问题,本文实现了利用元数据间的依赖关系,从正则表达式(Regular Expression,简称RE)自动导出其他元数据的映射方法。这一方法降低了元数据生成和维护的工作量,保证了元数据间的一致性;针对传统RE匹配算法在解决数据抽取问题时存在的不足,本文设计了一种基于传统RE匹配的新型数据抽取算法,该算法将传统RE匹配作为基本建筑模块,利用RE分析树在数据源中递归地进行数据对象的切分、
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:TP311.13

知网文化
【引证文献】
中国期刊全文数据库 前4条
1 张维化;杨国林;;数据挖掘技术在数据抽取中的研究与应用[J];内蒙古师范大学学报(自然科学汉文版);2008年04期
2 邓文红;周忠丽;宋振明;徐扬;;基于服务专业化的数据抽取方法研究[J];河南大学学报(自然科学版);2012年06期
3 高爽;曹玺;;公共服务信息数据在国际贸易可视化建设中的作用[J];物流技术;2012年03期
4 孙巍;;一种基于复合文本描述的科学数据特征表示方法[J];现代图书情报技术;2009年05期
中国博士学位论文全文数据库 前1条
1 刘懿;松耦合模型驱动的流域水资源管理决策支持系统研究及应用[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前5条
1 王小莹;数据挖掘在基于组件技术的施工管理系统中的应用[D];长春理工大学;2006年
2 岳国伟;基于本体的Web页面结构化信息抽取[D];山东科技大学;2007年
3 郝鹏飞;移动应用统计平台用户细分工具的设计与实现[D];北京邮电大学;2012年
4 申淑娟;基于语义与规则的燃气管线到综合管线数据抽取方法研究[D];南京师范大学;2012年
5 朱新宁;油藏工程数据目录服务系统的研究与实现[D];东北石油大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 薛宏伟;芜湖电厂给水控制和主汽温控制改造[J];安徽电气工程职业技术学院学报;2005年03期
2 张润梅,龚剑,章曙光;机器人足球队的结构设计研究[J];安徽建筑工业学院学报(自然科学版);2003年01期
3 龚剑;关于高校开展机器人足球比赛的思考[J];安徽建筑工业学院学报(自然科学版);2005年04期
4 高朋;黄世祥;;地区现代化水平BP人工神经网络评价方法初探[J];安徽农业大学学报(社会科学版);2006年03期
5 陈红琳;;基于MAS的农产品供应链可追溯系统研究[J];安徽农业科学;2011年35期
6 曹永涛 ,陈海清 ,周开基 ,郑生全;电磁兼容专家系统框架研究[J];安全与电磁兼容;2004年01期
7 郑虹;杨鸿雁;;Rough知识发现在焊接领域中的应用[J];鞍山师范学院学报;2006年04期
8 胡毅亭,陈网桦,彭金华,刘荣海;关于建立火炸药安全数据库的探讨[J];火炸药学报;1999年03期
9 张琦;廖捷;吴建军;刘玉;;基于FTA的通用装备电子系统故障诊断专家系统设计[J];兵工学报;2008年02期
10 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 沈霖;吴蕙;张帆;张芸;;提高有限元网格自动剖分成功率的研究[A];首届中国CAE工程分析技术年会暨2005全国计算机辅助工程(CAE)技术与应用高级研讨会论文集[C];2005年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 鲍林江;贾世发;;电网经济运行实时分析监测系统的研究[A];2003中国电机工程学会电力系统自动化专委会供用电管理自动化分专业委员会成立暨第一届学术交流会议论文集[C];2003年
5 张影;;基于Oracle的空间碎片减缓设计专家数据库系统[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 刘海芳;陈正军;潘小勇;张海荣;胡国林;;Al方法在梭式窑温度控制中的应用[A];中国硅酸盐学会陶瓷分会2009年年会论文集(一)[C];2009年
7 索雪松;索雪峰;李阳;张曙光;;漏水声波数据可信度的模糊推理过程[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
8 王敏;陈中治;董继恩;;基于事例的桥梁设计专家系统初探[A];中国公路学会计算机应用分会2010年学术年会论文集[C];2010年
9 叶红军;;城市规划决策支持系统的原理及应用初探[A];2010年湖南省优秀城乡规划论文集[C];2010年
10 王明艳;李萍;薛克敏;;基于面向对象的规则专家系统的研究[A];2008年安徽省科协年会机械工程分年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 陈韶斌;基于知识推理和视觉机理的遥感图像目标识别方法研究[D];华中科技大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 吴修国;面向目标的迁移工作流建模方法研究[D];山东大学;2010年
5 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
6 张彩珍;太阳能级硅(SOG-Si)光伏电池中多孔硅吸杂工艺及其神经网络分析方法研究[D];兰州大学;2011年
7 陈佳林;柔性逻辑的健全性研究与应用[D];北京邮电大学;2011年
8 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
9 郑书朋;飞行模拟器的计算机系统实时调度与通信关键技术研究[D];哈尔滨工业大学;2011年
10 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
5 林华云;蒸汽发生器检修机械臂的视觉测量研究[D];哈尔滨工程大学;2010年
6 王东阳;多智能体调度优化算法研究[D];哈尔滨工程大学;2010年
7 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
8 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
9 杨旭;基于模糊控制的变频变压供水系统的研究与应用[D];辽宁工程技术大学;2009年
10 祝文娟;基于遗传模糊神经网络的建筑工程造价估算模型[D];河南理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 岳志远;曹志先;车涛;李新;;冰湖溃决洪水的二维水动力学数值模拟[J];冰川冻土;2007年05期
2 苏建云;黄耀裔;陈文成;;基于FME的GIS数据格式转换研究[J];北京测绘;2009年01期
3 李欣宇;傅彦;;一种适合于科学数据的聚类算法[J];成都信息工程学院学报;2006年03期
4 张书亮,陶陶,闾国年;地理信息共享与互操作框架研究[J];测绘科学;2004年06期
5 袁平,韩景润;基于元数据面向电子政务的空间信息共享[J];测绘科学;2005年01期
6 姜艳媛;郭健;王卉;;地理空间矢量数据交换中间件的研究[J];测绘技术装备;2006年02期
7 李新通,何建邦;GIS互操作与OGC规范[J];地理信息世界;2003年05期
8 杜清运;空间信息的微观语言学概念模型[J];地理信息世界;2004年06期
9 李辉;吴功和;;流域基础地理信息分类编码研究与实施[J];地理信息世界;2006年05期
10 曾澜;;我国地理空间信息共享的分类方法和地理编码规则研究[J];地理信息世界;2006年06期
中国重要会议论文全文数据库 前2条
1 白云;高国勇;;基于Web的城市地下管线元数据共享机制的研究[A];吉林省测绘学会2008年学术年会论文集(上)[C];2008年
2 张赪军;黄红梅;白小霞;朱靖;;构建企业级虚拟数据中心[A];第六届全国信号和智能信息处理与应用学术会议论文集[C];2012年
中国重要报纸全文数据库 前1条
1 辛胜德;[N];中国石油报;2002年
中国博士学位论文全文数据库 前9条
1 宋利祥;溃坝洪水数学模型及水动力学特性研究[D];华中科技大学;2012年
2 周海燕;空间数据挖掘的研究[D];中国人民解放军信息工程大学;2003年
3 王华;企业物流成本控制研究[D];武汉理工大学;2004年
4 吴强;智能群体决策支持系统中若干关键理论与方法研究[D];中国科学技术大学;2006年
5 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
6 晁会霞;基于油田多源数据分析与挖掘的白豹地区储层特征研究[D];长安大学;2009年
7 胡东波;模型驱动的决策支持系统研究[D];中南大学;2009年
8 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
9 邵荃;突发事件应急平台模型库中模型链构建方法的研究[D];清华大学;2009年
中国硕士学位论文全文数据库 前10条
1 逯文晖;网格下分布决策模型库目录管理系统设计与实现[D];辽宁师范大学;2010年
2 李桂琼;多Agent数据库中间件的研究[D];河海大学;2003年
3 崔应寿;基于CORBA/Java中间件技术的地理信息Web发布研究[D];武汉大学;2004年
4 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
5 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
6 董树明;半结构化Web信息抽取技术及其应用研究[D];东南大学;2004年
7 胡波;基于LDAP的校园网统一目录服务及其管理实现[D];武汉理工大学;2005年
8 郑丽萍;本体映射的研究[D];山东科技大学;2005年
9 朱红梅;模型资源的语义表示和应用研究[D];山东科技大学;2005年
10 于洋;异构数据集成系统中目录服务的研究与实现[D];大连海事大学;2005年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 邓文红;基于知识管理的办公系统智能化研究[D];西南交通大学;2014年
中国硕士学位论文全文数据库 前1条
1 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 沈丽娟,金丹;ETL实施过程研究[J];科技和产业;2005年11期
2 薛亮;冯博琴;管涛;;网络跨库检索中基于Ontology的数据抽取与合并[J];小型微型计算机系统;2005年10期
3 赵方;;数据仓库技术及实施[J];电脑知识与技术(学术交流);2006年17期
4 贺安坤;苏平;姜红花;;银行CRM系统数据抽取的研究[J];计算机应用与软件;2008年03期
5 孙伟舰;王于丁;贾丽;张晓芳;;基于Web Service的数据抽取研究与设计[J];现代电子技术;2008年08期
6 王红卫;马红;张素智;赵宇;;基于预定义模式的Web网页结构化数据抽取[J];郑州轻工业学院学报(自然科学版);2008年06期
7 宋娜娜;;基于上下文无关文法的数据抽取规则[J];河南城建学院学报;2010年05期
8 顾春辉;;数据仓库技术在公共交通领域中的应用[J];城市公用事业;2011年01期
9 熊丽荣,蔡家楣,郑河荣,郭行波;移动网管平台中数据仓库数据抽取、净化和集成[J];计算机应用研究;2002年04期
10 周亚宁;电信经营分析系统中抽取转换子系统的设计与实现[J];内蒙古大学学报(自然科学版);2004年06期
中国重要会议论文全文数据库 前10条
1 蒋理成;;增量数据抽取(ETL)技术[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 陆忠良;苏厚勤;;基于Oracle/Linux环境数据抽取技术的研究与实践[A];第四届中国软件工程大会论文集[C];2007年
3 沈壮志;;Tribon系统的二次开发[A];福建省科协第八届学术年会船舶及海洋工程分会论文集[C];2008年
4 龚英弢;;Tribon M3系统快速绘图开发[A];2007年CAD/CAM学术交流会议论文集[C];2007年
5 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 颜立新;;矿山数据仓库建设中的数据采集设计[A];采矿工程学新论——北京开采所研究生论文集[C];2005年
7 万年红;高金刚;史懿;徐家倬;;生产过程信息综合分析系统的研制[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
8 吴信伟;杨廷勇;王文薇;;基于WEB浏览器的三峡左岸机组状态监测趋势分析系统[A];中国水力发电工程学会电力系统自动化专委会2008年年会暨学术交流会论文集[C];2008年
9 吴祖玉;;基于数据仓库技术的商业决策支持系统[A];2000中国控制与决策学术年会论文集[C];2000年
10 郑慧娟;周嘉元;李斌;;水电站生产数据分析系统及其现场应用[A];中国水力发电工程学会信息化专委会2010年学术交流会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年
2 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年
3 ;Informix实现商务智能的坚实根基[N];中国计算机报;2000年
4 中青旅尚洋电子技术有限公司 史小六 陈如璇;细看集中技术[N];网络世界;2003年
5 北京市燃气集团有限责任公司 供稿;北京燃气管网尽在掌握[N];计算机世界;2008年
6 NCR Teradata数据仓库事业部 王闯舟;基于Teradata的BI应用[N];网络世界;2004年
7 黄平;如何提升数据仓库的数据质量[N];计算机世界;2005年
8 ;中创软件电力信息整合方案[N];计算机世界;2006年
9 ;金融电子化寻找“软”动力[N];中国计算机报;2001年
10 中国系统分析员协会 专业顾问 张振华 中国建设银行浙江省分行 熊晓南;让“脏数据”改头换面[N];网络世界;2006年
中国博士学位论文全文数据库 前10条
1 张敬伟;Web论坛数据抽取[D];华东师范大学;2012年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 朱沿旭;面向开源社区的Web数据抽取与挖掘关键技术研究[D];国防科学技术大学;2011年
4 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
5 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
6 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
7 马安香;基于结果模式的Deep Web数据集成关键技术研究[D];东北大学 ;2009年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 刘书暖;工艺知识发现与重用技术[D];西北工业大学;2007年
10 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 曹瑾;航空发动机设计中共享数据库及数据抽取模式的探索开发[D];电子科技大学;2008年
2 廉博;数据仓库中ETL技术的研究与实现[D];沈阳工业大学;2006年
3 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
4 薛黎;基于数据仓库的城市管理决策会商系统的设计与实现[D];重庆大学;2006年
5 申淑娟;基于语义与规则的燃气管线到综合管线数据抽取方法研究[D];南京师范大学;2012年
6 姚志鹏;数据抽取、转换、加载描述规范的研究与应用[D];青岛大学;2013年
7 王娟;数据仓库开发探索以及在社保领域的应用[D];电子科技大学;2005年
8 姚竞争;TRIBON模型的数据抽取及二次开发[D];哈尔滨工程大学;2006年
9 王保民;软件高频多普勒接收机设计与实验[D];中国科学院研究生院(武汉物理与数学研究所);2006年
10 胡成龙;面向研发企业的通用软件度量系统的建立和实现[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026