收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

超数据集成挖掘方法与技术研究

周春英  
【摘要】:超数据(Hyperdata)是被连接到其他数据对象的数据对象。超数据经过语义关系连接就形成了数据网络(Data Web)。超数据可以为集成挖掘提供丰富的、相互关联的数据。然而,超数据具有的高关联性、分布性和海量性也给超数据集成挖掘带来一系列困难。从目前超数据的研究现状来看,还缺乏比较有效的、系统性的研究来解决这些困难从而支持超数据集成挖掘。 基于上述背景,本文围绕超数据集成挖掘,从超数据准备、超数据集成挖掘方法和大规模超数据集成挖掘原型系统三个方面入手,针对超数据的分布性、高关联性和海量性带来的问题提出相应的解决方法。本文的主要研究内容和贡献可以概括为以下几个方面: 口超数据准备,包括超数据获取和集成两部分工作 (1)超数据获取:一种基于领域本体的文本自动获取超数据图的方法 为了实现文本向超数据的转化,提出一种基于领域本体的从文本自动获取超数据图的方法。超数据图由多个超数据节点和它们之间多维的、复杂的语义关系构成。句子是文本的基本组成单元。一个句子可能含有多个超数据节点,并且它们之间可能存在多种不同类型的语义关系。该方法利用超数据图作为句子的超数据信息的表达单元,然后利用自然语言处理、数据挖掘、概率统计技术实现从一个句子自动提取超数据图从而实现文本自动向超数据的转化。 (2)超数据集成:一种基于语义的多个超数据源的糅合方法 数据质量越高,数据挖掘的性能往往也会越高。超数据的分布性带来了数据模式和数据内容两方面的异质异构。为了解决数据不一致和冗余的问题,本文提出了一种基于语义的多个超数据源的糅合方法。针对数据模式的异质异构,利用语义映射把多个具有不同数据模式的超数据源映射到一个统一的本体模式从而解决数据模式的差异;针对数据内容的异质异构,提出一个综合了语义推理和文本挖掘技术的超数据实体识别方法从而识别不同超数据节点指向同一个现实世界实体的情况。 □超数据挖掘方法,包括概念描述和挖掘方法 (3)超数据的概念描述:一种基于语义图模板的概念描述方法 超数据以RDF格式存在,是高度结构化数据,并不能直接适用传统数据挖掘方法。概念描述的目的是针对数据的模式、挖掘方法,产生数据的特征和比较描述。本文针对超数据的数据模式,提出一种基于语义(RDF)图模板的概念描述方法,其中语义图模板可以描述RDF数据模型所携带的三种信息源,包括描述性属性、语义关系和语义图结构,可以用来实现超数据的概念描述从而为后面的挖掘方法提供数据。 (4)超数据的挖掘方法:概率语义学习模型 超数据源以RDF形式存贮数据,并提供标准的SPARQL语言作为查询接口。与其他数据类型不同,超数据具有高关联性和分布性。针对分布式的RDF数据源,利用语义图模板的概念来描述超数据所携带的属性特征,以解决超数据的高关联性、分布性给集成挖掘带来的困难。并且在此之上,提出了扩展了传统贝叶斯网络的概率语义学习模型以实现多个超数据源的集成挖掘。另外,为了提高机器学习模型在训练数据不准确或不足的情况下的性能,提出了一种综合利用标记数据和未标记数据的半监督学习方法以提高 □挖掘方法的可规模型 (5)一种基于云计算框架的大规模超数据集成挖掘原型系统 针对大规模超数据的集成挖掘,本文提出了一个基于云计算框架(MapReduce和Hadoop)的大规模超数据集成挖掘原型系统。该系统支持大规模超数据的存贮、语义查询和基于概率语义学习模型的集成挖掘。本文围绕超数据集成挖掘,从超数据准备、超数据集成挖掘和基于云计算框架的大规模超数据集成挖掘原型系统三个方面入手,针对超数据的高关联性、分布性和海量性给超数据集成挖掘带来的困难,分别提出了(1)超数据获取:一种基于领域本体的从文本自动获取超数据图的方法以实现文本向超数据的转化;(2)超数据集成:提出一种基于语义的多个超数据源糅合方法从而解决超数据的分布性带来的数据模式和数据内容的异质异构问题;(3)超数据概念描述:提出一种基于语义图模板的超数据概念描述方法用来描述超数据(RDF)所携带的三种信息源:描述性属性、语义关系和语义图结构从而为挖掘方法提供特征和比较描述;(4)超数据挖掘方法:提出了一种扩展了传统贝叶斯网络学习的概率语义学习模型,它通过利用语义图模板描述的特征变量代替传统的属性变量实现扩展。并且,还提出一种半监督学习方法从而改善概率语义学习在训练数据不准确或不足情况下的性能。(5)针对超数据的海量性,提出并开发了一个基于云计算框架(Hadoop和MapReduce)的大规模超数据集成挖掘原型系统从而提高超数据挖掘方法的可规模性。 本文提出的超数据集成挖掘的相关方法和原型系统,试图解决超数据的高关联性、分布性和海量性给集成数据挖掘的超数据获取、集成、概念描述和挖掘方法等过程带来的问题,并且开发了一个基于云计算框架的大规模超数据集成挖掘原型系统以提高挖掘方法的可规模性,从而为今后的超数据集成挖掘研究和应用提供了理论和技术基础。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴健鸣;;利用Java实现Lotus Domino和数据库系统的数据集成[J];上海电机学院学报;2006年03期
2 范志勇;肖冬荣;张群;;基于PDM框架下的CAPP与PDM的数据集成[J];微计算机信息;2007年04期
3 武树东;赵全明;索依娜;;物流信息系统中的数据集成技术[J];商场现代化;2007年10期
4 张恩;刘春红;段德全;;基于XML/Web Services的异构数据集成研究[J];广西师范大学学报(自然科学版);2008年03期
5 刘高嵩;龙军;;基于CORBA和Web Services的异构数据源集成研究[J];计算机系统应用;2009年07期
6 刘春玲;;基于虚拟视图的教务管理数据集成方式研究[J];电脑知识与技术;2010年19期
7 连云峰;卢昱;陈立云;马懿;;军械装备保障模拟训练系统数据集成研究[J];信息技术;2011年05期
8 王艳君,王运格,吴丽红;异构数据库间数据集成的方法[J];烟台师范学院学报(自然科学版);1999年04期
9 李军怀,张景,周明全,耿国华;基于XML的企业异构数据集成方法研究[J];计算机工程;2002年09期
10 李宝林,王秀峰,兰芸,段菲;CBRDI:一种基于范例推理的数据集成方法[J];计算机工程与应用;2003年16期
11 石金峰,綦瑞萍,余小军,李海军;基于GIS的城市地下综合管网系统的建立[J];辽宁工程技术大学学报;2005年04期
12 赵赛;陈松乔;邓莎莎;;基于规则树的Web数据集成包装器的设计与实现[J];计算机技术与发展;2006年06期
13 秦学勇;;数据仓库中数据集成的研究[J];农业网络信息;2006年08期
14 杨宏英;林长松;;异构数据集成系统的应用模式与技术实现[J];微电子学与计算机;2006年08期
15 杨威;;基于XML的异构数据集成研究[J];科技信息(学术版);2006年10期
16 李润洲;宋彩利;;校园网格数据集成中间件体系结构研究[J];西安科技大学学报;2006年04期
17 倪志刚;洪玫;刘佳;;基于服务数据对象的异构系统数据集成方案研究[J];计算机应用;2007年S1期
18 张晓星;唐朝晖;;企业多源异构数据库数据集成的研究[J];可编程控制器与工厂自动化;2007年03期
19 田源;;数据仓库技术在数据服务平台中的应用[J];福建电脑;2008年06期
20 李泽;陆廷金;;航空弹药保障信息化系统集成研究[J];微计算机信息;2008年12期
中国重要会议论文全文数据库 前10条
1 曹禹;申德荣;于戈;余恩运;周文生;寇月;;数据网格内一种基于本体的数据集成处理机制[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 祝晓红;刘炜;李俊丽;;用WPF进行复杂数据集成的方法研究[A];第二十七届中国控制会议论文集[C];2008年
3 王帅;缪嘉嘉;李爱平;韩伟红;贾焰;;一种基于构件技术和消息代理模式的数据集成方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 姜芸;吴学伟;;面向服务的地理数据集成中间件的设计与实现[A];第二届“测绘科学前沿技术论坛”论文精选[C];2010年
5 胥永康;吴志杰;席传裕;岳筱玲;;基于数据拆分的数据集成技术研究[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年
6 李明歆;马世龙;许可;;航天器测试数据资源集成的研究[A];2007中国控制与决策学术年会论文集[C];2007年
7 杨军生;;基于GIS的城市规划数据的特征分析及集成方法的研究[A];2007'全国测绘科技信息交流会暨信息网成立30周年庆典论文集[C];2007年
8 杨雪梅;李灿东;周任材;林端宜;;中医症状术语体系库的建立[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年
9 许桂芝;翟秉仁;陈丕富;蔡鸿;张爽;;采油厂生产管理信息系统的数据库集成[A];1996中国控制与决策学术年会论文集[C];1996年
10 苏春燕;刘国华;;基于域语义约束的MiniCon算法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
中国博士学位论文全文数据库 前10条
1 王欣;数据集成技术若干问题的研究[D];上海交通大学;2010年
2 张文江;地质灾害数据集成关键技术研究[D];成都理工大学;2013年
3 蒋永国;面向传感网的海洋观测数据集成关键技术研究[D];中国海洋大学;2010年
4 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
5 李鹏;面向地质勘查的多源异构数据集成关键技术研究[D];中国地质大学;2013年
6 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
7 陈义;面向数据集成的数据复制和查询优化[D];中国科学院研究生院(软件研究所);2004年
8 李雁妮;深网数据集成与挖掘关键问题的建模及算法研究[D];西安电子科技大学;2013年
9 张永新;面向Web数据集成的数据融合问题研究[D];山东大学;2012年
10 殷晓冬;声学测深数据处理与海陆数据集成方法研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 张红宇;数据集成中本体映射的研究[D];中南大学;2005年
2 缪建明;集散控制系统的数据集成的研究与应用[D];福州大学;2003年
3 刘军;分布式智能异构数据集成支持系统的原型实现[D];大连海事大学;2003年
4 李凯;面向SCM数据集成的DW解决方案研究[D];大连理工大学;2006年
5 文静;数据集成中数据冲突检测和解决方法研究[D];山东大学;2010年
6 张雪洁;基于XML的数据集成平台框架及关键技术研究[D];河海大学;2004年
7 周艳芳;基于XML的ERP和电子商务数据集成[D];四川大学;2004年
8 袁红;保险公司数据集成关键技术的研究及应用[D];重庆大学;2004年
9 常萍英;基于OPC的机器人焊接生产线监控系统的数据集成及软件开发[D];东南大学;2004年
10 王宇鸽;电子政务中异构数据资源集成技术的应用研究[D];北方工业大学;2006年
中国重要报纸全文数据库 前10条
1 于翔;谁碾碎了数据?[N];网络世界;2007年
2 ;SaaS需要数据集成[N];网络世界;2007年
3 陈友梅;数据集成 永中Office之本[N];中国计算机报;2002年
4 邹大斌;发挥数据的最大价值[N];计算机世界;2007年
5 姜学军(山东省医药卫生科技信息研究所) 程永(浪潮商用系统公司;山东省地税系统的数据集成[N];电脑商报;2005年
6 李稚;“集成”的困惑[N];计算机世界;2002年
7 于翔 王翔;收复数据孤岛[N];网络世界;2007年
8 刘学纲;互联互通平台的数据集成[N];中国计算机报;2003年
9 朱文;CIO希望攻克数据质量关[N];计算机世界;2008年
10 本报记者 邹大斌;Informatica:从数据中淘金[N];计算机世界;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978