收藏本站
《东华大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

数据空间中数据集成若干关键问题研究

姜朔  
【摘要】:近年来,随着数字化技术的快速发展,数据量以惊人的趋势迅猛增长,数据显现出多样化的改变,网络技术的日新月异也使得原本相隔万里的数据关联越来越紧密。传统的数据管理技术在过去的几十年中为数据管理做出了极大的贡献,但由于数据新特点的出现,使得传统的数据管理技术在面对日益复杂多变的数据时显得捉襟见肘。在这种情况下,人们试图寻求一种全新的数据管理技术以满足日渐丰富的数据管理需求——数据空间(dataspace)。 数据空间是一个新兴的研究领域,许多关键技术还有待于深入研究。本文着重研究了数据空间中的数据集成若干关键问题。数据集成是为了解决异构数据、分布式数据的管理与共享而提出的,数据空间在本质上也是为了解决这个问题,但集成对象、集成方法等与传统数据集成技术有很大区别。数据空间的数据集成根据包装器提取数据源的数据信息。首先,需要将数据信息与数据空间的主体进行相关度评估,通过相关度决定是否将该数据信息存储到数据空间中;其次,由于数据空间不仅存储数据信息,还存储数据间的关系信息,因此数据空间集成需要对相关度较高的数据信息进行关联关系的发现和提取;最后,通过匹配数据空间的模式摘要确定数据所属的模式,然后将满足相关度的数据信息及其关系信息存储到数据空间中。因此,数据空间中数据集成的关键问题具体有相关度评估、数据关系发现和模式摘要的建立等。由于人的因素对数据空间起到了举足轻重的作用,所以在这三个数据空间集成的研究问题中加入人为因素的存在,会使得本文的研究更具实际意义。 根据以上分析,本文对下列几个方面的工作进行了深入的研究: 1)提出了基于操作行为的相关度算法。首先,本文对使用者操作行为的采集进行了深入的研究,通过分析使用者的操作行为,提出了操作行为采集算法用于采集使用者的操作行为信息,并通过Vertical模型将操作行为信息形成信息集;其次,研究了核心词集的提取,给出了操作行为间关联程度的评价方法及访问信息间关联程度的评价方法,通过将操作行为的关联、访问信息的关联及核心词频率进行结合,提出了基于CTFS的核心词权重评价方法用于提取核心词集;再次,在提取核心词集研究的基础上,提出了基于路径长度、发生频度及语义内容的PFC数据相关度算法;最后,在PFC算法的基础上,本文还给出了数据质量的评价算法,用于数据空间的查询排序等服务。实验对核心词的提取、数据相关度及数据质量进行了检验分析,实验结果证明,本文提出的算法具有很强的实用性及有效性。 2)提出了基于主体特征的关系发现方法。数据空间中数据的关联分为显性关联和隐性关联,本文对显性关联的发现进行了研究,并通过在显性关联的基础上引入主体特征研究了隐性关联的发现。在显性关联研究部分,首先,通过5-ary对数据原子进行了描述,给出了数据原子属性重要程度的度量方法用于提取重要的属性作为核心词;其次,提出了CWD模型,并定义了具有同一核心词的数据原子集作为提取数据原子关联的数据集;最后,定义了群体类别及其关联,并结合具有同一核心词的数据原子集给出了基于数据原子集、群体类别及群体类别关联(DCR)的显性关联发现方法。在隐性关联研究部分,本文给出了基于主体特征的支持度和可信度的进一步定义,使支持度和可信度被主体特征所影响;然后,在显性关联的基础上,通过结合基于主体特征的支持度和可信度生成的频繁项集,给出了数据原子间隐性关联的发现方法。实验部分验证了属性的变化、群体类别关联的变化及基于主体特征的频繁项集对数据原子关联的影响。 3)提出了一种基于信息差异的数据空间模式摘要提取方法,该方法可帮助用户快速、准确地了解数据空间的结构。首先,本文提出使用PageRank网页排序算法计算节点的重要性,并在分析了模式节点在模式图中的连通性以及在数据图中的分布频度对节点重要性影响的基础上,提出了选取首要节点的方法;其次,通过对节点产生的信息改变量差异ICD进行计算和分析,提出了基于信息差异的偏好值,该偏好值可用于提取模式摘要的候选节点集;再次,通过分析数据空间模式分块的特点,将模式分块与社团构建结合起来,使用基于边介数的模式分块算法SPIP算法,对模式图中的节点进行分块,并使用模块度函数来度量分块的质量;最后,给出了完整的模式摘要提取流程。实验首先比较了本文的分块算法与经典的贪婪分块算法,证明了本文提出的方法在效率及准确度上均优于贪婪分块算法;实验的另一部分比较了不使用模式摘要与使用模式摘要的三种情况下的查询效率,结果证明,使用模式摘要可提高查询效率,减少查询消耗。 综上所述,本文对数据空间集成中数据相关度、关联关系发现及模式摘要提取进行了深入的研究。对于数据与主体的相关度,本文通过对使用者操作行为的分析研究给出了数据的相关度算法PFC算法;对于关系发现,本文给出了基于DCR的显性关联发现方法,并通过分析数据空间的主体特征,给出了基于主体特征的关联发现方法;对于模式摘要,本文针对数据空间模式松散、主体及数据均为动态变化,难以进行模式匹配的特点,提出了基于信息差异的模式摘要提取方法,提高了数据空间与数据信息的匹配能力,并为准确定位用户需求及查询等服务提供了保证。
【学位授予单位】:东华大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前6条
1 崔晨;吴扬扬;;用户活动信息相关性分析[J];福建电脑;2011年03期
2 张鹏;韩燕波;王菁;陈旺虎;丁维龙;高晶;;一种利用继承关系的业务服务实例化方法[J];计算机科学;2009年02期
3 蒋在帆;王斌;;基于用户行为分析的个人信息检索研究[J];中文信息学报;2011年01期
4 杨丹;申德荣;于戈;寇月;聂铁铮;;Query Intent Disambiguation of Keyword-Based Semantic Entity Search in Dataspaces[J];Journal of Computer Science & Technology;2013年02期
5 邓昌智;敖翔;周明骏;徐礼爽;田丰;戴国忠;;以活动为中心的个人信息管理[J];软件学报;2008年06期
6 李玉坤;孟小峰;张相於;;数据空间技术研究[J];软件学报;2008年08期
【共引文献】
中国期刊全文数据库 前10条
1 宋兵;;基于复杂网络的农作物细菌性病害传播模型初探[J];安徽农业科学;2011年34期
2 魏娟;宋福庆;;两种全局同步稳定性方法的比较与应用[J];安阳师范学院学报;2011年05期
3 黄树林;鞠颂东;董军;;企业集团网络化物流模式的结构分析[J];北京交通大学学报(社会科学版);2011年01期
4 尹向敏;李元左;罗小明;;陆军武器装备综合集成系统复杂性研究[J];兵工自动化;2007年10期
5 邱原;邢焕革;;基于复杂理论的作战网络关键边评估方法[J];兵工自动化;2011年08期
6 马睿;朱建冲;杨美玲;;基于改进聚类生存度的军事通信网可靠性分析[J];兵工自动化;2012年06期
7 徐玉国;邱静;刘冠军;;基于复杂网络的装备维修保障协同效能优化设计[J];兵工学报;2012年02期
8 徐玉国;邱静;刘冠军;;基于多元加权网络的装备维修保障组织结构动态演化模型[J];兵工学报;2012年04期
9 程连元;杨柳青;柳应华;宗刚;;面向市政管理的不良信息传播仿真模型[J];北京工业大学学报;2011年04期
10 周宏达;陈守刚;杨德刚;;主城区公路网的复杂网络特征分析[J];成都大学学报(自然科学版);2009年04期
中国重要会议论文全文数据库 前10条
1 陈树文;高琼;;网络结构视角下中关村产业集群创新驱动困境与建议[A];创新驱动与首都“十二五”发展——2011首都论坛文集[C];2011年
2 耿志勇;;具有静态非线性互联结构的分布式异构系统的稳定性[A];第二十六届中国控制会议论文集[C];2007年
3 李鑫滨;王腊梅;刘仙;;基于动态复杂网络的Van der pol振子同步[A];第二十九届中国控制会议论文集[C];2010年
4 李立;;BA无标度网络中混沌动力系统的同步分析及控制[A];第二十九届中国控制会议论文集[C];2010年
5 张跃;蒋国平;;一类混沌复杂动态网络不稳定平衡点的牵制控制[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 郑新奇;苏艳军;杨光;王淑晴;;城市道路网络复杂性的研究方法——空间句法与复杂网络模型的集成分析[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
7 《基于学术交流的技术创新人才培养研究》课题组;陈雄辉;;基于学术交流的技术创新人才培养研究[A];学术交流质量与科技研发创新研究[C];2009年
8 王建功;李平辉;谭欢;;B-A模型的改进模型[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(下册)[C];2008年
9 李小叶;王红蕾;;城市公共交通网络的级联失效研究[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
10 程时伟;秦绪佳;刘肖健;;上下文驱动的移动设备用户界面设计方法[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 杜文博;面向航空交通系统的复杂网络与网络动力学研究[D];中国科学技术大学;2010年
2 籍艳;几类时滞系统的稳定与同步[D];江南大学;2010年
3 徐旭林;社会群体行为建模及其动力学分析[D];南开大学;2010年
4 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
5 张建辉;节点势能导向多下一跳路由协议研究与性能评价[D];解放军信息工程大学;2009年
6 高磊;P2P工作流系统中的资源搜索及负载均衡优化研究[D];山东大学;2010年
7 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
8 张泽华;云计算联盟建模及实现的关键技术研究[D];云南大学;2010年
9 沈波;基于不完全测量信息的非线性随机系统的滤波与控制[D];东华大学;2011年
10 王耀;随机复杂动态网络的同步与稳定性分析[D];东华大学;2010年
中国硕士学位论文全文数据库 前10条
1 苏延森;刺激下拟南芥基因逻辑网络构建与分析[D];山东科技大学;2010年
2 李二艳;刺激下拟南芥基因相关网络构建与分析[D];山东科技大学;2010年
3 周斌;复杂网络的社团结构挖掘及应用研究[D];广西师范学院;2010年
4 高萌;复杂神经元网络的同步问题研究[D];哈尔滨工程大学;2010年
5 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
6 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
7 贾琳;基于复杂网络的海洋排污权配置及其交易机制研究[D];中国海洋大学;2010年
8 王鹏;拓扑结构对Hindmarsh-Rose神经元放电模式调控作用的理论研究[D];安徽师范大学;2010年
9 张胜虎;基于复杂网络的南昌市公交网络优化研究[D];南昌大学;2010年
10 程世奇;小世界神经元网络的同步控制和发放性统计[D];华东理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 李长云;阳爱民;满君丰;应晶;;一种面向按需集成服务的业务模型构造方法[J];计算机学报;2006年07期
2 彭鑫;赵文耘;刘奕明;;基于特征模型和构件语义的概念体系结构设计[J];软件学报;2006年06期
3 吴思颖;吴扬扬;;基于中文WordNet的中英文词语相似度计算[J];郑州大学学报(理学版);2010年02期
【相似文献】
中国期刊全文数据库 前10条
1 郭莹;;数据空间关键问题探究[J];软件导刊;2012年07期
2 厉剑;张绍雄;刘俊杰;李成柱;;大数据引发信息时代新变革[J];大众科技;2013年12期
3 李斌;;大数据及其发展趋势研究[J];广西教育;2013年35期
4 张晓军;孟祥武;;数字化周期[J];计算机科学;2002年05期
5 崔晨;吴扬扬;;基于活动的数据空间数据关系发现[J];微型机与应用;2011年11期
6 贾云得;;微型数字存贮遥测装置数据预存贮方法[J];遥测遥控;1989年06期
7 靳小龙;王元卓;程学旗;;大数据的研究体系与现状[J];信息通信技术;2013年06期
8 朝乐门;;数据空间及其信息资源管理视角研究[J];情报理论与实践;2013年11期
9 黄一凡;;合并分区 数据无损有妙招[J];电脑爱好者;2011年23期
10 葛敬军;胡长军;刘歆;李扬;刘震宇;;面向领域科学数据的虚拟数据空间共享模型[J];小型微型计算机系统;2014年03期
中国重要会议论文全文数据库 前5条
1 李鸿奎;陈洪艳;;大连市房地产基础地理信息系统的设计和建设[A];中国地理信息系统协会第九届年会论文集[C];2005年
2 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 庞怡;许洪光;张志敏;;针对海量科技信息的存储研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
4 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
5 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
中国重要报纸全文数据库 前7条
1 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年
2 风格;指引大数据未来发展方向的九大真理[N];中华读书报;2013年
3 录音整理 本报记者 刘文强 杨丰源;创新驱动,奋力奔向大数据时代[N];贵阳日报;2014年
4 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年
5 整理 本报记者 苏丹丹;把握大数据机遇 推动文化产业跨越发展[N];中国文化报;2013年
6 安徽国税局 赵为民;税务综合数据平台的设想[N];计算机世界;2007年
7 记者 郑向鹏 通讯员 刘戈;模块化布局可按需使用[N];深圳特区报;2010年
中国博士学位论文全文数据库 前8条
1 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年
2 陈鹏;面向情景感知计算的时空数据管理、查询、分析与相关算法研究[D];华东师范大学;2013年
3 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年
4 张晓东;数字河口平台建设关键技术研究[D];中国海洋大学;2009年
5 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
6 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
7 刘江涛;面向多领域用户模型的自适应网络制图服务机制研究[D];武汉大学;2012年
8 Gile Narcisse FANZOU TCHUISSANG;预测数据空间检索使用概率的隐藏的信息[D];北京交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 崔晨;基于活动的数据空间的数据关系发现和数据重要性评价[D];华侨大学;2011年
2 童蓉;基于GIS的社区公共卫生信息平台应用研究[D];上海交通大学;2010年
3 刘莉;数据空间数据的相关性研究[D];华侨大学;2013年
4 赵宁;数据空间内面向语义的资源组织与管理模型研究[D];东北大学;2009年
5 王洋;数据空间中数据资源之间关联关系发现与语义查询研究[D];东北大学;2011年
6 常飞;基于实时数据的动态异常检测方法研究[D];天津理工大学;2013年
7 朱军;基于EnCase的电子数据取证系统设计与实现[D];天津大学;2011年
8 于维贺;个人数据空间中关联关系可视化技术的研究与实现[D];东北大学;2010年
9 何汉;网格环境下基于驱动的可扩展数据管理研究[D];华中科技大学;2008年
10 汪支方;曲靖市中小学教育教学数据资源共享平台集成研究[D];昆明理工大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026