收藏本站
《大连理工大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

RDF数据分割与索引方法研究

冷泳林  
【摘要】:随着资源描述框架(Resource Description Framework,RDF)应用领域的扩大,RDF数据量也飞速增长。分布式存储以其高吞吐量、并行化处理、高扩展性和高可用性的优势成为目前解决大规模数据存储和管理问题的有效方法。分布式存储的关键技术之一是有效的数据分割,然而RDF图顶点幂律特性,数据的不断更新变化为RDF数据分割提出严峻挑战。另外,存储与索引是实现数据高效检索的关键,由于RDF数据本身存在语义和结构两方面特征,如何结合语义和结构两方面特征存储和索引RDF数据是另一项重要的挑战。本文针对RDF数据分割和索引存在的问题和挑战展开研究,主要研究包括以下几个方面。(1)面向静态RDF图数据的多层平衡分割。针对现有多层图分割算法面对RDF图顶点关系不对称、顶点幂律性问题所出现的粗化速度过慢,分割不平衡等问题,提出一种基于能量标签传播的RDF图平衡分割算法。算法改进了标签传播算法的更新和传播机制,利用模块度更新节点标签,利用能量衰减策略控制标签传播规模。最后在粗化图上通过引入的平衡调节机制控制图分割的平衡性。为了提高算法分割质量和分割效率,算法还提出了针对唯一属性顶点和高度顶点的初始分割图优化策略。实验验证该算法能够有效提高顶点粗化速度、均衡顶点的粗化规模,控制图分割平衡性。(2)面向动态增量RDF图数据分割。针对RDF数据及存储节点的伸缩变化问题,提出一种支持增量的RDF图分割算法。算法设计基于边割和负载均衡的双目标函数,实现对增量数据的有效分割。算法首先改进了 路贪婪图分割算法,依据目标函数实现已有数据和部分初始增量数据分割。然后对增量数据分别从元组增删、整体分割状态调整和存储节点伸缩变化三方面给出数据动态变化时图分割的调整方案。实验验证该算法能够有效的处理增量数据分割,维持分布式系统整体性能的稳定。(3)面向深度RDF双层索引存储方案。针对元组模式检索时频繁的连接操作及SPARQL复杂查询中普遍存在链式结构信息所反映的语义关联特征,提出一种基于路径的双层索引存储方案。在索引的过滤层,利用路径模板树索引筛选符合条件的全路径集合。在索引的匹配层,通过分层边索引实现已知谓语的有效路径匹配。同时在每个分层边索引上实现了基于k2-tree的元组压缩存储与检索。实验验证本文所提出的双层索引方案能够有效的处理复杂查询,降低检索时中间结果连接规模,提高存储空间的利用率。(4)面向广度分布式RDF索引方案。针对现有星型结构相关研究中存在的构建规模不均、分割副本率高、分割效率低和分布式索引连接边频繁通信问题,提出一种基于星型结构的分布式RDF索引方案。该索引方案首先依据RDF图节点广度优先搜索方式获得的基本粒度单元构建权重图,并实现基于权重图的分割。然后在每个存储节点创建压缩链接索引,实现基于星型结构的快速检索。同时,为避免压缩编码相互转换,实现了基于压缩的逻辑操作。实验验证了本文提出的基于星型结构的分布式索引能够有效提高查询并行性和检索效率。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP311.13;TP393.09

【参考文献】
中国期刊全文数据库 前4条
1 王晓阳;郑骁庆;肖仰华;;智慧搜索中的实体与关联关系建模与挖掘[J];通信学报;2015年12期
2 朱牧;孟凡荣;周勇;;基于链接密度聚类的重叠社区发现算法[J];计算机研究与发展;2013年12期
3 袁平鹏;刘谱;张文娅;吴步文;;高可扩展的RDF数据存储系统[J];计算机研究与发展;2012年10期
4 李慧颖;瞿裕忠;;基于关键词的RDF数据查询方法[J];东南大学学报(自然科学版);2010年02期
中国博士学位论文全文数据库 前1条
1 姚路;图分割算法及其在大规模数值并行计算中的应用研究[D];国防科学技术大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 黄佳鑫;郭红;郭昆;;基于影响簇选择模型和MCMC采样的社交圈子识别算法[J];福州大学学报(自然科学版);2015年05期
2 郭红;黄佳鑫;郭昆;;基于增广边簇序列的重叠层次社区发现[J];模式识别与人工智能;2015年09期
3 谢梦燕;黄旭;赵青;王俊辉;;一种不规则形状聚类算法[J];西安文理学院学报(自然科学版);2015年03期
4 陈羽中;施松;陈国龙;於志勇;;基于节点层级与标签传播增益的重叠社区发现[J];模式识别与人工智能;2015年04期
5 毛金玲;;关系型数据库系统的设计方法研究[J];中小企业管理与科技(上旬刊);2015年04期
6 孙贵宾;周勇;;基于结构相似度仿射传播的社团检测算法[J];计算机应用;2015年03期
7 李刘强;桂小林;安健;孙雨;;采用模糊层次聚类的社会网络重叠社区检测算法[J];西安交通大学学报;2015年02期
8 汪璟玢;方知立;;基于索引的分布式RDF查询优化算法[J];计算机科学;2014年11期
9 张岩;李军;王军;张杰;李永革;;部队健康管理信息支撑平台构建与应用[J];解放军医院管理杂志;2014年09期
10 王石榴;林之丹;;科技期刊语义化研究[J];广东科技;2014年08期
中国博士学位论文全文数据库 前1条
1 冷泳林;RDF数据分割与索引方法研究[D];大连理工大学;2018年
【二级参考文献】
中国期刊全文数据库 前6条
1 邓小龙;王柏;吴斌;杨胜琦;;基于信息熵的复杂网络社团划分建模和验证[J];计算机研究与发展;2012年04期
2 杜小勇;王琰;吕彬;;语义Web数据管理研究进展[J];软件学报;2009年11期
3 黄瑞;史忠植;;一种新的Web异构语义信息搜索方法[J];计算机研究与发展;2008年08期
4 田萱;杜小勇;李海华;;语义查询扩展中词语-概念相关度的计算[J];软件学报;2008年08期
5 沈华伟;程学旗;陈海强;刘悦;;基于信息瓶颈的社区发现[J];计算机学报;2008年04期
6 吴刚,唐杰,李涓子,王克宏;细粒度语义网检索[J];清华大学学报(自然科学版);2005年S1期
中国博士学位论文全文数据库 前3条
1 李宗哲;非结构网格的并行多重网格算法研究[D];国防科学技术大学;2012年
2 刘旭;基于图剖分和图排序的负载平衡算法研究[D];中国工程物理研究院;2008年
3 冷明;基于多水平方法的无向图剖分及其在VLSI设计中的应用研究[D];上海大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 樊棠怀;肖贤建;;适应性数据分割[J];南昌大学学报(理科版);2006年01期
2 张蓉;王晓辉;;基于多聚类的混合数据分割算法[J];信息通信;2018年06期
3 余磊;;高校办公数据分割和格式化输出批处理方案的设计与VBA实现[J];淮北师范大学学报(自然科学版);2017年04期
4 王意洁,卢锡城;基于数据分割的复制算法RSREPL的研究与实现[J];计算机工程;2004年20期
5 李莉;;基于数据分割与分级的云存储数据隐私保护机制[J];电脑编程技巧与维护;2017年22期
6 刘义乐;张进秋;;基于模式识别的离合器动作数据分割方法[J];装甲兵工程学院学报;2019年01期
7 雷宏;张著洪;;受约束的两类数据分割算法及其应用[J];贵州大学学报(自然科学版);2009年02期
8 段海英;;浅议分布式数据库系统的设计原理[J];科技信息(科学教研);2007年18期
9 杨跃东;王莉莉;郝爱民;封春升;;基于几何特征的人体运动捕获数据分割方法[J];系统仿真学报;2007年10期
10 张中波;;基于断层图象的逆向工程中数据分割技术研究进展[J];机械设计与制造;2006年06期
中国重要会议论文全文数据库 前2条
1 吴健;叶峰;崔志明;孙晓平;;基于八叉树分裂合并的医学体数据分割[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
2 齐从谦;陈亚洲;甘屹;崔琼瑶;;逆向工程中复杂曲面数字化重构关键技术的研究[A];制造业与未来中国——2002年中国机械工程学会年会论文集[C];2002年
中国重要报纸全文数据库 前2条
1 中国经济导报记者 公欣;数据分割阻碍建立智能交通大体系[N];中国经济导报;2013年
2 本报记者 陈文忠;应用广泛的分布式计算[N];云南日报;2004年
中国博士学位论文全文数据库 前4条
1 冷泳林;RDF数据分割与索引方法研究[D];大连理工大学;2018年
2 邱彦杰;反向工程中自动精确模型重建的关键技术研究[D];上海交通大学;2011年
3 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
4 刘光帅;基于几何基元的点模型处理关键技术研究[D];西南交通大学;2012年
中国硕士学位论文全文数据库 前10条
1 吴文娟;基于运动数据分割的拉班舞谱自动生成研究[D];北京交通大学;2016年
2 杜廷伟;基于高斯混合模型聚类的Kinect深度数据分割[D];北京工业大学;2013年
3 宋丹丹;基于度量MDS的人体运动捕捉数据分割研究[D];大连大学;2016年
4 王波;分布式医学图像数据库系统的研究和实现[D];东南大学;2004年
5 王弘剑;一种基于分割的OLAP查询数据立方体算法[D];华南理工大学;2017年
6 陈文文;基于LDPC和喷泉码的H.264抗分组丢失技术的研究[D];南京邮电大学;2011年
7 马兴亮;一种针对体数据分割的计算机辅助设计方法[D];哈尔滨工业大学;2007年
8 宋忠辉;基于扫描的轮胎花纹逆向建模方法及系统开发研究[D];合肥工业大学;2017年
9 周虹;关联规则挖掘算法的研究[D];哈尔滨理工大学;2007年
10 周静岚;云存储数据隐私保护机制的研究[D];南京邮电大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026