收藏本站
《东北大学》 2016年
收藏 | 手机打开
二维码
手机客户端打开本文

大规模图数据的相似性查询和分类技术的研究

庞俊  
【摘要】:图是一种描述对象以及对象之间关系的表示模型,学术界和工业界产生的结构关系数据和非结构化关系数据都可以直接或间接地用图模型进行描述。图相似性查询旨在从两个图数据集合中找出所有两两相似的图对或从单个图数据集合中找出与查询图相似的所有图。前者称之为图相似性连接查询,后者称之为图相似性搜索查询。图分类的目的是通过从训练图集中学习分类模型,以此预测无标签图的类标签。图相似性查询和图分类技术在许多领域都有重要的实际应用价值,如化学领域、生命科学领域和社交网络领域。虽然图相似性查询和图分类技术具有重要的实用价值,但是,目前这两种技术的研究面临着两个严峻的挑战:(1)多图复杂特性引起的挑战。多图是一种描述对象和其组件之间的组合关系的表示模型,是由多个图组成的一个集合。虽然多图相似性查询和多图分类技术很重要,但是由于多图结构复杂,因此解决多图相似性查询和多图分类问题很困难。(2)大规模特性引起的挑战。目前,现有大规模图数据处理技术主要面向单个自身规模很大的图,这些技术不适合直接用于处理自身规模不大但数量庞大的图和多图。海量的图和多图的相似性查询和分类需要分布式处理,也面临许多技术挑战。本文从学术界和工业界的实际需求出发,分析了图和多图相似性查询和分类技术面临的挑战,针对自身规模不大但数量庞大的图和多图的相似性查询和分类问题进行了深入的研究,提出了一些高效的解决方法,满足学术界和工业界的实际需求。本文的贡献点总结如下:(1)针对大规模图相似性连接查询问题,提出了相应的解决方案,具体内容包括:提出了可扩展的前缀过滤技术,该过滤技术适用于大q-gram字母表;提出一种基于可扩展前缀过滤技术和MapReduce框架的并行的MR-GSimJoin算法,解决大规模图的相似性连接查询问题;使用多个技术对MR-GSimJoin算法进行优化,包括:压缩技术、两轮数据访问技术和复合键技术。最后,通过一系列的实验验证了所提出算法的有效性和高效性。(2)针对大规模多图相似性搜索查询问题,提出了相应的解决方案,具体内容包括:提出了一种多图距离定义,并优化了计算多图距离的KM算法;提出了增量式的多层倒排索引和多个下界剪枝策略;提出了一种基于多图距离、增量式多层倒排索引和多个下界剪枝策略的MGSS算法,解决小规模多图相似性搜索查询问题;提出了一种基于MGSS算法和MapReduce框架的并行的MR-MGSS算法,解决大规模多图相似性搜索查询问题;并使用局部化策略对MR-MGSS算法进行了优化,不仅减少了通信代价,而且在一定程度上解决了 map task负载不均衡问题,从而提高了 MR-MGSS的效率。最后,通过一系列的实验验证了MGSS和MR-MGSS算法的有效性和高效性。(3)针对有监督大规模多图分类问题,提出了相应的解决方案,具体内容包括:提出了一种基于MapReduce框架的并行的ME-MGC算法,解决有监督大规模多图分类问题;使用倒排索引技术和复用技术提高ME-MGC算法的效率;使用超限学习机方法(ELM)提高ME-MGC算法的分类性能,并研究了 ELM算法隐藏节点数目对ME-MGC算法分类性能的影响。最后,通过一系列的实验验证了 ME-MGC算法的有效性和高效性。(4)针对半监督大规模多图分类问题,提出了相应的解决方案,具体内容包括:提出了一种评价特征子图价值的打分函数;该打分函数既考虑有标签多图和无标签多图,又考虑多图的两层标签约束特性,有利于选择出质量更好的特征子图;提出了一种基于打分函数的MGSSL算法,解决半监督小规模多图分类问题;提出了一种上界剪枝策略,提高MGSSL算法的效率;提出了一种基于MGSSL和MapReduce框架的MR-MGSSL算法,解决半监督大规模多图分类问题;并使用复用技术和局部化策略对MR-MGSSL算法进行了优化。最后,通过一系列的实验验证了 MGSSL算法和MR-MGSSL算法的有效性和高效性。总之,本文研究了大规模图的相似性连接查询问题、大规模多图的相似性搜索查询问题、半监督大规模多图分类问题和有监督大规模多图分类问题,提出了高效的解决方案。实验结果表明,本文提出的方法的查询性能和分类精度均优于之前最好的方法。
【学位授予单位】:东北大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:O157.5

【相似文献】
中国期刊全文数据库 前8条
1 范文正;梁亚民;;集中与离散是数据集合的本质[J];统计教育;2006年02期
2 严凤斌;邰海军;李会刚;;标准数据集合的分析与设计[J];科技广场;2010年01期
3 周金革;熊海鸥;郭开仲;;错误数据集的变换研究[J];数学的实践与认识;2014年11期
4 赵成龙;陈乐义;张冉;李红;;一种快速有效处理数据集分类问题的新算法[J];山东科技大学学报(自然科学版);2006年04期
5 张巍;高新院;李瑞姗;;空间位置信息的多源POI数据融合[J];中国海洋大学学报(自然科学版);2014年07期
6 ;微科普[J];杭州科技;2013年02期
7 李星敏,赵杰明,张树誉;NOAA/AVHRR陕西局地数据集的生成及应用[J];甘肃气象;1997年02期
8 李劲;ADO.NET技术在科技信息网中的应用[J];湖北民族学院学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前8条
1 许晓峰;金澈清;高明;周傲英;;面向大型数据集合的关键分类查找算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 马垣;崔丽;刘鸿雁;梁材;;关系中的概念与命题[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 向坚;俞坚;叶绿;;一种高效的大规模RFID数据集合清理方法[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
5 卢建松;曹庆华;傅翠娇;;探究Delphi平台下处理.NET Web Service返回数据集的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
6 张路;袁晓洁;刘芳;窦志成;;大规模数据集的分布式索引机制研究[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 于爱荣;刘晓明;曹雷;王俊;;NET Web Services数据集在Delphi中的处理与研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
8 王加阳;;动态约简抽样分析[A];2006年全国理论计算机科学学术年会论文集[C];2006年
中国博士学位论文全文数据库 前9条
1 王海涛;基于大规模文本数据集的相似检测关键技术研究[D];吉林大学;2016年
2 庞俊;大规模图数据的相似性查询和分类技术的研究[D];东北大学;2016年
3 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
4 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年
5 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
6 于鷃;基于一维SOM神经网络的聚类及数据分析方法研究[D];天津大学;2009年
7 彭涛;基于特征和实例的海量数据约简方法研究[D];华中科技大学;2011年
8 刘柏林;基于电网运行数据集的电力系统运行评估及优化研究[D];华北电力大学(北京);2017年
9 於跃成;基于半监督学习的分布式和演化聚类研究[D];南京航空航天大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026