收藏本站
《山东大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

海量流数据挖掘相关问题研究

于自强  
【摘要】:随着移动终端、传感器、互联网等技术的飞速发展,流数据作为一种典型的大数据已经在许多领域广泛出现。当前,流数据包含时空数据、传感数据、社交网络数据等多种类型数据,数据本身蕴含巨大的价值,这使得流数据挖掘具有重要的学术价值和应用价值。与静态数据相比,流数据有其自身特点:原始数据量巨大、数据到达速度快、数据处理对时效性要求高、数据难以重复获取。由于流数据自身的特点,一些已有的数据挖掘技术很难直接用来解决流数据挖掘问题,因此研究流数据挖掘相关问题具有重要意义。本文针对海量流数据挖掘领域的相关问题进行了研究。第一个问题是多数据流的频繁伴随模式发现问题。频繁伴随模式(Frequent Co-occurrence Pattern)是指一组对象较短时间内在同一个数据流里伴随出现,并且在之后指定的一段时间内以同样的方式出现在多个数据流上。本文的目标是实时发现多个数据流里出现的所有频繁伴随模式。在实际应用中,城市交通管控系统的伴随车辆发现、电子商务中的热销商品组合挖掘、基于签到数据的伴随人群发现以及社交网络数据中基于高频伴随词组的热点事件发现等应用都可以抽象为多数据流的频繁伴随模式发现问题。为解决这一问题,本文提出了基于segment片段的流数据划分策略,并设计了DIMine和CooMine两种挖掘方法。这两种算法首先对有效的segment片段建立索引,然后基于segment索引结构设计剪枝策略,通过不断削减挖掘范围以达到快速发现频繁伴随模式的目的。DIMine和CooMine挖掘算法在挖掘效率、内存消耗和索引维护代价取得了很好的效果。但它们是适合单机运行的集中式算法,难以直接部署到分布式环境中应对规模巨大的流数据。为了能够在大规模流数据中发现频繁伴随模式,本文设计了多数据流频繁伴随模式的分布式挖掘方法。该方法首先产生所有数据流中可能形成频繁伴随模式的候选模式,然后通过哈希方法将不同数据流的相同候选模式发送至至同一个计算单元,继而判定该候选模式是否为频繁伴随模式。由于每个候选模式是独立的,不同的候选模式可以由多个计算单元同时处理,因此该方法能够利用分布式服务器集群进行并行计算,从而具备良好的可扩展性。本文研究的第三个问题是分布式时空数据的k近邻搜索问题。时空数据是一种典型的流数据,k近邻搜索是许多数据挖掘问题的基本操作。给定一个时空数据集和任意一个查询点,k近邻搜索要求实时地得到该时空数据集中与该查询点距离最近的k个对象。已有的时空数据k近邻搜索算法通常假设时空数据集规模有限且查询数量较少,其研究重点是面向单个计算节点的k近邻集中式查询算法,很难将它们应用到分布式环境下以处理大规模时空数据和高并发k近邻搜索。为此,本文提出了面向海量时空数据的分布式k近邻搜索算法。该算法首先设计了分布式动态条状索引结构(DynamicStrip Index, DSI),与已有的网格索引相比,DSI索引结构能够适应不同的数据分布。此外,DSI索引结构更容易分布式部署到多个计算节点之上。基于该索引,我们设计了DKNN查询算法。该算法能够将KNN查询的迭代次数减少至两次,与已有的算法相比,DKNN算法的性能更加高效且可以预测。随后,我们将DSI索引结构和DKNN查询算法在开源的流数据处理平台S4上进行了实现,通过大量实验证明了算法良好的可扩展性和优异性能。本文对流数据挖掘相关问题进行了深入研究,针对特定问题,给出了针对性的解决方案。本文的创新点和贡献如下:(1)本文首次提出多数据流频繁伴随模式发现这一问题,并给出了DIMine算法和CooMine算法两种解决方案。(2)本文提出了分布式的多数据流频繁伴随模式挖掘算法,实现从大规模流数据中快速发现频繁伴随模式。(3)本文设计了海量时空数据的分布式k近邻搜索算法,以应对规模急剧增长的时空数据和海量并发查询。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期
2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期
3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期
4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期
5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期
7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期
8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期
9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期
10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期
中国重要会议论文全文数据库 前10条
1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年
7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年
2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年
3 彭计红;基于数据挖掘的痴呆中医证的研究[D];南京中医药大学;2015年
4 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年
5 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年
6 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年
7 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年
8 王珊珊;知识指导下的数据挖掘在新闻和金融工具之间因果关系上的应用[D];中国科学技术大学;2009年
9 杨虎;序列数据挖掘的模型和算法研究[D];重庆大学;2003年
10 陈平;数据挖掘网格若干关键技术研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年
2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年
3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年
4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年
5 刘学建;数据挖掘在电子商务推荐系统中的应用研究[D];昆明理工大学;2015年
6 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年
7 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年
8 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年
9 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年
10 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026