收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向不确定数据流的聚类和模式挖掘技术研究

陈静玉  
【摘要】:在网络流量管理、金融数据分析、网站日志管理、视频流版权保护等数据流应用中,由于设备精度、噪音、干扰和隐私保护等问题,数据流中往往包含着大量不确定性数据,而这些不确定性对数据流的管理和挖掘带来了挑战。通过分析数据流的不确定性,可以降低不确定性对挖掘结果的影响,进而提升数据流挖掘的质量。在针对不确定数据流的挖掘中,分析数据的不确定性特征对控制挖掘质量尤为重要。在交通监控、金融数据分析、网站监控等包含大量对象的应用中,数据对象的不确定性,对计算对象间的相似度和对象聚类的质量产生了很大的影响。而在对环境监控、气象监测等数据流的在线聚类过程中,需要考虑数据元组的不确定性对微簇质量的影响。在针对不确定数据流的频繁模式挖掘中,需要根据不确定项集的概率频繁程度和概率分布,反映不确定频繁项集的频次分布情况。在针对不确定数据的序列模式挖掘中,需要基于概率模型度量序列模式的概率频繁程度,这就需要对现有的序列模式挖掘方法进行扩展,并提高概率序列模式的挖掘效率。本论文旨在通过对不确定数据概率特征进行分析,以提高针对不确定数据流的聚类和模式挖掘的质量。论文围绕着基础科研业务费项目“基于概要模型的海量复杂时序数据分析方法研究”、自然基金项目“多核系统下调控模式识别的MapReduce模型及算法研究”和基础科研业务费项目“基于Sketch的不确定流数据管理关键技术研究”等课题,研究不确定数据流的挖掘。本文的研究内容主要针对不确定对象聚类、不确定数据流聚类、概率频繁模式挖掘和概率频繁序列模式挖掘四个方面,概括为以下四个部分:第一部分研究基于概要结构的不确定对象聚类方法。针对现有的不确定聚类方法未考虑不确定对象的概率分布的问题,分别在离散域和连续域上对不确定对象的概率分布进行建模。为了使概率分布的提取更适合数据流环境,通过构建概要数据模型以降低海量对象数据的规模。针对概要数据,采用Kullback-Leibler散度计算不确定对象的相似度,并使用改进的快速高斯变换提高了计算相似度的效率。在此基础上,本文采用改进的KL-散度作为相似性度量,对现有的基于划分的聚类算法分别进行了扩展,提出了基于概率分布相似性的KM-KL聚类算法。最后通过仿真实验验证了该算法对聚类的质量和效率的提升。第二部分研究基于质量度量的不确定数据流聚类方法。针对现有不确定数据流在线聚类方法,基于概率分布给出了微簇的质量度量模型,并基于质量度量构建了描述微簇不确定性质量的直方图模型。在此基础上,提出了一种基于质量度量和时间划分的在线微簇维护策略,通过将缓冲区按照质量和时间区间进行划分,根据微簇的质量特征调整缓冲区,以达到对微簇的质量和成长时间进行细粒度控制的目的。并基于微簇维护策略,提出了一种基于质量度量的不确定数据流聚类算法。同时,针对高维不确定数据流,基于质量度量和投影映射方法,将高维全空间投影到微簇相关的子空间中。在此基础上,给出了在微簇相关子空间中的相似度计算公式,提出了一种基于子空间的高维空间中不确定数据流的聚类算法。最后通过分别与现有算法进行实验比较,说明了低维和高维聚类算法的准确性和高效性。第三部分研究基于Sketch的不确定数据流频繁模式挖掘方法。基于可能世界模型描述频繁模式的概率特征,通过将后缀支持度与Sketch相结合以优化概率频繁模式的挖掘方法。将概率频繁模式挖掘分为两个部分:面向支持度的频繁模式挖掘和频繁项的概率分布统计。基于后缀支持度,优化了频繁模式树的构建,提出了一种基于后缀支持度的频繁模式挖掘算法。同时,基于Sketch和滑动窗口,统计项集的概率分布信息,并提出了一种面向不确定数据流的概率频繁模式的挖掘策略。同时,基于概率分布信息,设计了频繁模式的预测模型,提出了基于预测模型的剪枝算法。最后通过实验表明基于后缀支持度和预测剪枝的挖掘算法,能提高不确定数据流频繁模式挖掘的效率和准确性。第四部分研究基于增长模式的不确定序列模式挖掘方法。在分析序列级不确定数据模型特点的基础上,阐述了概率序列模式的频度测定方法。分析了现有的序列模式挖掘算法中的树形存储结构的冗余性,通过对相同后缀进行合并,基于有向无环图提出了一种概率序列的存储结构PG-DAG。为了提升PG-DAG对概率序列模式中支持度的表示,提出一种使用边的权值表示序列支持度的序列存储结构(W-PG-DAG)。基于概率模型设计剪枝策略,提出了针对不确定序列的概率频繁序列模式挖掘算法。最后通过实验表明,该算法能有效地挖掘不确定序列的概率频繁模式的挖掘效率,并提升存储效率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 崔斌;卢阳;;基于不确定数据的查询处理综述[J];计算机应用;2008年11期
2 周逊;李建中;石胜飞;;不确定数据上两种查询的分布式聚集算法[J];计算机研究与发展;2010年05期
3 徐雪松;;时间序列不确定数据流中异常数据检测方法[J];电子设计工程;2011年19期
4 徐雪松;李玲娟;郭立玮;;基于优化策略的不确定数据流预测方法[J];计算机工程;2011年21期
5 徐雪松;沈红红;陶帆;胡晓璐;崔伟;;基于小波分析的不确定数据流异常数据检测[J];软件导刊;2011年11期
6 钱江波;王志杰;陈华辉;王海斌;;不确定数据流自适应并行连接算法及应用[J];电信科学;2012年02期
7 向剑平;乔少杰;胡剑;;基于不确定数据理论的道路相关度度量方法[J];计算机工程与设计;2012年06期
8 曹振丽;孙瑞志;李勐;;面向不确定数据的农产品追溯方法[J];农业机械学报;2013年07期
9 蒋涛;高云君;张彬;周傲英;乐光学;;不确定数据查询处理[J];电子学报;2013年05期
10 王爽;杨广明;朱志良;;基于不确定数据的频繁项查询算法[J];东北大学学报(自然科学版);2011年03期
11 王意洁;李小勇;祁亚斐;孙伟东;;不确定数据查询技术研究[J];计算机研究与发展;2012年07期
12 陈爱东;刘国华;肖瑞;万小妹;石丹妮;;均匀分布下不确定数据的关联规则变粒度查询[J];计算机工程与科学;2013年10期
13 胡健;苏书宾;毛伊敏;;高维不确定数据高效聚类算法[J];电脑知识与技术;2014年04期
14 刘卫明;杨健;毛伊敏;;基于约束的不确定数据频繁项集挖掘算法研究[J];计算机应用研究;2012年10期
15 陈爱东;刘国华;费凡;周宇;万小妹;貟慧;;满足均匀分布的不确定数据关联规则挖掘算法[J];计算机研究与发展;2013年S1期
16 张晨;金澈清;周傲英;;一种不确定数据流聚类算法[J];软件学报;2010年09期
17 杨金伟;王丽珍;陈红梅;赵丽红;;基于距离的不确定数据异常点检测研究[J];山东大学学报(工学版);2011年04期
18 杨雷;赵春晖;廖艳苹;杨莘元;;基于多源不确定数据融合的研究[J];弹箭与制导学报;2007年03期
19 赵娟;王明春;李小亮;;基于不确定数据决策树分类算法的软件外包评价模型[J];天津职业技术师范大学学报;2011年03期
20 邓慧挺;毛宇光;;不确定数据的重复记录检测[J];计算机技术与发展;2012年08期
中国重要会议论文全文数据库 前7条
1 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
4 艾文凯;张剡;柏文阳;;基于用户偏好的不确定数据阈值轮廓查询算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前8条
1 陈静玉;面向不确定数据流的聚类和模式挖掘技术研究[D];西安电子科技大学;2014年
2 汤克明;不确定数据流中频繁数据挖掘研究[D];南京航空航天大学;2012年
3 梁春泉;不确定数据流分类算法研究[D];西北农林科技大学;2014年
4 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
5 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
6 孙永佼;P2P环境下排序查询处理和分类技术的研究[D];东北大学;2012年
7 王爽;不确定数据流频繁模式挖掘算法研究[D];东北大学;2013年
8 王晓伟;基于概率数据库的偏好查询研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙凤姣;概率XML数据文档的分发技术研究[D];大连海事大学;2015年
2 李雨明;不确定数据的挖掘算法研究[D];上海交通大学;2015年
3 曹庆傲;不确定性数据Top-k查询算法与实现[D];贵州大学;2015年
4 武婷婷;基于MapReduce的不确定查询处理技术的研究与实现[D];东北大学;2013年
5 李红;不确定数据流查询处理算法的研究[D];黑龙江大学;2015年
6 甘果;基于不确定数据的范围查询算法的研究与实现[D];东北大学;2014年
7 张昕;基于分布式极限学习机的不确定数据流分类技术的研究与实现[D];东北大学;2014年
8 李雪;不确定数据聚类研究[D];大连理工大学;2009年
9 周逊;不确定数据聚集查询的分布式处理算法[D];哈尔滨工业大学;2009年
10 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978