收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不确定数据中数据挖掘方法的研究

董俊  
【摘要】:近年来,不确定性数据(Uncertain Data)得到了越来越广泛的重视。在许多实际领域,例如经济、金融、电信、物流等领域的应用中,普遍存在着数据的不确定性,且不确定性数据往往扮演着关键角色。不确定数据挖掘也成为数据挖掘领域中一个非常重要的研究课题。本文对现有的不确定数据挖掘算法进行了分析研究,从频繁模式挖掘和聚类分析两个角度提出了新的算法,以提高相应不确定数据挖掘的执行效率。 首先,针对基于树结构的不确定数据流频繁模式挖掘算法会存储大量的树结点信息,并且记录数据流的相关信息会导致海量信息存储这一问题,提出了基于压缩树和位向量表的不确定数据流频繁模式挖掘算法。将不确定数据流初始化为概率—位向量表,向量表中用事务来表示项目,并且存储项目发生的概率。同时定义一种压缩树,将带有不同概率的相同项目存储到同一个树结点上,将树结点中的项目及其概率对应到位向量表中并将其转化成二进制位向量,在树的每个叶子结点上连接一个数组用来存储这条路径上所有项目的组合及其期望支持度,并将叶子结点存储到列表LeafList中。算法扫描LeafList中每个项目所指叶结点连接的数组,将数组中存储的期望支持度与用户给定的最小支持度阈值进行比较得到所有的频繁项集。 其次,针对基于行枚举空间挖掘算法中闭项集检测执行时间较长以及搜索空间较大的问题,提出了基于频繁模式有向无环图的频繁闭合模式挖掘算法。定义了一种频繁模式有向无环图(FPDAG)。FPDAG中每一个行号对应一个节点,每两个节点对应一个有向边,有向边存储相邻节点共有的项,有向边记录项和事务的包含关系。首先将数据集转化成位表,再根据位表构建FPDAG。模式增长过程只需要增加有向边上相同的项,通过逆向遍历FPDAG递归产生频繁闭合项集。 再次,针对软件漏洞数据这种不确定数据,现有的漏洞分类的研究按漏洞的特点、弱点和缺陷等概念进行分类,这种分类方法分类标准不统一,存在分类重叠现象。针对这一问题,提出了基于虚拟网格的不确定数据聚类挖掘算法。定义了一种虚拟网格结构,该结构把单元格分为实单元格和虚单元格,只把包含数据对象的实单元格存入内存。同时,定义了概率属性值相似度,通过比较元组间非数值属性值相等的个数来衡量元组间的相似度。基于概率属性值相似度,提出二次划分算法,把元组合并到与它有最大相似度的邻居实单元格中以提高实单元格内元组的相似度。最终,提出一种基于虚拟网格的识别簇算法,通过遍历两次实单元格发现任意形状的簇。 最后,针对在使用基于网格密度的方法对数据流进行聚类时,由于网格划分的随意性,可能出现属于簇的边缘数据点被划分到单独的稀疏网格,从而使得这些数据点被判断为噪声的这一问题,提出了基于空间有向图的不确定数据聚类挖掘算法。定义了一种带重心属性的空间有向图结构SDGC(Spatial Directed Graph with Core),经过在线过程对有向图顶点的维护和离线过程生成有向图并对它进行聚类后,使用顶点维护的重心信息和聚类后得到的簇边缘顶点信息,来判断簇边缘稀疏顶点中的数据点是否属于该簇,然后使用一种新颖的调整策略来调整处理边缘后的结果簇以得到最终聚类结果。 通过实验结果分析表明,本文提出的不确定数据中频繁模式和聚类挖掘算法改善了传统相近算法在频繁模式挖掘效率和相似性度量的准确性,基于压缩树和位向量表的不确定数据频繁模式挖掘算法、基于频繁模式有向无环图的频繁模式挖掘算法、基于虚拟网格的不确定数据聚类挖掘算法和基于空间有向图的不确定数据聚类挖掘算法的性能都有所提升,并且保持了较好的伸缩性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程转流;王本年;;数据流中的频繁模式挖掘[J];计算机技术与发展;2007年12期
2 庄波;刘希玉;;数据流中频繁模式挖掘算法研究及进展[J];福建电脑;2008年03期
3 刘丽娜;李德雄;;一种基于频繁模式的关联规则改进算法[J];河北省科学院学报;2006年03期
4 王敏;赵晓雷;;数据流频繁模式挖掘[J];渭南师范学院学报;2010年02期
5 徐小云;岳志强;;数据挖掘中算法概述[J];科技信息(科学教研);2008年21期
6 张倩;王治和;景永霞;;基于SQL的频繁模式挖掘算法[J];中原工学院学报;2005年06期
7 胡燕;韩瑞雪;;基于Top-K项频繁模式挖掘的研究及实现[J];计算机与数字工程;2009年04期
8 胡彧;王顺平;;事务型滑动窗口下的数据流频繁模式挖掘[J];计算机工程与应用;2010年22期
9 马青霞;李广水;孙梅;;频繁模式挖掘进展及典型应用[J];计算机工程与应用;2011年15期
10 夏阳;;有关关联规则的挖掘算法研究[J];经营管理者;2009年11期
11 樊伟;黄斌;朱冲;王大为;;金融时间序列频繁模式挖掘算法[J];计算机系统应用;2009年11期
12 李畅畅;曾黄麟;孙勇;王振明;;一种基于映射方法的改进频繁模式增长算法[J];四川理工学院学报(自然科学版);2009年03期
13 侯伟;吴晨生;杨炳儒;方炜炜;;一种高效的离线数据流频繁模式挖掘算法[J];计算机科学;2009年07期
14 李畅畅;;一种基于映射方法的改进频繁模式增长算法[J];科技信息;2010年11期
15 王二锋;崔杜武;陈皓;崔颖安;费蓉;;一种新的多值属性关联规则挖掘算法[J];计算机工程;2008年22期
16 王传安;王亚军;贾丙静;杨遡;;基于改进的候选组合频繁模式的LDoS攻击检测[J];盐城工学院学报(自然科学版);2011年02期
17 潘云鹤;王金龙;徐从富;;数据流频繁模式挖掘研究进展[J];自动化学报;2006年04期
18 唐雁;吴绍春;;基于多元索引后继树的序列模式挖掘方法[J];铁路计算机应用;2011年05期
19 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
20 薛丽霞;冀志敏;王佐成;;图像纹理特征挖掘[J];计算机应用研究;2010年08期
中国重要会议论文全文数据库 前10条
1 任家东;孙亚非;郭盛;;基于约束的交互式频繁模式挖掘算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 姚伟力;王锡禄;宋俊德;;基于序列模式挖掘的告警相关性分析算法[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
3 浦磊;潘永湘;;一种自适应快速关联规则挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
4 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 张荣祖;朱扬勇;;一个可视化数据挖掘系统中的数据预处理技术[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
6 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
7 王晨;朱永泰;汪卫;施伯乐;;高效地挖掘频繁图模式[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 王一飞;章勇;;基于条件模式的最大频繁项目集挖掘算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
9 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
2 董俊;不确定数据中数据挖掘方法的研究[D];燕山大学;2012年
3 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
4 董晓莉;时间序列数据挖掘相似性度量和周期模式挖掘研究[D];天津大学;2007年
5 林晓勇;频繁模式挖掘和动态维护的理论与方法研究[D];北京化工大学;2008年
6 金阳;基于概念格模型的序列模式挖掘算法研究[D];吉林大学;2007年
7 封毅;中医药知识发现可靠性研究[D];浙江大学;2008年
8 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
9 王德兴;基于概念格模型关联规则挖掘的关键问题研究[D];合肥工业大学;2007年
10 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
4 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
5 李瑞华;数据挖掘在煤矿安全监测中的应用[D];西安电子科技大学;2010年
6 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
7 叶小旺;面向社区服务的数据挖掘关键技术研究与实现[D];西安电子科技大学;2009年
8 唐松;基于数据挖掘的高校评教系统设计与实现[D];电子科技大学;2010年
9 洪江龙;基于数据挖掘的本科专业评估管理信息系统应用研究[D];上海交通大学;2010年
10 杨少博;数据挖掘在学校管理和学生培养中的应用[D];安徽大学;2011年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年
3 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
4 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
5 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
6 张立明;数据挖掘之道[N];网络世界;2003年
7 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
8 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
9 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
10 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978