收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

属性不确定数据关联分类算法研究

朱倩  
【摘要】:随着金融,电信和传感器网络等领域中大量不确定数据的出现,人们渐渐发现以往忽略数据不确定性的方法是草率和不合理的。所以近几年来,不确定数据的挖掘算法渐渐成为研究的热点。本文概述了不确定数据在现实中的来源,产生原因和常见的数据模型,总结了已有的不确定数据挖掘算法研究成果。目前该领域还处于模仿和实验传统数据挖掘经典算法的阶段,因为不确定数据的复杂性,使得挖掘算法的性能并不理想。鉴于此,本文针对属性不确定类的数据的分类问题,提出了新的基于抽样的关联分类算法。 该算法分为频繁项集挖掘和关联分类两个阶段。第一阶段是算法耗时最多的部分,在很大程度上决定了算法的效率;第二阶段利用第一阶段产生的频繁项集构建分类器,预测未知实例,分类器构建方式和质量决定了分类的准确度。 在算法的第一阶段,现有的不确定数据频繁项集挖掘方法时间消耗和内存使用量大过大,并不能适用于大型不确定数据集的挖掘。针对这一问题,本文提出一种新的基于抽样的不确定数据频繁项集挖掘算法——SARMUT,在保证数据质量的前提下提高挖掘效率。该算法基于的思想是频繁项集是在很多数据中频繁出现的项目集合,也就是说数据有一定的重复性,所以我们可以抽取一部分数据来代表整体数据,在部分数据上面做完全的关联规则挖掘从而节省时间和内存的消耗。基于不确定数据的特殊性,我们在算法中引入距离度量来衡量数据集之间的相似性,使用一种折中的贪心算法寻找最佳样本集。通过大量的实验证明,与非抽样算法相比,SARMUT可以达到非常高的准确度,同时极大的降低挖掘时间的消耗。 在算法的第二阶段,本文针对不确定数据类别的模式和特征的发现更加困难,冲突规则增多,分类效果不佳等问题,提出了新的不确定数据关联分类算法——uARCSR。该算法根据不确定数据特点,设计新的分类规则评价指标——强度和加权相对精度,有效的区分不确定数据分类中的冗余规则和冲突规则。针对不确定数据中规则和实例不完全匹配的特点,算法设计了一个新的匹配程度判别方法和一个简洁的分类规则修剪策略,使得到的精简规则集覆盖到所有训练实例。在预测时使用规则分值求和来选择类别,进而达到提高分类准确度的目的。实验结果表明,该算法能够有效地对不确定数据进行分类,在5个数据集上达到满意的分类准确度,并能有效缩减规则集大小。 最后本文将上述两阶段算法结合,通过与非抽样关联分类算法的对比,在数据集中验证了该基于抽样的不确定数据关联分类算法在保证分类准确度的同时,大大降低了运行时间。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 汪金苗;张龙波;邓齐志;王凤英;王勇;;不确定数据频繁项集挖掘方法综述[J];计算机工程与应用;2011年20期
2 付世昌;董一鸿;唐燕琳;陈华辉;钱江波;;基于事件的位置不确定移动对象连续概率Skyline查询[J];自动化学报;2011年07期
3 张徵;杨卫东;朱皓;;不确定数据库上的top-k关键字查询[J];计算机科学与探索;2011年09期
4 梁瑜;张剡;周嵩;柏文阳;;基于不确定数据的top-k概率相互最近邻查询[J];计算机应用研究;2011年07期
5 李云飞;王丽珍;周丽华;;不确定数据的高效聚类算法[J];广西师范大学学报(自然科学版);2011年02期
6 彭宇;罗清华;彭喜元;;UIDK-means:多维不确定性测量数据聚类算法[J];仪器仪表学报;2011年06期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 陈晓云;胡运发;;利用规则权重改进文本关联分类[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 孙永佼;王国仁;;P2P环境中不确定数据Top-k查询处理算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 陆叶;王丽珍;张晓峰;;从不确定数据集中挖掘频繁Co-location模式[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 周帅印;李晨;王勇;张阳;;FDTU:针对不确定数据的快速决策树生成算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 周逊;李建中;石胜飞;;不确定数据上聚集查询的分布式处理算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 李玉强;贺国平;;鲁棒线性规划[A];中国企业运筹学学术交流大会论文集[C];2008年
10 王晓伟;黄九鸣;贾焰;;分布式不确定数据上的概率Skyline计算[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
中国博士学位论文全文数据库 前8条
1 高明;不确定数据的世系管理和相似性查询[D];复旦大学;2011年
2 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
3 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年
4 邹晓红;用于图分类的频繁子结构挖掘算法研究[D];燕山大学;2011年
5 安玉娥;应用于大规模动力系统中的基于SVD-Krylov的模型简化方法[D];上海大学;2010年
6 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
7 齐红;基于形式概念分析的知识发现方法研究[D];吉林大学;2005年
8 朱卫东;面向互联网基于证据理论的智能决策支持系统研究[D];合肥工业大学;2003年
中国硕士学位论文全文数据库 前10条
1 朱倩;属性不确定数据关联分类算法研究[D];大连理工大学;2011年
2 刘明建;不确定数据的代价敏感决策树分类器研究[D];西北农林科技大学;2012年
3 刘文博;关联分类方法在铝电解中的应用研究[D];北方工业大学;2012年
4 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
5 张星;不确定数据的PU学习决策树研究[D];西北农林科技大学;2012年
6 高聪;Deep Web下不确定数据处理的研究[D];东北大学;2008年
7 覃香菊;不确定数据上的关联分类器[D];西北农林科技大学;2011年
8 宋进征;直接挖掘无冗余规则的关联分类[D];兰州大学;2011年
9 杨永刚;云计算下关联分类技术的研究与实现[D];电子科技大学;2011年
10 胡文瑾;关联分类算法研究及其在医学图像数据挖掘中的应用[D];兰州理工大学;2008年
中国重要报纸全文数据库 前2条
1 编译 刘光强 许继楠;风险管理智能了,金融创新不怕了[N];中国计算机报;2010年
2 杭讯;低碳烯烃和芳烃石化产品的注册联合体在正轨上运行[N];中国国门时报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978