数据挖掘算法优化研究与应用
【摘要】:随着现代社会的高速发展,各种各样的信息以及数据呈现爆炸式的增长,积累的信息和数据越来越多。这些存放在媒介中的海量数据,在没有外部工具的帮助下,人们很难从这些巨大的数据量中找到有用的信息,这些数据将成为垃圾数据。
数据挖掘技术的出现,很好地解决了这个问题。数据挖掘技术可以从大量的数据中分析学习数据中对用户有用的模式和规则,利用这些学习到的模式和规则,当有新的样本数据的时候,可以根据已有的模式和规则来预测样本数据可能的特性。
数据挖掘分类是数据挖掘的重要步骤之一,而在数据挖掘分类算法中,决策树分类算法是数据挖掘中应用较广的一种分类算法,它主要有ID3分类算法和C4.5分类算法,ID3有着简单易操作的优点,但也有着偏向于处理小数据集,以及只能处理离散属性的缺点,C4.5算法可以很好的弥补ID3算法对连续属性的处理不足的缺点,但C4.5算法同样有着处理增量学习和大数据量问题的不足。解决决策树算法的增量学习问题就是本文研究的切入点。
本文主要对数据挖掘中的分类算法进行详细的介绍和描述,然后将分类算法和数据挖掘增量学习技术相结合,提出了一种增量式决策树算法来解决决策树经典算法的增量学习问题,并对该算法进行了实验数据分析。针对数据挖掘中常见的分类算法,包括:决策树分类算法、最近邻居算法和神经网络这三种最常见分类算法,进行了详细的介绍和描述,并对这三种算法的分类性能进行了比较研究。本文选取决策树分类算法中ID3算法和C4.5算法进行详细的研究,详尽的介绍了这两种分类算法的基本步骤,包括决策树生成和决策树剪枝的基本步骤并列举实例来演示算法的原理。同时分析了ID3算法和C4.5算法的优缺点;最后,根据前面对ID3算法和C4.5算法的性能和优缺点分析,综合贝叶斯分类算法的增量学习特性,提出了一种增量式决策树算法,并通过分析实验数据,该算法很好地解决了决策树算法的增量学习问题。
|
|
|
|
1 |
丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期 |
2 |
任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期 |
3 |
王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期 |
4 |
邵红全,赵茜;用SQL Server2000实现数据挖掘的技术与策略[J];电脑开发与应用;2003年04期 |
5 |
耿庆鹏,卢子芳;利用数据挖掘技术实现对电信行业用户欺诈行为的预测[J];电信快报;2003年10期 |
6 |
蒋良孝,蔡之华;基于数据仓库的数据挖掘研究[J];计算技术与自动化;2003年03期 |
7 |
叶静,蔡之华;遥感图像中的数据挖掘应用概述[J];计算机与现代化;2003年10期 |
8 |
黄解军,万幼川,潘和平;银行客户关系管理与数据挖掘的应用[J];计算机工程与设计;2003年07期 |
9 |
崔强,朱卫东;基于数据挖掘的铁路机务段成本控制系统[J];铁路计算机应用;2003年01期 |
10 |
杨思春;基于数据仓库的数据挖掘技术分析研究[J];微机发展;2003年09期 |
11 |
汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期 |
12 |
李月芳,孙俊;数据挖掘及其在电网故障诊断中的应用[J];农机化研究;2003年04期 |
13 |
陈勍;数据挖掘技术及其应用[J];医学信息;2004年04期 |
14 |
;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期 |
15 |
曾贞;数据挖掘在电子商务中的应用[J];甘肃农业;2004年07期 |
16 |
陈钟;基于DSO的数据挖掘应用[J];广西师范学院学报(自然科学版);2004年S1期 |
17 |
柯文德;一种基于数据挖掘的分布式入侵检测模型[J];计算机测量与控制;2004年08期 |
18 |
徐玲;基于案件综合信息分析挖掘的研究[J];广东公安科技;2004年01期 |
19 |
赵明清;蒋昌俊;陶树平;;基于等价相异度矩阵的聚类[J];计算机科学;2004年07期 |
20 |
王恬宇,陈雪强;基于数据挖掘的分步式定性推理[J];情报杂志;2005年01期 |
|