数据挖掘中决策树算法在客户流失中的应用研究
【摘要】:数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。其目的是提高市场决策能力、检测异常模式、在过去的经验基础上预言未来趋势等等。它致力于数据分析和理解、揭示数据内部蕴藏知识的技术,已成为未来信息技术应用的重要目标之一。经过20多年的发展,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。
分类模式挖掘是数据挖掘中的一种非常重要的方法,可以应用于数据预测,可划为决策树学习、贝叶斯分类、遗传算法和粗糙集等等。决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。
本文主要是研究数据挖掘中的决策树算法以及决策树算法在具体的小灵通流失分析中的研究与分析。首先对数据挖掘技术的产生和发展现状做了概括性的阐述,介绍了数据挖掘的概念、主要内容、模式和主要问题,以及数据挖掘的应用和发展;接着对数据挖掘中的决策树技术做了详细的描述,介绍了决策树中的经典挖掘算法ID3算法,在分析和总结了ID3,C4.5算法的基本性质、性能和特点的基础上,本文作者对经典的C4.5算法进行了一些改进,并分析了改进后的特点和效果。最后,针对电信业小灵通客户流失的问题,通过数据挖掘技术在大量的历史数据中进行挖掘分析,使用SAS等工具,结合ID3、C4.5以及改进后的C4.5算法对样本集进行分析和比对,进行客户细分,挖掘出不同客户群的业务特征,向公司建议,针对流失倾向较高的群体,并结合这些客户对应的客户群特征,采取有针对性的客户挽留策略。在理论知识商业化应用方面,本论文进行了一次有意义的探索和尝试。