数据挖掘技术及其在超市CRM中的应用
【摘要】:数据挖掘是随着信息技术不断发展而兴起的一门新学科。聚类分析作为数据挖掘领域内最为常见的技术之一,是个非常重要的研究课题。尽管有多种不同的聚类算法,但这些算法还存在一些问题:如算法的效率、初值的选择、最优解的问题等等。因此对聚类算法还需要作进一步的优化、改进研究,以更好的适用于解决工程实际问题。这样不仅有助于算法理论的完善,更有助于算法的推广和应用。本文重点对聚类算法特别是K-means进行了改进,提出了三种重要的改进方法。
本文的主要工作有:
【1】介绍了数据挖掘的定义、基本特征、主要的数据挖掘技术、聚类技术的基本概念以及主要的聚类分析算法;对经典K-means聚类算法进行了较为详细的介绍,分析其主要优缺点,提出了要改进和努力的方向。
【2】使用复合形法对K-means算法进行优化。复合形法是基于最坏点进行迭代的一种有效的随机搜索寻优方法,有着效率高,程序简单,结果稳定的特点。利用Matlab7.0中的数据作为仿真试验数据,结果表明,改进后的算法提高了计算效率和鲁棒性,基本满足工程需要。
【3】根据复合形局部搜索能力强而遗传算法全局搜索能力强的特点,将复合形与遗传算法相结合构成复合形—遗传算法(complex-GA),其中把复合形法作为一个算子嵌套到遗传算法中,来提高遗传算法的局部搜索能力。利用一组600×4的数据进行聚类,结果表明,complex-GA所得结果的迭代次数,最小目标函数值及平均目标函数值都较为理想。
【4】将遗传算法与复合形法构成组合优化方法,用于K-means优化聚类。首先使用遗传算法进行大范围搜索,在取得较优结果时加入记忆体,用来存储最优解群体,然后利用局部搜索能力较强的复合形算法、以最优解群体作为初始顶点作进一步优化,从而达到最优解或者接近最优解。结果表明该方法的迭代次数及总体所耗时间都大大降低,在提高效率的同时也改善了解的质量。
【5】将以上的研究成果用于某超市CRM系统设计,包括数据表的设计、数据转换以及数据仓库的建立等功能模块的设计。选取顾客年龄,购买总额,购买次数三个属性,分别采用改进后的聚类算法和基本k-means聚类算法对客户类型进行聚类,采用MATLAB7.0图像处理工具将聚类结果进行处理。由结果可以看出,改进后的聚类算法对客户的聚类更加合理,能够较好的反映客观现实,有着重要的参考和实用价值,具有较强的理论和实践意义。
|
|
|
|
1 |
郭天宇;许荣满;;喜马拉雅山南坡蚤类生物多样性的研究[A];中国动物科学研究——中国动物学会第十四届会员代表大会及中国动物学会65周年年会论文集[C];1999年 |
2 |
鲍世民;赵国际;张瑞忠;施美连;何新桥;朱庭玉;;中国小家鼠遗传分化研究[A];中国动物科学研究——中国动物学会第十四届会员代表大会及中国动物学会65周年年会论文集[C];1999年 |
3 |
刘斌;李福来;韩之明;刘彦;;朱鹮的随机扩增多态DNA分析与种内亲缘关系研究[A];稀世珍禽——朱鹮——’99国际朱鹮保护研讨会文集[C];1999年 |
4 |
王允白;王宝华;郭承芳;周健;;烤烟主要化学成分与评吸结果的关系研究[A];中国烟草学会第三届理事会第二次会议暨1997年年会文件和论文汇编[C];1997年 |
5 |
李锡香;沈镝;朱德蔚;周明德;EyzaguirreP.B.;AyadW.C;;云南芋遗传资源的同工酶多态性研究[A];中国园艺学会成立70周年纪念优秀论文选编[C];1999年 |
6 |
乔爱民;刘佩瑛;雷建军;;芥菜16个变种的RAPD研究[A];中国园艺学会成立70周年纪念优秀论文选编[C];1999年 |
7 |
刘建秀;贺善安;陈守良;陈志一;刘永东;郭爱桂;郭海林;;华东地区狗牙根种质资源研究[A];中国园艺学会成立70周年纪念优秀论文选编[C];1999年 |
8 |
毕笃彦;毛柏鑫;马林华;;基于灰度秩数的非监控纹理图象分割[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年 |
9 |
宋晓秋;朱思义;;Fuzzy聚类的一种迭代方法[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年 |
10 |
员玉玲;席酉民;;我国各地区投资环境的综合评价分析[A];管理科学与系统科学进展——全国青年管理科学与系统科学论文集(第4卷)[C];1997年 |
|