收藏本站
《山东科技大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于数据挖掘的客户行为分析和预测研究

刘志强  
【摘要】:经济全球化和多样化使得企业从“以产品为中心”向“以客户为中心”转变,客户关系管理(CRM)成为企业竞争力的一个重要方面。利用数据挖掘技术分析这种海量的CRM数据,可以挖掘出有关客户的潜在的有用的知识,帮助企业了解现有客户的购买习惯,为客户提供个性化的、更能满足其需求的服务。同时,基于数据挖掘的客户关系管理,有利于企业发现、吸引和拓展潜在客户,从而最大化客户对企业的商业利润。因此,研究数据挖掘技术在CRM中的应用,具有重要的理论指导和实际应用价值。 分类和预测是数据挖掘领域中的一个重要研究课题,很多相关的研究结果已经用于客户关系管理中。本文基于法国电信运营商Orange公司(KDDCUP2009数据集)提供的数据集,建立数据挖掘流程,在数据预处理后实现和改进了三种分类算法,并提出四种集成分类器算法,完成对客户的购买欲、忠诚度和增值服务的分类和预测。最后,设计实验评价各种分类器的性能,并对实验结果进行比较分析。本文的主要工作包括: 数据预处理:数据预处理是数据挖掘工作的重点,数据预处理的好坏,对数据挖掘的最终效果有着直接的影响。因此本文中的数据预处理分为两步,初步预处理和二次预处理。初步预处理主要包括:数据观察,数据清理,离散化处理和属性特征选择。而二次预处理或深层预处理,则依赖于具体的分类模型。 分类模型的构建:针对Orange公司提供的客户数据集,本文首先探索了多层感知分类器(MLP:Multilayer perceptrons)的算法实现。而后应用经典的支持向量积(SVM: Support Vector Machine)算法构建第二个分类器。最后,基于逻辑模型树(LMT:Logistic Model Tree)构建第三个分类器。为了提高分类性能,我们设计实现了四个集成分类器,分别是:基于后验概率的集成分类器、基于投票的集成分类器、基于后验概率的加权集成分类器和基于投票的加权集成分类器。 实验设计及结果分析:本文首先给出了整体实验框架,而后通过对三种经典分类算法的实验结果,以及最后集成分类器的实验结果比较,本文应用ROC曲线下面积(Area Under the Curve, AUC)作为评价指标,对三种经典分类器实验结果和集成分类器进行分析。对于单个分类器来说,改进的逻辑模型树分类器的分类效果明显好于多层感知器和支持向量机。对于集成分类器来说,基于后验概率的加权集成分类器和基于投票的加权集成分类器要更好一些。 本文把数据挖掘理论和Orange公司提供的客户数据集相结合,通过对数据挖掘流程的实现,最终完成了对客户购买欲、忠诚度和增值服务的预测。实验结果表明,本文所实现的经典分类预测模型和集成分类器模型是科学有效,并且基本符合应用实际。因此,本文所提出的模型在客户关系管理中具有很重要的意义。
【学位授予单位】:山东科技大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前5条
1 王实;高文;;数据挖掘中的聚类方法[J];计算机科学;2000年04期
2 陆文聪,陈念贻,叶晨洲,李国正;支持向量机算法和软件ChemSVM介绍[J];计算机与应用化学;2002年06期
3 陈念贻,丁亚平,李国正,叶晨洲,吴庆生;支持向量回归-吸光光度法同时测定溶液中的Pb,Cd,Zn[J];计算机与应用化学;2002年06期
4 张文宇;;数据挖掘过程中连续属性离散化新方法研究[J];数学的实践与认识;2007年10期
5 张立彬,张其前,胥芳,杜奖胜;基于分类回归树(CART)方法的统计解析模型的应用与研究[J];浙江工业大学学报;2002年04期
【共引文献】
中国期刊全文数据库 前10条
1 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
2 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
3 宋威;刘宇;李晋宏;;基于数据库垂直表示的高效用项集挖掘算法研究[J];北方工业大学学报;2011年01期
4 白昊;王崑声;胡昌振;张刚;经小川;;基于FP-Growth算法及补偿性入侵证据的攻击意图识别[J];北京理工大学学报;2010年08期
5 王丽雯;理解客户关系管理——谈客户关系管理的战略意义[J];商业研究;2003年05期
6 万隆昌;聂承启;;基于FP-Tree的遍历算法[J];江西师范大学学报(自然科学版);2005年06期
7 栗晓聪;滕少华;;频繁项集挖掘的Apriori改进算法研究[J];江西师范大学学报(自然科学版);2011年05期
8 俞青芬;;用支持向量回归方法预测多氯代二苯并呋喃类化合物的正辛醇/水分配系数[J];江西师范大学学报(自然科学版);2011年06期
9 廖里,余英泽,吴渝,聂能;数据挖掘和数据仓库及其在电信业中的应用[J];重庆邮电学院学报(自然科学版);2000年04期
10 刘独玉;杨晋浩;钟守铭;;关联规则挖掘研究综述[J];成都大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 郭立玮;陆文聪;董洁;刘亮;樊文玲;陈念贻;;数据挖掘方法优化中药水提液膜过程的研究[A];第二届中国膜科学与技术报告会论文集[C];2005年
2 倪跃峰;张荣亮;;SHOD零售公司的客户投诉问题分析[A];中国高等院校市场学研究会2011年年会论文集[C];2011年
3 王永骥;王琬;;基于支持向量机的运动神经控制建模[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 郭立玮;潘永兰;李玲娟;樊文玲;董洁;翟双灿;付廷明;;面向中药水提液溶液环境的“陶瓷膜精制中药的膜污染预报与防治系统”研究[A];第四届中国膜科学与技术报告会论文集[C];2010年
5 赵春广;李晓奇;;模糊积分在支持向量机系统中的应用[A];第五届中国不确定系统年会论文集[C];2007年
6 杜晓东;李岐强;;基于数据几何特征的SVM改进方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
7 晏庆华;;支持向量机算法综述[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
8 钱钢;陆文聪;孙美丽;王焜;陈念贻;;镀锡钢板淬水斑形成机理的研究[A];2004年全国冶金物理化学学术会议专辑[C];2004年
9 严悦然;陆文聪;苏自伟;刘风琴;张良苗;陈念贻;;铝电解槽寿命预测的支持向量回归方法研究[A];2006年全国冶金物理化学学术会议论文集[C];2006年
10 胡海清;;序列最小优化及其改进算法[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
2 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
3 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
4 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
5 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
6 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
7 程文聪;面向大规模网络安全态势分析的时序数据挖掘关键技术研究[D];国防科学技术大学;2010年
8 韩晓明;基于符号有向图和支持向量机的故障诊断方法的研究[D];太原理工大学;2011年
9 马晓普;角色工程中的角色与约束生成方法研究[D];华中科技大学;2011年
10 于哲夫;一种新的特征选择方法及其在路面使用性能分析中的应用[D];大连海事大学;2011年
中国硕士学位论文全文数据库 前10条
1 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
4 李威;多参数扰动的隐私保护关联规则挖掘算法研究[D];哈尔滨工程大学;2010年
5 张磊;基于支持向量机的反垃圾电话技术研究[D];哈尔滨工程大学;2010年
6 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
7 李艳萍;基于自主学习的移动机器人质心偏移控制策略[D];大连理工大学;2010年
8 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
9 胡倩;伊泰公司关系营销策略研究[D];湘潭大学;2010年
10 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 倪永年;;偏最小二乘法分析非线性加和的多组分体系[J];分析化学;1990年04期
2 丁亚平,吴庆生;超高灵敏卟啉试剂导数分光光度法直接测定矿样中的痕量铜[J];分析化学;1998年03期
3 丁亚平,苏庆德,吴庆生;导数荧光-偏最小二乘法同时测定注射液中色氨酸、酪氨酸和苯丙氨酸[J];光谱学与光谱分析;2001年02期
4 陆文聪,冯建星,陈念贻,钦佩,陈瑞亮,姚利秀;二种过渡元素和一种非过渡元素间形成三元金属间化合物的规律[J];计算机与应用化学;2000年Z1期
5 陆文聪,包新华,刘亮,孔杰,阎立诚,陈念贻;二元溴化物系(MBr-M′Br_2)中间化合物形成规律的逐级投影法研究[J];计算机与应用化学;2002年04期
6 刘亮,包新华,冯建星,陆文聪,陈念贻;α-唑基-α-芳氧烷基频哪酮(芳乙酮)及其醇式衍生物抗真菌活性的分子筛选[J];计算机与应用化学;2002年04期
7 陈念贻,陆文聪,叶晨洲,李国正;支持向量机及其他核函数算法在化学计量学中的应用[J];计算机与应用化学;2002年06期
8 丁益民,迟亮,陈念贻;CsF-CaF_2系熔盐相图的计算机预报与实验测定[J];计算机与应用化学;2002年06期
9 包新华,陆文聪,陈念贻;支持向量机算法在熔盐相图数据库智能化中的若干应用[J];计算机与应用化学;2002年06期
10 丁亚平,陈念贻,吴庆生,李国正,杨杰;导数光谱-支撑向量回归法同时测定NO_3~-和NO_2~-[J];计算机与应用化学;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 黄晓霞,萧蕴诗;数据挖掘集成技术研究[J];计算机应用研究;2003年04期
2 郑宏珍;刘扬;战德臣;;基于数据挖掘的组合近邻模型算法[J];计算机工程;2007年03期
3 李飞;;贝叶斯网络在数据挖掘中的应用[J];科技信息(学术版);2006年06期
4 程鹢;基于数据挖掘的三层入侵检测分析模型[J];现代计算机;2003年09期
5 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
6 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
7 张德政;李天驰;阿孜古丽;;决策树C4.5算法在天然气输差分析中的应用[J];计算机工程与应用;2006年23期
8 刘鹏;姚正;尹俊杰;;一种有效的C4.5改进模型[J];清华大学学报(自然科学版);2006年S1期
9 王皓;孙宏斌;张伯明;;PG-HMI:一种基于互信息的特征选择方法[J];模式识别与人工智能;2007年01期
10 徐春荣;欧阳为民;勾海波;;Web文本分类及其阻塞减少策略[J];计算机应用与软件;2007年01期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
2 郑广勇;哺乳动物转录因子及其靶基因的挖掘分析[D];复旦大学;2009年
3 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
4 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
5 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
6 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
7 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
8 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
9 黄静华;支持向量机算法研究及在气象数据挖掘中的应用[D];中国矿业大学(北京);2011年
10 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
2 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
3 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
4 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
5 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
6 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
7 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
8 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
9 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
10 汤彪;隐私保护分类数据挖掘研究[D];内蒙古科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026