收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的高不平衡分类技术研究及其在电信业的应用

渠瑜  
【摘要】:SVM(Support Vector Machine)是基于统计学习理论的学习机器,在分类问题的处理中具有优秀的性能。不平衡分类问题是数据挖掘和机器学习领域的一个重要研究方向,并且在实际商业应用中不平衡数据集往往具有高不平衡程度、严重的类重叠和噪声、高维、海量以及涉及高不平衡多分类问题等特点,对分类器的分类性能造成极大影响。论文从实际电信商业智能问题出发,旨在解决SVM在不平衡分类中的不足,提出更为有效的解决方法,使SVM能够适用于具有高不平衡特性的商业智能应用。通过Benchmark数据集和实际电信数据集中的仿真实验验证了所提出方法的有效性和优越性。在上述研究结果的基础上,论文设计并实现了电信业公众客户防欠费欺诈商业智能系统和电信防欠费欺诈智能催缴派单系统,同时结合实际数据挖掘项目经验,提出一个针对电信行业的数据挖掘方法论。 论文的主要研究内容如下: Ⅰ.针对高不平衡程度和类重叠同时存在于数据分布时分类困难的问题,提出SVM-HIO(SVM modeling for Highly Imbalanced and Overlappingclassification)算法。SVM-HIO算法采用分类超平面偏移策略使得能够在某个特征空间识别出非重叠样本并训练元模型;通过核空间轮换策略,SVM-HIO算法在多个核空间进行学习,进而能够识别出更多特征空间的非重叠样本;利用元模型的结合最终SVM-HIO算法建立一个非线性模型而不是之前SVM的线性模型,建立的非线性模型能够将全部少数类预测出,同时保证多数类的误分代价最小 Ⅱ.针对现有高不平衡多分类算法,少数类的分类性能和识别能力较差的问题,提出一种二叉树树结构建立标准-基于不平衡度的类间可分离性,在此基础上提出一种基于二叉树的SVM高不平衡多分类算法MCI-SVM(Multi-Classification based highly Imbalanced SVM)。在多分类建模中,MCI-SVM算法基于少数类的重要程度,同时结合类间可分离性的思想,首先识别多分类问题中的重要类簇,降低重要类别的误差累积;在多数类簇和少数类簇的建模节点,利用代价敏感学习策略减少由于高不平衡性引起的分类性能降低;同时,在各个簇中将分离性高的类别优先分离。提出的MCI-SVM算法在保证总体分类性能的同时,能够减少少数类的推广误差,并显著提高少数类的识别能力。 Ⅲ.针对在海量高不平衡分类中传统学习算法无法在有效时间内建立模型以及高不平衡会导致较差模型精度和少数类识别能力的问题,提出一种基于(1+ε)近似最小包裹球(MEB)的海量高不平衡分类算法LCI-SVM(Large scale Classification based highly Imbalanced SVM)。LCI-SVM算法基于高维空间寻找最小包裹球核心集的思想,将原SVM优化问题转化为在高维空间寻找最小包裹球问题,其训练时间与样本维度和大小无关,能够高效地在海量数据中建立SVM模型;LCI-SVM算法通过启发式的迭代策略使得分类超平面向多数类偏移,保证少数类具有更高的推广能力;针对过拟合问题,提出基于知识的τ近似最佳分类超平面。提出的LCI-SVM算法能够显著提高在海量高不平衡数据集上的分类性能和少数类的识别能力。 Ⅳ.针对电信业欠费问题的商业需求,设计并实现了电信业公众客户防欠费欺诈商业智能系统和电信防欠费欺诈智能催缴派单系统,介绍了该系统功能构架和系统结构,详细介绍了电信业公众客户防欠费欺诈商业智能系统设计和实现的过程,最后给出系统试运行后的评估效果证明该系统能够有效帮助电信企业减少由欠费造成的经济损失。Ⅴ.基于CRISP-DM(Cross-Industry Standard Process for Data Mining)方法论,并结合实际数据挖掘项目经验,提出一个新的针对电信业数据挖掘方法论DMM-TI(DM Methodology for Telecom Industry),为今后电信业数据挖掘项目的成功实施提供指导和保障;
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.13;O213

【参考文献】
中国期刊全文数据库 前6条
1 唐发明,王仲东,陈绵云;一种新的二叉树多类支持向量机算法[J];计算机工程与应用;2005年07期
2 夏思宇;潘泓;金立左;;非平衡二叉树多类支持向量机分类方法[J];计算机工程与应用;2009年17期
3 隆益民;网络入侵及检测[J];计算机工程与科学;2001年01期
4 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
5 李钧涛;贾英民;;用于微阵列分类的Huberized多类支持向量机(英文)[J];自动化学报;2010年03期
6 姜成志,叶明凤,顾泽元;基于决策树学习的智能机器人控制方法[J];计算机工程与设计;2002年10期
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 冀卫兴;陈忠海;方筝;;基于DE—BP算法的空调负荷预测研究[J];四川建筑科学研究;2010年05期
3 陈征;;一类系统的二次李雅普诺夫函数存在性的判断[J];安徽电子信息职业技术学院学报;2006年04期
4 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
5 孙小军;焦建民;何俊红;;解优化问题的遗传加速信赖域搜索算法[J];安徽大学学报(自然科学版);2008年03期
6 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
7 张家昕;段复建;;一种结合NCP函数的SQP滤子新算法[J];安徽大学学报(自然科学版);2010年05期
8 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
9 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
10 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 刘钰;韩峰;董楠;陆希成;雷鸣;;爆炸容器安全概率的统计分析方法[A];全国危险物质与安全应急技术研讨会论文集(下)[C];2011年
4 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
5 宋海鹰;桂卫华;阳春华;;基于最小二乘支持向量机的Hammerstein-Wiener模型辨识[A];第二十六届中国控制会议论文集[C];2007年
6 ;Inverse System Control of Nonlinear Systems Using LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
7 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
8 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
9 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
10 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 樊建聪;分布估计学习算法研究[D];山东科技大学;2010年
2 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
3 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
4 谭佳琳;粒子群优化算法研究及其在海底地形辅助导航中的应用[D];哈尔滨工程大学;2010年
5 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
6 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
7 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
8 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
9 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
10 陈得宇;基于MAS的智能电压控制系统研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 曾传华;基于颜色和纹理特征的竹条分级方法研究[D];华中农业大学;2010年
2 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
3 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
4 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
5 张小亮;非线性规划的信赖域算法[D];河南理工大学;2010年
6 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
7 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
8 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
9 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
10 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前5条
1 权光日,崔明根,张朝晖,洪家荣;基于Hopfield-Tank模型的神经网络的变参数方法[J];电子学报;1996年08期
2 洪家荣;示例学习的扩张矩阵理论[J];计算机学报;1991年06期
3 赵美德,李星原,洪家荣,陈彬;示例学习的广义扩张矩阵算法及其实现[J];计算机学报;1994年09期
4 马笑潇,黄席樾,柴毅;基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J];控制与决策;2003年03期
5 卢增祥,李衍达;交互支持向量机学习算法及其应用[J];清华大学学报(自然科学版);1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 游智;李战怀;张阳;;基于字符串核的免分词中文文本分类方法[J];计算机工程与应用;2006年26期
2 霍东云;聂峰光;郭力;;利用Medline文摘数据库研究文本分类[J];计算机与应用化学;2007年09期
3 宁朝;基于SVM技术的英文字符识别方法[J];大众科技;2005年08期
4 业宁;孙瑞祥;董逸生;;多拉格朗日乘子协同优化的SVM快速学习算法研究[J];计算机研究与发展;2006年03期
5 王清翔;仲婷;潘金贵;;基于SVM的日文网页分类[J];广西师范大学学报(自然科学版);2007年02期
6 万雅静;贺明;;最大间隔分类器及其在入侵检测中的应用[J];微计算机信息;2007年18期
7 张益铭;徐晓钟;王智庆;;支持向量机与时间序列预测综述[J];计算机应用与软件;2010年12期
8 赵书河,冯学智,都金康,林广发;基于支持向量机的SPIN-2影像与SPOT-4多光谱影像融合研究[J];遥感学报;2003年05期
9 张键;于忠党;栾海滢;;基于SVM的教师评价系统研究[J];教育信息化;2006年03期
10 薄丽玲;;基于SVM的数字图像水印检测算法设计[J];科技情报开发与经济;2007年33期
中国重要会议论文全文数据库 前10条
1 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
3 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
4 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
5 ;Improved Particle Swarm Optimized SVM for Short-term Traffic Flow Predication[A];第二十六届中国控制会议论文集[C];2007年
6 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 邵杰;叶宁;容亦夏;;基于SVM的多波束测深数据滤波[A];第二十九届中国控制会议论文集[C];2010年
8 于湘涛;周峰;张兰;魏超;;基于SVM和田口方法的石英挠性加速度计健壮性设计[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
9 ;Adaptive Control of Nonlinear System Based on SVM Online Algorithm[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 张睿;陈雪;马建文;;基于递归SVM的高光谱数据特征选择算法研究[A];第八届成像光谱技术与应用研讨会暨交叉学科论坛文集[C];2010年
中国重要报纸全文数据库 前10条
1 郭涛;利用SVM虚拟化技术实现容灾[N];中国计算机报;2008年
2 本报记者 冉永平;电信业,缘何批评多?[N];人民日报;2000年
3 王远桂;营造2005年电信业的良好发展环境[N];人民邮电;2005年
4 特约撰稿 邱燕;与信息化融合推动电信业可持续发展[N];通信信息报;2004年
5 本报记者 舒晴;电信业转型必须迈过安全门槛[N];中国改革报;2006年
6 本报记者  陈勋燕;电信业应尽快消除不稳定因素[N];通信信息报;2006年
7 本报记者  陈丽容;张晶:加速电信业重组是必要的急迫的[N];通信信息报;2007年
8 林喆;常小兵:电信业重组“为期不远”[N];中国证券报;2008年
9 记者 刘晓明;电信业投资30年增长900倍[N];中国电子报;2008年
10 ;展望2009:电信业大趋势分析[N];人民邮电;2008年
中国博士学位论文全文数据库 前10条
1 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
2 申丰山;样例权重估计及在此基础上的SVM[D];西安电子科技大学;2011年
3 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
4 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
5 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
6 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
7 曹志坤;制冷陈列柜性能仿真SVM方法的研究及应用[D];上海交通大学;2010年
8 王金林;基于混沌时间序列和SVM的入侵检测系统研究[D];天津大学;2010年
9 渐令;基于核的学习算法与应用[D];大连理工大学;2012年
10 包鑫;稳健回归技术及其在光谱分析中的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
2 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
3 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
4 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
5 曹云生;基于支持向量机(SVM)的森林生态系统健康评价及预警[D];河北农业大学;2011年
6 张汉女;基于SVM的海岸线提取方法研究[D];东北师范大学;2010年
7 姚玉;基于GA-SVM算法的细胞色素酶P450突变预测[D];上海交通大学;2011年
8 陈燃燃;基于SVM算法的web分类研究与实现[D];北京邮电大学;2010年
9 陈卓;基于聚类和SVM主动反馈的图像检索方法[D];重庆大学;2010年
10 左萍平;基于1-SVM的车牌识别技术的研究与应用[D];浙江大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026