收藏本站
《大连理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的孤立点检测方法研究

田江  
【摘要】: 孤立点检测是数据挖掘领域的重要内容之一。孤立点检测可以发现不具备一般数据特性的数据,进而发现潜在的有用信息。孤立点检测可以应用到很多实际领域,如信用卡欺诈检测、故障诊断、医学诊断、网络入侵检测和信息检索等。近年来很多国内外学者着力于结合支持向量机技术进行孤立点检测应用,其成果颇丰。然而随着研究的不断深入和应用范围的不断扩大,现存方法遇到了一些障碍,检测模型的泛化能力和稳定性能也存在诸多问题。由于上述原因,本文以基于支持向量机的孤立点检测为题进行研究,以期提供更加高效稳定的孤立点检测方法,主要研究内容如下: 1、一类支持向量机及其改进算法进行孤立点检测问题研究。实际应用中训练集通常包含大量的有标签正常样本,但只包含少量或者根本不存在有标签孤立点样本,这种情况下一类支持向量机表现出优势,但是由于算法对坐标原点依赖性强、参数不易选择等原因造成孤立点检测的误报率较高。针对这些问题本文首先利用受试者工作特征分析技术作为性能评价标准,使用两种参数搜索方法对模型进行优化,进而获得最佳决策函数。其次,设计了“局部密度一类支持向量机”算法,为每个样本测量数据局部密度并加到对应的松弛变量上,在训练过程中包含这些信息将有助于获得更理想的决策函数。此外,提出了“孤立点一类支持向量机”算法,通过综合距离和概率输出两种标准在无标签训练集中探测可疑孤立点,然后在特征空间刻画与可疑孤立点保持最大间隔的分类超平面,并在此基础上提出了一种根据数据异常程度动态更新数据样本的方法,提供了稳定高效的检测性能。 2、数据预处理技术改善孤立点检测中支持向量分类器性能问题研究。支持向量机进行分类操作的时候,决策超平面会受到数据库中孤立点干扰而发生偏移;其原因在于孤立点在训练过程中易于成为边界支持向量,从而对最后的决策函数做出较大贡献;另外数据维数过高也会降低分类效率和性能。为此本文提出使用数据预处理方法改善分类器性能,通过主成分分析处理训练数据,为远离聚簇中心孤立点设置较小的权值,这样孤立点对最终决策函数起到的作用将大大降低,从而缓解决策超平面被偏移的问题,提出的方法被成功地应用到蛋白质亚细胞定位预测领域。针对高维数据会影响分类器性能的问题,利用高斯过程潜变量模型来抽取特征,并且设计了阶梯跳跃式降维方法,为获得良好分类性能提供了保障。 3、使用混合策略的孤立点检测研究。孤立点检测应用中数据存在不平衡的特点,两类样本数量比例失调,将支持向量机的分类超平面向预测大类正常样本的方向倾斜,进而能够将孤立点样本全部识别为正常样本。本文首先结合两种支持向量机算法提出了一个两阶段的孤立点检测方法;集成不同权值改进半监督的一类支持向量机对数据集进行重采样,执行过程中通过设定较低权值降低孤立点的信息量,除去部分正常样本从而平衡两类样本的比例;使用代价敏感支持向量机执行孤立点检测操作,以两种误分类代价线性和最小为目标,实现了代价敏感孤立点挖掘。其次结合集成学习方法改进支持向量分类器的性能,利用聚类算法分解正常样本与孤立点样本作为单个分类器的输入,综合不同分类模型的输出结果改善孤立点检测性能。对于大类正常样本,使用聚类算法分解成多个部分,并分别计算与小类样本之间的距离,通过综合打分系统排除最远和最近的聚类;对于小类孤立点样本,使用一类支持向量机进行训练,在对应的支持向量样本上进行过采样操作;两种数据重采样方法的目的均在于平衡样本集以获得更理想的分类超平面。本文提出的混合策略方法能够提高检测率,降低误报率,同时将误分类代价降到最低。
【关键词】:支持向量机 孤立点检测 一类分类 不平衡分类 核方法
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13
【目录】:
  • 摘要4-6
  • Abstract6-11
  • 1 绪论11-25
  • 1.1 问题背景和历史沿革11-17
  • 1.1.1 数据挖掘的发展历程11-13
  • 1.1.2 数据挖掘功能描述及方法13-15
  • 1.1.3 孤立点检测定义与应用15-17
  • 1.2 相关问题的研究现状17-23
  • 1.2.1 孤立点检测方法发展过程17-20
  • 1.2.2 支持向量机学习方法20-21
  • 1.2.3 支持向量机孤立点检测的研究现状21-23
  • 1.3 论文的内容概括和结构安排23-25
  • 2 半监督孤立点检测25-55
  • 2.1 引言25-26
  • 2.2 一类支持向量机及ROC分析26-28
  • 2.2.1 一类支持向量机26-27
  • 2.2.2 ROC分析技术27-28
  • 2.3 半监督孤立点检测模型28-40
  • 2.3.1 模型参数影响及参数搜索方法29-31
  • 2.3.2 孤立点检测模型31-35
  • 2.3.3 穷举法参数搜索仿真实验35-36
  • 2.3.4 粒子群优化算法参数搜索仿真实验36-40
  • 2.4 局部密度一类支持向量机40-44
  • 2.4.1 数据局部密度信息40
  • 2.4.2 学习算法推导过程40-42
  • 2.4.3 仿真实验42-44
  • 2.5 孤立点一类支持向量机44-52
  • 2.5.1 算法理论问题分析44-45
  • 2.5.2 可疑孤立点探测方法45-46
  • 2.5.3 孤立点一类支持向量机算法46-48
  • 2.5.4 孤立点检测算法48-49
  • 2.5.5 仿真实验49-52
  • 2.6 本章小结52-55
  • 3 稳健支持向量分类器55-81
  • 3.1 引言55
  • 3.2 支持向量机分类原理55-59
  • 3.2.1 支持向量机求解算法55-58
  • 3.2.2 孤立点对分类超平面的影响58-59
  • 3.3 加权支持向量机59-69
  • 3.3.1 加权支持向量机原理59-61
  • 3.3.2 稳健分类器解决方案61-63
  • 3.3.3 蛋白质亚细胞定位预测应用63-69
  • 3.4 结合高斯过程模型潜变量模型的孤立点检测算法69-78
  • 3.4.1 高斯过程潜变量模型与特征抽取69-72
  • 3.4.2 孤立点检测算法72-74
  • 3.4.3 阶梯跳跃分类算法74-78
  • 3.5 本章小结78-81
  • 4 混合策略孤立点检测方法81-101
  • 4.1 引言81
  • 4.2 两阶段孤立点检测方法81-89
  • 4.2.1 数据不平衡降低分类性能82
  • 4.2.2 孤立点检测算法82-86
  • 4.2.3 两阶段方法性能分析86-87
  • 4.2.4 仿真实验87-89
  • 4.3 基于集成支持向量机的孤立点检测89-97
  • 4.3.1 集成支持向量机解决不平衡分类问题89-91
  • 4.3.2 孤立点检测详细算法91-93
  • 4.3.3 仿真实验93-97
  • 4.4 本章小结97-101
  • 5 结论与展望101-105
  • 5.1 结论101-103
  • 5.1.1 基于一类支持向量机的孤立点检测技术101-102
  • 5.1.2 数据预处理技术对孤立点检测方法的性能改进102-103
  • 5.1.3 使用混合策略的孤立点检测方法103
  • 5.2 展望103-105
  • 参考文献105-115
  • 附录A 主要符号说明115-116
  • 附录B 支持向量机理论基础116-117
  • 创新点摘要117-118
  • 攻读博士学位期间发表学术论文情况118-120
  • 致谢120-121
  • 作者简介121-122

【引证文献】
中国期刊全文数据库 前2条
1 严浙平;迟冬南;赵智;赵玉飞;;支持向量聚类的UUV障碍物孤立点惰性检测[J];哈尔滨工程大学学报;2012年11期
2 吕成戍;王维国;;不均衡数据集下基于SVM的托攻击检测方法[J];计算机工程;2013年05期
中国硕士学位论文全文数据库 前3条
1 张亮;子空间孤立点检测算法研究[D];燕山大学;2010年
2 杨琛璐;基于二维细胞自动机的蚁群聚类研究及应用[D];西安电子科技大学;2013年
3 杜岩虎;电子商务环境中异常数据应用研究[D];兰州交通大学;2013年
【参考文献】
中国期刊全文数据库 前9条
1 李鹏;王晓龙;刘远超;王宝勋;;一种基于混合策略的失衡数据集分类方法[J];电子学报;2007年11期
2 李昆仑,黄厚宽,田盛丰,刘振鹏,刘志强;模糊多类支持向量机及其在入侵检测中的应用[J];计算机学报;2005年02期
3 邵信光;杨慧中;陈刚;;基于粒子群优化算法的支持向量机参数选择及其应用[J];控制理论与应用;2006年05期
4 朱家元,杨云,张恒喜,任博;支持向量机的多层动态自适应参数优化[J];控制与决策;2004年02期
5 许建华,张学工,李衍达;支持向量机的新发展[J];控制与决策;2004年05期
6 袁小芳;王耀南;;基于混沌优化算法的支持向量机参数选取方法[J];控制与决策;2006年01期
7 郑恩辉;李平;宋执环;;代价敏感支持向量机[J];控制与决策;2006年04期
8 董春曦,饶鲜,杨绍全,徐松涛;支持向量机参数选择方法研究[J];系统工程与电子技术;2004年08期
9 万柏坤;薛召军;李佳;王瑞平;;应用ROC曲线优选模式分类算法[J];自然科学进展;2006年11期
【共引文献】
中国期刊全文数据库 前10条
1 冀卫兴;陈忠海;方筝;;基于DE—BP算法的空调负荷预测研究[J];四川建筑科学研究;2010年05期
2 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
3 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
4 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
5 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
6 王婷婷;黄燕;;基于NC-SVM的酵母蛋白功能预测研究[J];现代农业科技;2011年07期
7 郭良栋;田江;丛晓东;;基于CPSO和SVM的混沌时间序列预测[J];辽宁科技大学学报;2009年06期
8 杨波;郑颖人;唐晓松;李安洪;;人工智能在双排全长式抗滑桩设计中的应用[J];地下空间与工程学报;2010年02期
9 唐晓松;郑颖人;段永胜;李安洪;;人工智能在埋入式抗滑桩设计中的应用[J];地下空间与工程学报;2010年02期
10 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
3 樊晓平;廖志芳;陈宇宙;瞿志华;;大肠癌组织自体荧光光谱数据处理新方法研究[A];第二十六届中国控制会议论文集[C];2007年
4 刘胜;傅荟璇;王宇超;;AGA-LS-SVM算法在摄像机标定中的应用研究[A];第二十七届中国控制会议论文集[C];2008年
5 余节约;林剑;管力明;李宁;赵龙;;基于最小二乘支持向量机的平版印刷油墨预置模型[A];第二十九届中国控制会议论文集[C];2010年
6 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
7 ;Data-driven Process Monitoring Method Based on Dynamic Component Analysis[A];中国自动化学会控制理论专业委员会B卷[C];2011年
8 袁从贵;张新政;陈旭;;基于偏互信息与定尺度最小二乘支持向量机的咸潮预测模型[A];中国自动化学会控制理论专业委员会C卷[C];2011年
9 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
10 陈清光;许家佗;于波;郭喆千;屠立平;崔龙涛;张志枫;费兆馥;;亚健康状态脉图特征的数据挖掘研究[A];全国第十二次中医诊断学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
4 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 杨红;污水生化处理的智能建模与优化控制策略应用研究[D];华南理工大学;2010年
7 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
8 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
9 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
10 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 马冉冉;集成学习算法研究[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
5 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
6 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
7 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
8 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
9 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
10 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 施化吉;周书勇;李星毅;唐慧;丁秋林;;基于平均密度的孤立点检测研究[J];电子科技大学学报;2007年06期
2 张净;孙志挥;;GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J];东南大学学报(自然科学版);2005年06期
3 闻帆;屈桢深;闫纪红;;基于CKPCA-HOG和支持向量机的运动目标分类算法[J];哈尔滨工程大学学报;2011年05期
4 倪巍伟;陈耿;陆介平;吴英杰;孙志挥;;基于局部信息熵的加权子空间离群点检测算法[J];计算机研究与发展;2008年07期
5 张惟皎,刘春煌,尹晓峰;蚁群算法在数据挖掘中的应用研究[J];计算机工程与应用;2004年28期
6 汪阳;黄天戍;杜广宇;;一种基于聚类和主成分分析的异常检测方法[J];计算机工程与应用;2006年21期
7 余伟峰;钱夕元;;基于KNN图的两阶段孤立点检测及应用研究[J];计算机工程与应用;2008年02期
8 张忠平;宋少英;宋晓辉;;基于PCA及属性距离和的孤立点检测算法[J];计算机工程与应用;2009年17期
9 张忠平;宋少英;宋晓辉;;ISAD:一种新的基于属性距离和的孤立点检测算法[J];计算机工程与科学;2009年03期
10 王越;刘亚辉;徐传运;;孤立点用户意义分析在质量管理中的应用[J];计算机应用;2009年11期
中国博士学位论文全文数据库 前2条
1 杨水清;基于消费者视角的渠道扩展与选择行为研究[D];华中科技大学;2012年
2 刘海军;雷达辐射源识别关键技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前7条
1 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
2 周书勇;高维孤立点检测算法研究[D];江苏大学;2007年
3 陈媛媛;雷达辐射源个体识别研究[D];南京理工大学;2008年
4 居红云;无监督聚类算法和支持向量机及其应用研究[D];江南大学;2008年
5 李宁;基于密度的孤立点检测技术研究[D];华中科技大学;2007年
6 闫宗奎;基于网格模型的孤立点检测算法[D];山东大学;2009年
7 张贺;基于信息熵和子空间的离群数据挖掘算法研究[D];太原科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 邵信光,杨慧中,石晨曦;ε不敏感支持向量回归在化工数据建模中的应用[J];东南大学学报(自然科学版);2004年S1期
2 万柏坤,王瑞平,朱欣,綦宏志;SVM算法及其在乳腺X片微钙化点自动检测中的应用[J];电子学报;2004年04期
3 刘涵;郭勇;郑岗;刘丁;;基于最小二乘支持向量机的图像边缘检测研究[J];电子学报;2006年07期
4 方景龙;陈铄;潘志庚;梁荣华;;复杂分类问题支持向量机的简化[J];电子学报;2007年05期
5 杨慧中,张素贞,陶振麟;聚丙烯腈质量指标软测量混合模型的应用[J];化工自动化及仪表;2002年06期
6 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期
7 朱家元,杨云,张恒喜,任博;支持向量机的多层动态自适应参数优化[J];控制与决策;2004年02期
8 许建华,张学工,李衍达;支持向量机的新发展[J];控制与决策;2004年05期
9 张彤,王宏伟,王子才;变尺度混沌优化方法及其应用[J];控制与决策;1999年03期
10 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 彭玲;徐汀荣;;一种基于属性相似度的孤立点挖掘方法[J];计算机应用与软件;2010年12期
2 周爱武;于亚飞;;K-Means聚类算法的研究[J];计算机技术与发展;2011年02期
3 闫宗奎;石冰;;基于网格模型的孤立点检测算法[J];山东大学学报(理学版);2008年11期
4 彭红毅;蒋春福;朱思铭;;基于ICA与MViSOM的孤立点挖掘模型[J];计算机科学;2007年06期
5 向娴;汤建龙;;一种基于网格密度聚类的雷达信号分选[J];火控雷达技术;2010年04期
6 陈宝国;荀小苗;;基于改进CLARANS算法的孤立点检测[J];计算机与数字工程;2008年07期
7 田银磊;王亚利;;一种改进的聚类和孤立点检测算法[J];科学技术与工程;2010年22期
8 邵峰晶;孙仁诚;郭振波;;基于孤立点发现的彩色图像人脸边缘提取算法[J];计算机科学;2006年09期
9 张忠平;宋少英;宋晓辉;;ISAD:一种新的基于属性距离和的孤立点检测算法[J];计算机工程与科学;2009年03期
10 张忠平;宋少英;宋晓辉;;基于PCA及属性距离和的孤立点检测算法[J];计算机工程与应用;2009年17期
中国重要会议论文全文数据库 前10条
1 巩俊;马晓红;;一种基于孤立点检测的欠定盲辨识方法[A];2010年通信理论与信号处理学术年会论文集[C];2010年
2 廖国琼;李晶;;基于距离的分布式RFID数据流孤立点检测[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 原忠义;唐文忠;许小林;;基于孤立点检测方法对于数据库异常入侵的分析[A];2006中国控制与决策学术年会论文集[C];2006年
4 郑健;皮德常;;基于共享最近邻的聚类和孤立点检测算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
5 蔡利栋;傅瑜;;稳健的孤立点检测——从中位数求方差[A];2006年全国理论计算机科学学术年会论文集[C];2006年
6 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 许珂;姜山;;数据挖掘方法在科技产出分布可视化研究中的运用[A];第二届中国科技哲学及交叉学科研究生论坛论文集(硕士卷)[C];2008年
8 王珺;刘希玉;;基于BIRCH算法和K-MEANS算法相结合的数据挖掘聚类技术[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
9 吴琼;李国辉;涂丹;孙韶杰;;基于对角扩展精确定位的图像鉴别数字水印技术[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 王仲君;莫春玲;;视觉原理的FCM聚类算法在复杂网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
中国重要报纸全文数据库 前2条
1 ;PCI——过不了河的桥[N];计算机世界;2002年
2 主持人:徐勇;3G 期待破晓时分[N];人民邮电;2003年
中国博士学位论文全文数据库 前10条
1 安金龙;支持向量机若干问题的研究[D];天津大学;2004年
2 白爱民;基于客户集群和拓扑理论的CRM模型与算法研究[D];天津大学;2006年
3 杨燕;基于计算智能的聚类组合算法研究[D];西南交通大学;2006年
4 蒋红星;图的几类控制参数研究[D];上海大学;2009年
5 高增安;基于交易的可疑洗钱行为模式与反洗钱对策研究[D];西南交通大学;2007年
6 何洁月;面向蛋白质结构预测的计算生物学技术研究[D];东南大学;2006年
7 陈树;聚类算法模型的研究及应用[D];江南大学;2007年
8 胡彩平;基于空间自相关的空间数据挖掘若干关键技术的研究[D];南京航空航天大学;2007年
9 杨超;乘积图的连通度和容错直径的研究[D];中国科学技术大学;2007年
10 何怀玉;有限单群的谱刻画[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 顾新财;面向多维数据的孤立点挖掘方法研究[D];辽宁工业大学;2011年
2 刘世杰;基于孤立系数的孤立点检测研究[D];中南大学;2011年
3 苗润华;基于聚类和孤立点检测的数据预处理方法的研究[D];北京交通大学;2012年
4 高可;面向数据流的局部异常孤立点动态挖掘算法研究及应用[D];青岛大学;2010年
5 谢方方;基于距离的孤立点挖掘在计算机取证中的应用研究[D];山东师范大学;2014年
6 Nassir Abdullah Nassir(那西尔);[D];中南大学;2012年
7 郑灵芝;基于最近邻相似度的孤立点检测及半监督聚类算法[D];浙江工业大学;2011年
8 陈谦;一种基于PageRank算法的孤立点检测方法及应用[D];暨南大学;2011年
9 黑重程;Web敏感信息监测优化方法研究[D];西安科技大学;2011年
10 周永锋;基于密度的海量数据增量式挖掘技术研究[D];中国人民解放军国防科学技术大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026