收藏本站
《大连理工大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的孤立点检测方法研究

田江  
【摘要】: 孤立点检测是数据挖掘领域的重要内容之一。孤立点检测可以发现不具备一般数据特性的数据,进而发现潜在的有用信息。孤立点检测可以应用到很多实际领域,如信用卡欺诈检测、故障诊断、医学诊断、网络入侵检测和信息检索等。近年来很多国内外学者着力于结合支持向量机技术进行孤立点检测应用,其成果颇丰。然而随着研究的不断深入和应用范围的不断扩大,现存方法遇到了一些障碍,检测模型的泛化能力和稳定性能也存在诸多问题。由于上述原因,本文以基于支持向量机的孤立点检测为题进行研究,以期提供更加高效稳定的孤立点检测方法,主要研究内容如下: 1、一类支持向量机及其改进算法进行孤立点检测问题研究。实际应用中训练集通常包含大量的有标签正常样本,但只包含少量或者根本不存在有标签孤立点样本,这种情况下一类支持向量机表现出优势,但是由于算法对坐标原点依赖性强、参数不易选择等原因造成孤立点检测的误报率较高。针对这些问题本文首先利用受试者工作特征分析技术作为性能评价标准,使用两种参数搜索方法对模型进行优化,进而获得最佳决策函数。其次,设计了“局部密度一类支持向量机”算法,为每个样本测量数据局部密度并加到对应的松弛变量上,在训练过程中包含这些信息将有助于获得更理想的决策函数。此外,提出了“孤立点一类支持向量机”算法,通过综合距离和概率输出两种标准在无标签训练集中探测可疑孤立点,然后在特征空间刻画与可疑孤立点保持最大间隔的分类超平面,并在此基础上提出了一种根据数据异常程度动态更新数据样本的方法,提供了稳定高效的检测性能。 2、数据预处理技术改善孤立点检测中支持向量分类器性能问题研究。支持向量机进行分类操作的时候,决策超平面会受到数据库中孤立点干扰而发生偏移;其原因在于孤立点在训练过程中易于成为边界支持向量,从而对最后的决策函数做出较大贡献;另外数据维数过高也会降低分类效率和性能。为此本文提出使用数据预处理方法改善分类器性能,通过主成分分析处理训练数据,为远离聚簇中心孤立点设置较小的权值,这样孤立点对最终决策函数起到的作用将大大降低,从而缓解决策超平面被偏移的问题,提出的方法被成功地应用到蛋白质亚细胞定位预测领域。针对高维数据会影响分类器性能的问题,利用高斯过程潜变量模型来抽取特征,并且设计了阶梯跳跃式降维方法,为获得良好分类性能提供了保障。 3、使用混合策略的孤立点检测研究。孤立点检测应用中数据存在不平衡的特点,两类样本数量比例失调,将支持向量机的分类超平面向预测大类正常样本的方向倾斜,进而能够将孤立点样本全部识别为正常样本。本文首先结合两种支持向量机算法提出了一个两阶段的孤立点检测方法;集成不同权值改进半监督的一类支持向量机对数据集进行重采样,执行过程中通过设定较低权值降低孤立点的信息量,除去部分正常样本从而平衡两类样本的比例;使用代价敏感支持向量机执行孤立点检测操作,以两种误分类代价线性和最小为目标,实现了代价敏感孤立点挖掘。其次结合集成学习方法改进支持向量分类器的性能,利用聚类算法分解正常样本与孤立点样本作为单个分类器的输入,综合不同分类模型的输出结果改善孤立点检测性能。对于大类正常样本,使用聚类算法分解成多个部分,并分别计算与小类样本之间的距离,通过综合打分系统排除最远和最近的聚类;对于小类孤立点样本,使用一类支持向量机进行训练,在对应的支持向量样本上进行过采样操作;两种数据重采样方法的目的均在于平衡样本集以获得更理想的分类超平面。本文提出的混合策略方法能够提高检测率,降低误报率,同时将误分类代价降到最低。
【学位授予单位】:大连理工大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP311.13

【引证文献】
中国硕士学位论文全文数据库 前1条
1 张亮;子空间孤立点检测算法研究[D];燕山大学;2010年
【参考文献】
中国期刊全文数据库 前9条
1 李鹏;王晓龙;刘远超;王宝勋;;一种基于混合策略的失衡数据集分类方法[J];电子学报;2007年11期
2 李昆仑,黄厚宽,田盛丰,刘振鹏,刘志强;模糊多类支持向量机及其在入侵检测中的应用[J];计算机学报;2005年02期
3 邵信光;杨慧中;陈刚;;基于粒子群优化算法的支持向量机参数选择及其应用[J];控制理论与应用;2006年05期
4 朱家元,杨云,张恒喜,任博;支持向量机的多层动态自适应参数优化[J];控制与决策;2004年02期
5 许建华,张学工,李衍达;支持向量机的新发展[J];控制与决策;2004年05期
6 袁小芳;王耀南;;基于混沌优化算法的支持向量机参数选取方法[J];控制与决策;2006年01期
7 郑恩辉;李平;宋执环;;代价敏感支持向量机[J];控制与决策;2006年04期
8 董春曦,饶鲜,杨绍全,徐松涛;支持向量机参数选择方法研究[J];系统工程与电子技术;2004年08期
9 万柏坤;薛召军;李佳;王瑞平;;应用ROC曲线优选模式分类算法[J];自然科学进展;2006年11期
【共引文献】
中国期刊全文数据库 前10条
1 冀卫兴;陈忠海;方筝;;基于DE—BP算法的空调负荷预测研究[J];四川建筑科学研究;2010年05期
2 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
3 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
4 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
5 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
6 郭良栋;田江;丛晓东;;基于CPSO和SVM的混沌时间序列预测[J];辽宁科技大学学报;2009年06期
7 杨波;郑颖人;唐晓松;李安洪;;人工智能在双排全长式抗滑桩设计中的应用[J];地下空间与工程学报;2010年02期
8 唐晓松;郑颖人;段永胜;李安洪;;人工智能在埋入式抗滑桩设计中的应用[J];地下空间与工程学报;2010年02期
9 汪廷华;田盛丰;黄厚宽;廖年冬;;样本属性重要度的支持向量机方法[J];北京交通大学学报;2007年05期
10 牟少敏;田盛丰;尹传环;;基于协同聚类的多核学习[J];北京交通大学学报;2008年02期
中国重要会议论文全文数据库 前10条
1 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
2 ;The Feature Selection Method for SVM with Discrete Particle Swarm Optimization Algorithm[A];第七届国际测试技术研讨会论文集[C];2007年
3 ;The Fault Diagnosis Research of Support Vector Machine with Optimized Parameters Based on Genetic Algorithm[A];Proceedings of the 8th International Symposium on Test and Measurement(Volume 3)[C];2009年
4 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 朱孝开;杨德贵;;基于多层SVDD的模式识别方法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
6 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
7 ;Optimization of SVM Kernels and Application to Down Category Recognition[A];Proceedings of 2006 International Symposium on Distributed Computing and Applications to Business, Engineering and Science[C];2006年
8 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
9 刘广利;张跃峰;;一种新的预警指标选择方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
10 ;Combining SOM and local minimum enclosing spheres for novelty detection[A];2009中国控制与决策会议论文集(3)[C];2009年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
4 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
5 杨红;污水生化处理的智能建模与优化控制策略应用研究[D];华南理工大学;2010年
6 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
7 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
8 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
9 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
10 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
4 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
5 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
6 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
7 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
8 曹彦;基于支持向量机的特征选择及其集成方法的研究[D];郑州大学;2010年
9 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
10 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 施化吉;周书勇;李星毅;唐慧;丁秋林;;基于平均密度的孤立点检测研究[J];电子科技大学学报;2007年06期
2 张净;孙志挥;;GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J];东南大学学报(自然科学版);2005年06期
3 倪巍伟;陈耿;陆介平;吴英杰;孙志挥;;基于局部信息熵的加权子空间离群点检测算法[J];计算机研究与发展;2008年07期
4 余伟峰;钱夕元;;基于KNN图的两阶段孤立点检测及应用研究[J];计算机工程与应用;2008年02期
5 张忠平;宋少英;宋晓辉;;基于PCA及属性距离和的孤立点检测算法[J];计算机工程与应用;2009年17期
6 张忠平;宋少英;宋晓辉;;ISAD:一种新的基于属性距离和的孤立点检测算法[J];计算机工程与科学;2009年03期
7 王越;刘亚辉;徐传运;;孤立点用户意义分析在质量管理中的应用[J];计算机应用;2009年11期
8 刘佳;王新伟;;一种改进的C4.5算法及实验分析[J];计算机应用与软件;2008年12期
9 魏藜,宫学庆,钱卫宁,周傲英;高维空间中的离群点发现[J];软件学报;2002年02期
10 孙焕良;鲍玉斌;于戈;赵法信;王大玲;;一种基于划分的孤立点检测算法[J];软件学报;2006年05期
中国硕士学位论文全文数据库 前3条
1 周书勇;高维孤立点检测算法研究[D];江苏大学;2007年
2 闫宗奎;基于网格模型的孤立点检测算法[D];山东大学;2009年
3 张贺;基于信息熵和子空间的离群数据挖掘算法研究[D];太原科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 邵信光,杨慧中,石晨曦;ε不敏感支持向量回归在化工数据建模中的应用[J];东南大学学报(自然科学版);2004年S1期
2 万柏坤,王瑞平,朱欣,綦宏志;SVM算法及其在乳腺X片微钙化点自动检测中的应用[J];电子学报;2004年04期
3 刘涵;郭勇;郑岗;刘丁;;基于最小二乘支持向量机的图像边缘检测研究[J];电子学报;2006年07期
4 方景龙;陈铄;潘志庚;梁荣华;;复杂分类问题支持向量机的简化[J];电子学报;2007年05期
5 杨慧中,张素贞,陶振麟;聚丙烯腈质量指标软测量混合模型的应用[J];化工自动化及仪表;2002年06期
6 李红莲,王春花,袁保宗;一种改进的支持向量机NN-SVM[J];计算机学报;2003年08期
7 朱家元,杨云,张恒喜,任博;支持向量机的多层动态自适应参数优化[J];控制与决策;2004年02期
8 许建华,张学工,李衍达;支持向量机的新发展[J];控制与决策;2004年05期
9 张彤,王宏伟,王子才;变尺度混沌优化方法及其应用[J];控制与决策;1999年03期
10 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
【相似文献】
中国期刊全文数据库 前10条
1 郭成芳;;支持向量机在网络异常入侵检测中的应用研究[J];计算机仿真;2011年07期
2 谢凌然;高长伟;沈玉娣;;基于混合核函数支持向量机的齿轮诊断方法研究[J];机械传动;2011年09期
3 邝涛;张倩;;改进支持向量机在电信客户流失预测的应用[J];计算机仿真;2011年07期
4 白怀文;王暄;;基于Hu矩和支持向量机的人脸与非人脸分类识别[J];计算机应用与软件;2011年07期
5 宋晖;薛云;张良均;;基于SVM分类问题的核函数选择仿真研究[J];计算机与现代化;2011年08期
6 赵亚楠;李钢虎;曾渊;;基于最小均方无失真响应和支持向量机的被动声纳目标识别[J];声学技术;2011年03期
7 余萍;;基于支持向量机发展的研究[J];新课程(教育学术);2011年05期
8 王安娜;李云路;赵锋云;史成龙;;一种新的半监督直推式支持向量机分类算法[J];仪器仪表学报;2011年07期
9 关欣;郭强;张政超;赵静;翟鸿君;;基于核函数支持向量机的雷达辐射源识别[J];弹箭与制导学报;2011年04期
10 郭金玲;樊东燕;;基于SVM的山西省旅游需求预测与分析[J];电脑开发与应用;2011年09期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
8 周颖;王米渠与中医心理学[N];中国中医药报;2006年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国博士学位论文全文数据库 前10条
1 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
2 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
3 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
4 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
5 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
6 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
7 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
8 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
9 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
10 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 程佳;支持向量机与K-均值聚类融合算法研究[D];辽宁师范大学;2008年
2 张忠祥;计算机动画中碰撞检测技术研究[D];江南大学;2009年
3 江锋;支持向量机在分类及人脸检测应用中的研究[D];南京理工大学;2003年
4 傅正钢;基于统计学习的人工智能在数字游戏和数字娱乐上的应用[D];浙江大学;2004年
5 朱晓芳;基于支持向量机的田间杂草识别方法研究[D];江苏大学;2010年
6 朱明玲;基于改进的小波变换和支持向量机的纺织细纱机故障自动诊断[D];东华大学;2011年
7 张宝华;支持向量机在入侵检测系统中的研究和应用[D];天津理工大学;2010年
8 赖永标;支持向量机在地下工程中的应用研究[D];山东科技大学;2004年
9 沈徐辉;基于核主成分与支持向量机的体内药物代谢预测[D];浙江大学;2011年
10 李铮;基于支持向量机的道路交通标志识别的研究[D];燕山大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026