收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于支持向量机的孤立点检测方法研究

田江  
【摘要】: 孤立点检测是数据挖掘领域的重要内容之一。孤立点检测可以发现不具备一般数据特性的数据,进而发现潜在的有用信息。孤立点检测可以应用到很多实际领域,如信用卡欺诈检测、故障诊断、医学诊断、网络入侵检测和信息检索等。近年来很多国内外学者着力于结合支持向量机技术进行孤立点检测应用,其成果颇丰。然而随着研究的不断深入和应用范围的不断扩大,现存方法遇到了一些障碍,检测模型的泛化能力和稳定性能也存在诸多问题。由于上述原因,本文以基于支持向量机的孤立点检测为题进行研究,以期提供更加高效稳定的孤立点检测方法,主要研究内容如下: 1、一类支持向量机及其改进算法进行孤立点检测问题研究。实际应用中训练集通常包含大量的有标签正常样本,但只包含少量或者根本不存在有标签孤立点样本,这种情况下一类支持向量机表现出优势,但是由于算法对坐标原点依赖性强、参数不易选择等原因造成孤立点检测的误报率较高。针对这些问题本文首先利用受试者工作特征分析技术作为性能评价标准,使用两种参数搜索方法对模型进行优化,进而获得最佳决策函数。其次,设计了“局部密度一类支持向量机”算法,为每个样本测量数据局部密度并加到对应的松弛变量上,在训练过程中包含这些信息将有助于获得更理想的决策函数。此外,提出了“孤立点一类支持向量机”算法,通过综合距离和概率输出两种标准在无标签训练集中探测可疑孤立点,然后在特征空间刻画与可疑孤立点保持最大间隔的分类超平面,并在此基础上提出了一种根据数据异常程度动态更新数据样本的方法,提供了稳定高效的检测性能。 2、数据预处理技术改善孤立点检测中支持向量分类器性能问题研究。支持向量机进行分类操作的时候,决策超平面会受到数据库中孤立点干扰而发生偏移;其原因在于孤立点在训练过程中易于成为边界支持向量,从而对最后的决策函数做出较大贡献;另外数据维数过高也会降低分类效率和性能。为此本文提出使用数据预处理方法改善分类器性能,通过主成分分析处理训练数据,为远离聚簇中心孤立点设置较小的权值,这样孤立点对最终决策函数起到的作用将大大降低,从而缓解决策超平面被偏移的问题,提出的方法被成功地应用到蛋白质亚细胞定位预测领域。针对高维数据会影响分类器性能的问题,利用高斯过程潜变量模型来抽取特征,并且设计了阶梯跳跃式降维方法,为获得良好分类性能提供了保障。 3、使用混合策略的孤立点检测研究。孤立点检测应用中数据存在不平衡的特点,两类样本数量比例失调,将支持向量机的分类超平面向预测大类正常样本的方向倾斜,进而能够将孤立点样本全部识别为正常样本。本文首先结合两种支持向量机算法提出了一个两阶段的孤立点检测方法;集成不同权值改进半监督的一类支持向量机对数据集进行重采样,执行过程中通过设定较低权值降低孤立点的信息量,除去部分正常样本从而平衡两类样本的比例;使用代价敏感支持向量机执行孤立点检测操作,以两种误分类代价线性和最小为目标,实现了代价敏感孤立点挖掘。其次结合集成学习方法改进支持向量分类器的性能,利用聚类算法分解正常样本与孤立点样本作为单个分类器的输入,综合不同分类模型的输出结果改善孤立点检测性能。对于大类正常样本,使用聚类算法分解成多个部分,并分别计算与小类样本之间的距离,通过综合打分系统排除最远和最近的聚类;对于小类孤立点样本,使用一类支持向量机进行训练,在对应的支持向量样本上进行过采样操作;两种数据重采样方法的目的均在于平衡样本集以获得更理想的分类超平面。本文提出的混合策略方法能够提高检测率,降低误报率,同时将误分类代价降到最低。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 郭成芳;;支持向量机在网络异常入侵检测中的应用研究[J];计算机仿真;2011年07期
2 谢凌然;高长伟;沈玉娣;;基于混合核函数支持向量机的齿轮诊断方法研究[J];机械传动;2011年09期
3 邝涛;张倩;;改进支持向量机在电信客户流失预测的应用[J];计算机仿真;2011年07期
4 白怀文;王暄;;基于Hu矩和支持向量机的人脸与非人脸分类识别[J];计算机应用与软件;2011年07期
5 宋晖;薛云;张良均;;基于SVM分类问题的核函数选择仿真研究[J];计算机与现代化;2011年08期
6 赵亚楠;李钢虎;曾渊;;基于最小均方无失真响应和支持向量机的被动声纳目标识别[J];声学技术;2011年03期
7 余萍;;基于支持向量机发展的研究[J];新课程(教育学术);2011年05期
8 王安娜;李云路;赵锋云;史成龙;;一种新的半监督直推式支持向量机分类算法[J];仪器仪表学报;2011年07期
9 关欣;郭强;张政超;赵静;翟鸿君;;基于核函数支持向量机的雷达辐射源识别[J];弹箭与制导学报;2011年04期
10 郭金玲;樊东燕;;基于SVM的山西省旅游需求预测与分析[J];电脑开发与应用;2011年09期
11 吕向阳;高尚;;基于支持向量机的品牌特色专业评价[J];价值工程;2011年24期
12 王慧勤;雷刚;;基于LIBSVM的风速预测方法研究[J];科学技术与工程;2011年22期
13 李荣兵;;基于支持向量机的数控机床总线的故障诊断研究[J];煤矿机械;2011年09期
14 宋贤霞;;基于相关反馈的图像检索技术研究[J];福建电脑;2011年06期
15 戴蓉;黄成;;飞机飞行事故率预测建模与仿真研究[J];计算机仿真;2011年07期
16 贾志先;;基于支持向量机的空白试卷识别方法[J];山西大学学报(自然科学版);2011年03期
17 谢文阁;王海虹;;一种改进的基于距离的孤立点挖掘算法的研究[J];渤海大学学报(自然科学版);2011年02期
18 胡洋;吴黎慧;高磊;蒲南江;;基于SVM的语音情感识别研究[J];电子测试;2011年09期
19 方若宇;张琼;许慰玲;张虹;;基于SVM用户建模的核函数选择研究[J];微计算机信息;2011年08期
20 翟鸿雁;曾晋明;曾纪霞;;基于支持向量机的电力市场价格预测中的核函数比较[J];计算技术与自动化;2011年02期
中国重要会议论文全文数据库 前10条
1 林杰华;张斌;李冬森;宋华茂;余志强;王浩;;支持向量机在电力客户信用评级中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
2 蒋铁军;张怀强;李积源;;多变量系统预测的支持向量机方法研究[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
3 黄淑云;孙兴玉;梁汝萍;邱建丁;;基于小波支持向量机预测蛋白质亚细胞定位研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
4 谢湘;匡镜明;;支持向量机在语音识别中的应用研究[A];现代通信理论与信号处理进展——2003年通信理论与信号处理年会论文集[C];2003年
5 涂冬成;薛龙;刘木华;赵进辉;沈杰;吁芳;;基于支持向量机的鹅肉肉色客观评定研究[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
6 杨凌;刘玉树;;基于支持向量机的坦克识别算法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 师旭超;巴松涛;;基于支持向量机方法的深基坑变形预测[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(上册)[C];2004年
8 张军;;支持向量机方法在地下水位干扰排除中的初步应用[A];2007年地震流体学术研讨会论文摘要集[C];2007年
9 许建生;盛立东;;基于改进的支持向量机和BP神经网络的识别算法[A];第八届全国汉字识别学术会议论文集[C];2002年
10 荣海娜;张葛祥;张翠芳;;基于支持向量机的非线性系统辨识方法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 田江;基于支持向量机的孤立点检测方法研究[D];大连理工大学;2009年
2 杜小芳;基于CPFR的农产品采购模型研究[D];华中科技大学;2005年
3 刘育明;动态过程数据的多变量统计监控方法研究[D];浙江大学;2006年
4 栾锋;支持向量机(SVM)和径向基神经网络(RBFNN)方法在化学、环境化学和药物化学中的应用研究[D];兰州大学;2006年
5 孙薇;市场条件下抽水蓄能电站效益综合评价及运营模式研究[D];华北电力大学(河北);2007年
6 常群;支持向量机的核方法及其模型选择[D];哈尔滨工业大学;2007年
7 朱燕飞;锌钡白回转窑煅烧过程智能建模研究[D];华南理工大学;2005年
8 田英杰;支持向量回归机及其应用研究[D];中国农业大学;2005年
9 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
10 任东;基于支持向量机的植物病害识别研究[D];吉林大学;2007年
中国硕士学位论文全文数据库 前10条
1 程佳;支持向量机与K-均值聚类融合算法研究[D];辽宁师范大学;2008年
2 张忠祥;计算机动画中碰撞检测技术研究[D];江南大学;2009年
3 江锋;支持向量机在分类及人脸检测应用中的研究[D];南京理工大学;2003年
4 傅正钢;基于统计学习的人工智能在数字游戏和数字娱乐上的应用[D];浙江大学;2004年
5 朱晓芳;基于支持向量机的田间杂草识别方法研究[D];江苏大学;2010年
6 朱明玲;基于改进的小波变换和支持向量机的纺织细纱机故障自动诊断[D];东华大学;2011年
7 张宝华;支持向量机在入侵检测系统中的研究和应用[D];天津理工大学;2010年
8 赖永标;支持向量机在地下工程中的应用研究[D];山东科技大学;2004年
9 沈徐辉;基于核主成分与支持向量机的体内药物代谢预测[D];浙江大学;2011年
10 李铮;基于支持向量机的道路交通标志识别的研究[D];燕山大学;2011年
中国重要报纸全文数据库 前10条
1 课题主持人 李心丹 课题协调人 上海证券交易所 施东晖 傅浩 课题研究员 宋素荣 查晓磊 宾红辉 张许宏 郭静静 黄隽 南京大学工程管理学院;内幕交易与市场操纵的行为动机与判别监管研究[N];中国证券报;2007年
2 李水根;计算机详解配伍与药效关系[N];健康报;2005年
3 清华大学 苏光大;非接触式人脸识别技术[N];计算机世界;2006年
4 YMG记者 李仁 通讯员 曲华明 孙运智;我市九项目进入省“盘子”[N];烟台日报;2010年
5 上海大学理学院教授、副院长 陆文聪;酷爱化学 孜孜以求[N];中国化工报;2006年
6 ;选择合适的数据挖掘算法[N];计算机世界;2007年
7 记者 耿挺;蛋白质功能算出来[N];上海科技报;2007年
8 周颖;王米渠与中医心理学[N];中国中医药报;2006年
9 记者 张云普通讯员 全攀峰 安强强;大庆物探深度域地震资料岩性解释技术获得五大突破[N];中国石油报;2008年
10 本报记者 冯治恩;敢与“雷公”试比高[N];铜川日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978