收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

结构驱动的单类分类器设计及拓展研究

冯爱民  
【摘要】:分类器设计中的一个根本问题是如何提高其泛化能力,即根据从已有样本中获取的知识对未知样本进行判别的能力。因此,尽可能从样本中获取足够多的先验知识是提高泛化能力的重要途径之一。在单类分类中,由于异常样本缺失使数据信息大为减少,从而使分类器设计更为困难,因此尽力挖掘仅有的一类目标数据中的先验知识尤为重要。本文围绕着单类分类器设计,并针对数据局部密度信息、结构信息、簇信息以及少量异常数据信息等先验知识的挖掘和利用进行了较为深入的研究,所取得的主要成果如下: (1)以密度估计和支持域方法为主线综述了单类分类器的主要研究方法,并提出了一种两者结合的混合模型。从密度估计、支持域的角度重新梳理了单类分类器的主要算法,并针对作为研究热点的支持域方法,在洞察出各算法联系的基础上深入分析了超平面和超球模型的主要改进/变形模型;通过在支持域方法中嵌入局部密度,提出了适用于非对称数据分布的混合模型——局部密度嵌入的单类支持向量机线性规划算法。 (2)提出了结构驱动学习策略及相应单类模型——结构单类支持向量机(SOCSVM),并推导出对应的错分误差界。针对现有超平面单类分类器只注重局部或全局学习之不足,提出了全局与局部学习兼备的结构驱动学习策略,并以单类支持向量机为原型,通过嵌入数据结构分布信息设计出相应模型——结构单类支持向量机。作为本文后续工作的研究基础,理论证明了其最优解具有唯一性和鲁棒性,并推导出相应的错分误差界。人工和UCI数据上的实验结果表明:考虑了数据分布趋势的SOCSVM具有更强的数据描述能力,从而验证了结构驱动学习策略的有效性; (3)发展出了适用于单类多簇数据分布的结构驱动模型——结构大间隔单类分类器(SLMOCC)。基于数据分布的结构驱动学习使多簇目标数据的处理不同于单簇数据,并因此衍生出相应的分类器——结构大间隔单类分类器(SLMOCC)。通过分别约束各簇数据到最优超平面的马氏距离,SLMOCC最大程度地利用了数据的结构信息并因此具有了更精细的数据描述。为捕捉数据的多簇分布,采用了可自动确定聚类数目的凝聚型层次聚类算法。人工和UCI数据上的实验结果表明SLMOCC的性能有显著提高。 (4)构建了单类和两类问题以及数据不平衡问题的统一框架。通过在SOCSVM最小化正半空间的同时最大化正负类间隔或将结构驱动学习策略作用于ν-SVM算法并引入超平面阈值,发展出了两等价模型并统称为偏结构数据描述与判别机(BSD3M)框架,放宽了经典SVM中两类支持向量平衡的限制,并因此能够根据需要控制超平面的位置。通过合理设置目标函数及判别函数中的相应参数,BSD3M不仅可用于含极少量异常的单类问题以提高数据描述能力,同时也可推广于正负类数据大致平衡的两类问题及少量数据更为重要的数据不平衡问题。部分UCI数据集上含5%异常数据的实验结果表明:充分利用负类信息的BSD3M较之单类算法和SVM算法更为准确地描述了目标数据区域。 (5)推广出了一系列与上述各模型学习能力相当的线性规划快速算法以提高计算效率。通过最小化目标数据到超平面的函数距离,推广出SOCSVM的线性规划算法SlpOCSVM并因此使计算复杂度从二次规划的O ( n 3)提升至最快O ( n );进一步将该思想应用于多簇目标数据并以各簇数据协方差之和取代整体协方差矩阵,可将SLMOCC二次锥规划的多项式时间大幅降低;而将SlpOCSVM嵌入数据类间隔亦发展出了BSD3M的线性规划算法。上述各快速算法的实验结果验证了结构驱动学习及多簇信息嵌入同样适用于非间隔算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
2 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
3 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
4 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
5 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
6 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
7 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
8 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
9 方俊;赵英良;李明钧;;静态手写签名验证技术综述[J];绍兴文理学院学报(自然科学版);2007年01期
10 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
11 周屹;;基于Naive Bayes的文本分类器的设计与实现[J];黑龙江工程学院学报;2007年02期
12 徐小慧;张安;端木京顺;郝秦霞;;基于粒子群分类器的遥感图像目标识别[J];红外与激光工程;2007年04期
13 时银水;姬红兵;;基于粗糙集的常规雷达目标分类器研究[J];现代雷达;2007年09期
14 钟萍;岑涌;席斌;;最小二乘支持向量机在医疗数据分析中的应用[J];计算机与数字工程;2007年09期
15 周阿娟;郭相科;谢瑶;;基于小波包分解的声目标识别[J];空军工程大学学报(自然科学版);2007年06期
16 陈建林;樊兴华;王国胤;;基于两步策略的英文文本分类[J];广西师范大学学报(自然科学版);2007年04期
17 王皓;孙宏斌;张伯明;;PG-HMI:一种基于互信息的特征选择方法[J];模式识别与人工智能;2007年01期
18 孙岳;毛国君;刘旭;;数据流中概念漂移检测的集成分类器设计[J];计算机应用研究;2008年01期
19 王东;吴湘滨;;利用粒子群算法优化SVM分类器的超参数[J];计算机应用;2008年01期
20 朱红斌;;基于Adaboost算法的交通事件检测[J];计算机时代;2008年01期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
2 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
3 谢元澄;分类器集成研究[D];南京理工大学;2009年
4 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
5 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
6 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
7 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
8 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
9 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
10 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
2 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
3 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
4 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
5 于柏森;发动机机械故障诊断系统分类器设计[D];长春工业大学;2010年
6 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
7 邱立;支持向量机和神经网络在手写数字识别算法中的应用研究[D];华南理工大学;2010年
8 蔡晰;半监督联合训练分类方法研究及其应用[D];福建师范大学;2010年
9 史亚;雷达辐射源个体识别中的分类器设计与子空间学习[D];西安电子科技大学;2011年
10 苏攀;不平衡分类器博弈模型及其在中国象棋中的应用[D];河北大学;2011年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
3 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 凡妮;IBM TotalStorage中高端产品强势出击[N];电脑商报;2004年
6 荆轩;2006,常州公安工作目标数据化[N];江苏法制报;2006年
7 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
8 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
9 姜炜;构建BI/DW的核心[N];中国计算机报;2003年
10 四川 杜松;第二代SATA蓄势待发[N];电脑报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978