收藏本站
《中国矿业大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于聚类与流形正则化的分类方法研究

刘兵  
【摘要】:分类器设计一直是模式识别领域研究的重要课题之一。近十年来,随着统计学习和核函数理论的深入研究,涌现出许多新方法。这些理论和方法较好地解决了模式分类中的局部最优、过拟合以及维数灾难等问题。然而,在以支持向量机为代表的核分类方法的基础上,近年来又涌现出了一些新的研究热点,这些新的热点往往是传统模式分类方法存在的弊端,例如,海量高维数据的分类、类重叠和噪声干扰下的数据分类、多标记数据分类、类不平衡数据的分类、非线性分类中的核函数(矩阵)优化以及非线性快速分类等等。在此背景下,本文主要从快速鲁棒聚类算法、不平衡样本的分类、核优化、基于流形正则化的快速半监督分类等几个方面进行深入研究,提出了解决类不平衡、核优化以及快速分类的新方法。 论文的主要研究工作包括以下四个方面的内容: (1)针对实际应用中样本重叠以及噪声干扰问题,提出了一种基于样本加权的可能性模糊聚类算法和一种鲁棒可能性模糊核聚类算法。第一种聚类算法主要解决近似线性可分问题,算法通过为孤立点或噪声点赋予较小的权重缩小典型值的收敛范围,减小其对聚类的影响。在分析算法收敛性的基础上,证明了其具有比传统IPCM(Improved Possibilistic C-Means)算法更快的收敛速度,在有效降低时间复杂度的同时能够取得较好的聚类准确率。第二种聚类算法主要解决线性不可分问题,同时,为解决无监督条件下的核函数参数选择问题,提出了一种核函数参数优化方法。因此,所提出的聚类算法不仅可以同时处理线性不可分和部分重叠数据集,而且具有更强的鲁棒性,在噪声干扰下能够取得较好的聚类准确率。 (2)针对实际应用中正负样本数量分布不平衡分类问题,基于两种鲁棒聚类算法,建立了可能性模糊支持向量机(Possibilistic Fuzzy Support VectorMachine,PFSVM)模型,提出了基于可能性模糊聚类的不平衡数据分类方法。所设计的分类器较好地解决了分类中的类不平衡、孤立点和噪声干扰问题,通过鲁棒聚类算法为训练样本分配模糊隶属度和典型值,减小了孤立点和噪声对SVM的分类精度以及泛化能力所造成的影响。 (3)针对多核学习效率较低以及需要预先定义一组核函数等缺陷,建立了无监督非参数核学习模型,该模型易于拓展至有监督学习。提出了非参数核学习分类方法。该方法通过对多核学习优化问题进行放松,使其可以转化为一系列的稀疏特征值分解子问题,每次迭代中只需进行闭合解的计算,从而提高了核学习的性能和效率。所建立的模型通过把谱核学习和间隔最大化标准进行有机结合,充分利用了数据的低维流形结构,增强了决策函数的光滑性,同时可以有效利用未标记数据进行最大间隔分类。实验验证了非参核学习的有效性,在有监督和无监督情况下,提出的非参核学习方法的性能均优于多核学习方法。 (4)为解决半监督快速学习问题,建立了扩展的流形正则化框架E-MR(Extended Manifold Regularized Framework),提出了推广的决策函数表示定理、单输出极速学习机与流形正则化框架关系定理和多输出极速学习机与流形正则化框架关系定理。这些定理为快速半监督分类模型和算法的提出提供了理论依据,表明所建立的流形正则化极速学习机模型(Manifold Regularized ExtremeLearning Machine, MRELM)是E-MR框架的一个特例,其本质是随机地离散化核函数。因此,所提出的算法是传统核分类的近似算法。MRELM继承了ELM无需调整模型参数的优点,能够为不同的学习任务提供统一的解析解。实验结果验证了MRELM算法的有效性。 本文研究的内容主要涉及到了不平衡数据分类方法、基于非参数核优化的分类方法以及快速半监督分类方法三个方面的相关研究内容。在研究了相关前期工作的基础上,建立了多种分类和学习模型,提出了新的学习算法,并使用标准数据集和多个人脸数据集对算法进行了测试。通过和相关算法进行对比,进一步验证了本文提出算法的有效性。本文的研究成果将丰富分类问题的解决途径,具有一定的理论意义和较好的应用前景。
【学位授予单位】:中国矿业大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.4

【参考文献】
中国期刊全文数据库 前10条
1 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
2 高新波,李洁,姬红兵;基于加权模糊c均值聚类与统计检验指导的多阈值图像自动分割算法[J];电子学报;2004年04期
3 常群;王晓龙;林沂蒙;王熙照;Daniel S.Yeung;;支持向量分类和多宽度高斯核[J];电子学报;2007年03期
4 武小红;周建江;;可能性模糊C-均值聚类新算法[J];电子学报;2008年10期
5 陈健美;陆虎;宋余庆;宋顺林;徐景;谢从华;倪巍伟;;一种隶属关系不确定的可能性模糊聚类方法[J];计算机研究与发展;2008年09期
6 肖健华;吴今培;;样本数目不对称时的SVM模型[J];计算机科学;2003年02期
7 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
8 王泳;胡包钢;;应用统计方法综合评估核函数分类能力的研究[J];计算机学报;2008年06期
9 王珊;王会举;覃雄派;周烜;;架构大数据:挑战、现状与展望[J];计算机学报;2011年10期
10 田军委;黄永宣;于亚琳;;基于熵约束的快速FCM聚类多阈值图像分割算法[J];模式识别与人工智能;2008年02期
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
3 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
4 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
5 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
6 李淑华;徐良培;陶建平;;基于支持向量机的我国水产品出口贸易风险预警研究[J];安徽农业科学;2008年30期
7 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
8 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
9 赵万明;黄彦全;谌贵辉;;基于支持向量机的农村用电量需求预测[J];安徽农业科学;2009年25期
10 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
中国重要会议论文全文数据库 前10条
1 周绮凤;林成德;罗林开;彭洪;;一种基于黎曼度量的训练样本类不平衡SVM分类方法研究[A];第二十六届中国控制会议论文集[C];2007年
2 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
3 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
4 ;Novel Hybrid Clustering Algorithm Incorporating Artificial Immunity into Fuzzy Kernel Clustering for Pattern Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
6 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
7 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
8 康传会;汪晓东;汪轲;常健丽;;基于最小二乘支持向量机的迟滞建模方法[A];第二十九届中国控制会议论文集[C];2010年
9 刘华;张建华;王娆芬;王行愚;;人机系统操作员功能状态的模糊聚类方法[A];第二十九届中国控制会议论文集[C];2010年
10 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
5 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
6 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
7 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
8 李晚龙;六自由度Stewart平台分散智能控制研究[D];哈尔滨工程大学;2010年
9 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
10 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
2 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
3 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
6 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
7 张海峰;空间三维信息重构与飞行器路径规划[D];山东科技大学;2010年
8 田文娟;基于支持向量机的人民币序列号识别方法的研究[D];山东科技大学;2010年
9 徐芳芳;优化问题的PVD算法研究[D];山东科技大学;2010年
10 陈楠楠;互动音乐桌[D];山东科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘健庄;基于二维直方图的图象模糊聚类分割方法[J];电子学报;1992年09期
2 于剑,程乾生;关于FCM算法中的权重指数m的一点注记[J];电子学报;2003年03期
3 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
4 刘健庄,涂予青;使用高效的c均值聚类算法的图象阈值化方法[J];电子科学学刊;1992年04期
5 高新波,裴继红,谢维信;基于统计检验指导的聚类分析方法[J];电子科学学刊;2000年01期
6 于剑,石洪波,黄厚宽,孙喜晨,程乾生;Counterexamples to convergence theorem of maximum-entropy clustering algorithm[J];Science in China(Series F:Information Sciences);2003年05期
7 刘向东 ,骆斌 ,陈兆乾;支持向量机最优模型选择的研究[J];计算机研究与发展;2005年04期
8 丁震,胡钟山,杨静宇,唐振民,邬永革;一种基于模糊聚类的图象分割方法[J];计算机研究与发展;1997年07期
9 肖健华;吴今培;;样本数目不对称时的SVM模型[J];计算机科学;2003年02期
10 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
中国博士学位论文全文数据库 前1条
1 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 陈婷婷;方滨兴;郑军;;基于层次自组织特征映射的网络异常检测系统数据分析器[J];计算机应用与软件;2006年05期
2 阎辉,张学工,李衍达;基于核函数的最大间隔聚类算法[J];清华大学学报(自然科学版);2002年01期
3 牟廉明;数据挖掘中聚类方法比较研究[J];内江师范学院学报;2003年02期
4 孙宗海,杨旭华,孙优贤;基于支持向量机的模糊回归估计[J];浙江大学学报(工学版);2005年06期
5 张静舟;刘燕;;RBF神经网络在入侵检测中的应用[J];河南机电高等专科学校学报;2007年02期
6 徐章艳,尹云飞;一种区间值聚类的数据挖掘方法[J];系统工程与电子技术;2005年03期
7 黄明,王武龙,梁旭;基于遗传算法的高效聚类挖掘新算法[J];大连铁道学院学报;2002年04期
8 冯兴杰,黄亚楼;带约束条件的聚类算法研究[J];计算机工程与应用;2005年07期
9 郑洪英;廖晓峰;倪霖;肖迪;;进化算法及其在入侵检测中的应用[J];计算机科学;2007年11期
10 何苗;;一种基于DBS的聚类算法[J];重庆电子工程职业学院学报;2009年03期
中国重要会议论文全文数据库 前10条
1 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
2 吕强;刘士荣;俞金寿;;神经网络聚类加权集成及其应用[A];2007年中国智能自动化会议论文集[C];2007年
3 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
4 范九伦;裴继红;谢维信;马远良;;聚类分离性测度:模糊Fisher距离[A];模糊集理论与模糊应用专辑——中国系统工程学会模糊数学与模糊系统委员会第十届年会论文选集[C];2000年
5 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
6 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
7 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
8 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
9 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
2 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
3 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
4 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
5 李宇;上市预披露将成市场常规[N];中国证券报;2008年
6 郭立;荣昌猪实现数字化[N];中国畜牧兽医报;2005年
7 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
8 秦笃烈;解读 中国造女性数字人[N];健康报;2006年
9 李宇;港交所明年试验上市预披露计划[N];中国证券报;2007年
10 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 刘兵;基于聚类与流形正则化的分类方法研究[D];中国矿业大学;2013年
2 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
3 王林军;正则化方法及其在动态载荷识别中的应用[D];湖南大学;2011年
4 吴磊;(?)_p正则化问题的算法研究[D];湖南大学;2013年
5 方晟;基于正则化的高倍加速并行磁共振成像技术[D];清华大学;2010年
6 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
7 邓志亮;两类不适定问题的正则化方法研究[D];兰州大学;2010年
8 石陆魁;非线性维数约减算法中若干关键问题的研究[D];天津大学;2005年
9 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
10 郑光辉;分数阶偏微分方程几类反问题的正则化方法[D];兰州大学;2012年
中国硕士学位论文全文数据库 前10条
1 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
2 李帅;中医有效药—症关系的研究[D];北京交通大学;2011年
3 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
4 于洋;数据挖掘可视化技术的研究与应用[D];吉林大学;2008年
5 王宝杰;可视化数据挖掘的研究与应用[D];吉林大学;2007年
6 鲍洪庆;一种基于密度的动态参数单元聚类算法[D];山东大学;2005年
7 董军凯;基于平行坐标法的可视化数据挖掘技术研究[D];北京工业大学;2008年
8 毛海舟;求解第一类Fredholm积分方程的正则化方法及应用[D];上海交通大学;2010年
9 张卫华;具Robin边值的反向热传导问题的几种正则化方法[D];兰州大学;2010年
10 王维顺;蚁群算法在数据挖掘中的应用研究[D];山东大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026