收藏本站
《南京航空航天大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

分类器设计中的正则化技术研究

薛晖  
【摘要】: 正则化技术诞生于20世纪60年代,最初是由数学领域提出用于解决不适定问题。随着80年代机器学习的兴起,正则化技术被广泛应用于模式识别的各个领域。其通过引入含有问题先验知识的正则化项使解稳定的思想渗透在各种算法的设计中,并衍生出许多著名的方法,例如:正则化网络(Regularization Networks,RNs),正则化最小二乘分类器(Regularized Least-squares Classification,RLSC),支持向量机(Support Vector Machines,SVMs)和流形正则化(Manifold Regularization,MR)等等。本文着眼于模式识别中的重要环节之一――分类器设计,从正则化分类器的推广性能、正则化项的构建以及分类器对先验知识的融合等诸多层面,系统深入地研究了分类器设计中的正则化技术。本文的主要贡献在于: 1.从正则化的角度提出了一个新的基于平方误差准则分类器的推广误差界。新的局部性正则化推广误差界将分类器的推广误差限定在每个样本的局部邻域内,融入了数据空间的结构信息,克服了原有推广误差界(如VC维)只适用于线性分类器的缺点,并引入了可调节的正则化参数,增强了误差界的灵活性。在此基础上,本文进一步提出了一种新的分类器设计方法――局部性正则化方法(Locality Regularization,LR)。新方法具有两个显著的特点:(1)根据推广误差界,自然地由期望风险函数的定义导出正则化项;(2)通过与谱图理论、流形学习相结合,将正则化项构建在样本的局部可变邻域上,融合了数据空间的全局和局部结构信息,提高了分类器的推广性能。实验验证了新算法在所用数据集上,尤其是对于训练和测试样本分布不均衡的数据集,具有比经典正则化方法更优的分类性能。 2.进一步拓展了局部性正则化方法的应用领域,提出了一种基于局部性正则化推广误差界的特征选择算法。作为一种混合滤波-封装方法,新算法以局部性正则化推广误差界为评价函数,以局部性正则化方法为目标分类器,既保持了较高的计算效率,又保证了利用所选择特征设计的分类器具有良好的推广性能。 3.针对传统正则化方法仅关注分类器数据独立的光滑性惩罚这一缺点,提出了一种数据依赖正则化项的构建理念――判别正则化项(Discriminative Regularization Term,Rdisreg)。新的判别正则化项主要侧重于:(1)分类器输出空间中数据的可分性,通过采用不同的方式定义输出样本的类内紧凑性和类间分离性,逐步地在正则化项中引入有助于分类的样本判别信息和结构信息;(2)始终保持只含有一个需要调节的正则化因子,有效地避免多类分类优化问题中潜在的“维数灾难”;(3)较强的推广性,通过将其与不同的损失函数、正则化项相结合,可以衍生出更多新的算法,从而最终为分类器设计提供一种新的途径。本文以最小二乘损失函数为例,在嵌入了判别信息的基础上,逐步在判别正则化项中融入全局和局部结构信息,提出了两种判别性正则化方法(Discriminative Regularization,DR)。通过在目标函数中嵌入等性约束,新算法不但可解析求解,并且求解框架自然地涵盖了两类和多类问题。实验验证了新算法优越的推广性和良好的稳定性。 4.支持向量机(SVM)是一种典型的正则化分类器,本文首次尝试从数据结构粒度的观点揭示了SVM及其相关改进方法之间的关系,构建了一个结构正则化大间隔分类器框架,并在此基础上,进一步提出了一种新的大间隔算法――结构正则化支持向量机(Structurally Regularized Support Vector Machine,SRSVM)。通过将数据的聚类结构信息以一个新的正则化项的形式嵌入到传统的SVM目标函数中,新方法主要着重于:(1)保持传统SVM的优化框架,显著降低同类算法的计算复杂度,简化核化过程,快捷有效地收敛到全局最优解,并保持解的稀疏性;(2)从理论上严格证明,数据结构信息的引入确实能够得到比SVM更好的推广性能。 5.根据“没有免费午餐定理”,本文对正则化技术的研究都涉及如何在正则化分类器中尽可能地融入数据的先验知识,其中包括判别信息、结构信息等。因此,如何有效地从数据中挖掘出结构信息也是本文的一个研究方向,由此提出了一种新的鲁棒局部嵌入算法。新算法从样本的鲁棒重建入手,同时考虑了数据流形的全局和局部结构信息,具有比通常流形算法LLE更紧致的嵌入,并有效地抑制了野值对嵌入的影响。在分类器设计上的初步实验表明,新算法的引入进一步提高了正则化分类器的性能。
【学位授予单位】:南京航空航天大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP181

【参考文献】
中国期刊全文数据库 前1条
1 李仁璞,王正欧;一种结构自适应的神经网络特征选择方法[J];计算机研究与发展;2002年12期
【共引文献】
中国期刊全文数据库 前10条
1 凌锦江,周志华;基于因果发现的神经网络集成方法[J];软件学报;2004年10期
2 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
3 张贵,乔春生;应用支持向量机回归确定岩体强度指标[J];北方交通大学学报;2004年01期
4 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
5 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
6 余鹏,封举富;基于多分辨率小波和高斯混合模型的纹理图像分割[J];北京大学学报(自然科学版);2005年03期
7 韩武鹏,陈文楷,刘正耀;模糊小波算法在纺织品瑕点检测中的应用[J];北京工业大学学报;2002年01期
8 张虹,陈文楷;一种基于小波矩的图像识别方法[J];北京工业大学学报;2004年04期
9 苏惠敏,高剑宏,陈哲;BP网络实时图像自动选取算法研究[J];北京航空航天大学学报;2002年02期
10 张吉堂,路宏年;树分类器在多界面粘接质量图像诊断中的应用[J];北京航空航天大学学报;2003年08期
中国重要会议论文全文数据库 前10条
1 张韵;张燕;苗艳华;蒲金霞;;提升小波在笔迹鉴别中的应用[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
2 罗仁泽;王汝言;冉瑞生;;二维PCA法策略及证明[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 郭锋;刘丽丽;吕凝;;基于LLE和SVM的人像识别方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 付炜;马建国;;一种有源低功耗微波频段RFID标签设计[A];四川省电子学会半导体与集成技术专委会2006年度学术年会论文集[C];2006年
5 陈华杰;韦巍;;一种基于元泛化的Bagged Boosting算法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
6 林健;朱帮助;;基于LS-SVM的区域经济短期预测[A];2006中国控制与决策学术年会论文集[C];2006年
7 陈进东;王鲜芳;潘丰;;基于FSVM与机理的青霉素发酵过程混合建模[A];2007中国控制与决策学术年会论文集[C];2007年
8 师凯;蔡延光;邹谷山;王涛;;蚁群算法及粒子群算法对比及在VRP中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
9 李方方;赵英凯;贾玉莹;杜杰;;基于最小二乘支持向量机的油品质量预测[A];第25届中国控制会议论文集(上册)[C];2006年
10 蒋琦;庄毅;谢东;;基于SVM分类器的SYN Flood攻击检测规则生成方法的研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 吴艳;多传感器数据融合算法研究[D];西安电子科技大学;2003年
2 张润峰;FNS对MI大鼠HRV和心脏神经重构的作用及部分机制探讨[D];重庆医科大学;2004年
3 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
4 凌杰;公路动态称重系统的设计理论研究[D];长安大学;2001年
5 李剑;局部放电灰度图象识别特征提取与分形压缩方法的研究[D];重庆大学;2001年
6 孙涛;基于数据融合技术的两相流流型辨识与流量测量方法研究[D];浙江大学;2002年
7 郭满才;群体遗传变异的信息学模型研究[D];西北农林科技大学;2002年
8 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
9 李新;面向神经计算的视觉信息处理研究[D];西北工业大学;2002年
10 郑江滨;视频监视方法研究[D];西北工业大学;2002年
中国硕士学位论文全文数据库 前10条
1 王夏黎;视频交通流检测及车辆识别系统的设计与实现[D];西北大学;2001年
2 刘枫;数字图象压缩算法的应用研究[D];成都理工学院;2001年
3 张锐;基于人工神经网络理论的机械故障诊断技术研究[D];东北林业大学;2001年
4 王立;先进红外成像制导技术研究[D];西北工业大学;2001年
5 张浩;数据融合在工程中的应用与研究[D];湖南大学;2001年
6 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年
7 刘学军;键盘用户身份验真与加权主分量分类器[D];南京航空航天大学;2002年
8 张文朝;基于人工神经网络的暂态稳定评估技术的研究[D];华北电力大学;2002年
9 刘菲;实时景物理解系统研究[D];南京理工大学;2002年
10 沈培华;支持矢量机的算法研究和应用[D];南京理工大学;2002年
【同被引文献】
中国期刊全文数据库 前7条
1 何永勇,褚福磊,钟秉林;基于进化计算的神经网络设计与实现[J];控制与决策;2001年03期
2 孙权森,曾生根,王平安,夏德深;典型相关分析的理论及其在特征融合中的应用[J];计算机学报;2005年09期
3 金忠,胡钟山,杨静宇,刘克,孙靖夷;手写体数字有效鉴别特征的抽取与识别[J];计算机研究与发展;1999年12期
4 傅初黎;李洪芳;熊向团;;不适定问题的迭代Tikhonov正则化方法[J];计算数学;2006年03期
5 齐子鹏,段红艳;试论旅游规划中的文脉分析[J];科技进步与对策;2003年09期
6 熊超;;模式识别理论及其应用综述[J];中国科技信息;2006年06期
7 赵喜林,赵喜玲,江祥奎;模式识别方法及其比较分析[J];信阳农业高等专科学校学报;2004年03期
中国博士学位论文全文数据库 前1条
1 孙廷凯;增强型典型相关分析研究与应用[D];南京航空航天大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
2 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
3 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
4 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
5 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
6 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
7 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
8 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
9 方俊;赵英良;李明钧;;静态手写签名验证技术综述[J];绍兴文理学院学报(自然科学版);2007年01期
10 张勇;;一种新的多类别多标签关联分类方法的研究[J];福建电脑;2007年08期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
3 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
4 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
5 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
6 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
7 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
8 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
9 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
10 清华大学 朱健翔;人脸表情估计与表情合成[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
2 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
3 谢元澄;分类器集成研究[D];南京理工大学;2009年
4 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
5 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
6 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
7 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
8 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
9 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
10 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
2 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
3 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
4 于柏森;发动机机械故障诊断系统分类器设计[D];长春工业大学;2010年
5 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
6 徐迅燕;基于谱正则化技术的典型相关分析方法研究[D];南京理工大学;2013年
7 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
8 李婷俐;基于多特征级联分类器的道路车辆检测方法研究[D];湖南大学;2012年
9 曹军;基于分类器集成学习的多变量质量诊断研究[D];南京理工大学;2012年
10 邱立;支持向量机和神经网络在手写数字识别算法中的应用研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026