收藏本站
《华南理工大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于图和熵正则化的半监督分类算法

刘小兰  
【摘要】:半监督学习(Semi-supervised Leaning,SSL)试图利用大量的无标记样本学习数据的内在几何结构,在此基础上利用少量的有标记样本完成降维、分类和回归等任务。由于SSL在减少人工标注代价、提高机器学习性能方面的突出优势,以及在网页检索、文本分类、基于生物特征的身份识别和医疗诊断等领域应用的广泛性,从上世纪90年代开始,它就在机器学习界引起了关注。目前,SSL已成为机器学习研究中最受关注的问题之一。 本文在分析了SSL的发展现状和目前仍存在的问题的基础上,对基于图和熵正则化的半监督分类学习中的若干重要问题进行了研究,具体研究内容和成果如下: 1、数据图的构造。数据图的构造是设计基于图的SSL算法的第一步。大多数传统数据图构造方法是参数依赖的,且对参数较敏感;另一方面,最近提出的基于稀疏表达的最小化L1模构造模型不能保证非负解,因此不能直接用作图上边的权重。针对这些不足,提出了两个基于非负稀疏表达的最小化L1模构造模型:L1_IMP和L1_IMPv。两个新模型在现有最小化L1模构造模型的基础上增加了非负约束,从而使得模型的稀疏解不仅可以反映成对样本间的紧密程度,而且可以直接用作图上边的权重。此外,新的图构造方法可以在确定图的邻接结构的同时完成边的权重计算。结合标记传播算法,在UCI和人脸数据集上的实验结果表明,L1_IMP和L1_IMPv在大多数情况下的分类效果优于传统方法。 2、基于不相似性的图SSL算法。负相似性在协同过滤等问题中经常出现。针对目前提出的大部分图SSL算法都不能处理不相似性或负相似性的不足,提出了一个基于负相似性的图SSL模型SMLP。SMLP的优化目标是如下两个量的比值:类标记和正相似性的不一致性以及类标记和负相似性的一致性;同时,SMLP允许有标记样本的标记予以重新标记,运用一种全局优化方法求解SMLP,可以在O ( n~3 logε~(-1) )时间内获得一个ε-最优解。在UCI数据集和协同过滤问题上验证了SMLP算法的有效性。 3、适于处理标记有噪声数据的图SSL算法。算法的基本思路是运用软标记方法来处理标记有噪声数据。首先,利用各种标记软化方法将样本的类标记转化为软标记,相比硬标记,软标记可以更好地容纳监督者对模式类别的不确定性。在此基础上,嵌入现有的基于图的SSL算法LGC,以达到预期目的。在有类重叠的UCI和物体识别数据集上的实验表明,与基于硬标记的LGC算法相比,基于软标记的LGC算法可以更好地用于标记有噪声数据的半监督分类学习。 4、基于熵正则化的SSL算法。提出了一个基于条件Havrda-Charvat’s Structuralα-熵正则化的直推式半监督分类模型MinEnt。MinEnt的基本思想是:一个好的聚类标准是对无标记样本的一个好的刻画。在MinEnt模型中,用条件Havrda-Charvat’s Structuralα-熵聚类标准刻画无标记样本及其所属类别之间的关系,同时对有标记样本采用其对数似然函数。设计了基于拟牛顿法的求解算法。所提出的算法是判别式的,降低了对模型的依赖程度;同时,它可以预测样本空间中任何一个样本的标记,是一种直推式方法。在UCI数据集上的仿真实验验证了该算法的有效性。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP181

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 赵莹;张健沛;杨静;王冠军;;一种改进的分枝定界半监督支持向量机学习算法[J];电子学报;2010年02期
2 皋军;王士同;邓赵红;;基于全局和局部保持的半监督支持向量机[J];电子学报;2010年07期
3 张博锋;白冰;苏金树;;基于自训练EM算法的半监督文本分类[J];国防科技大学学报;2007年06期
4 李聪;梁昌勇;马丽;;基于领域最近邻的协同过滤推荐算法[J];计算机研究与发展;2008年09期
5 王立宏;赵宪佳;武栓虎;;基于EM的启动子序列半监督学习[J];计算机研究与发展;2009年11期
6 薛贞霞;刘三阳;刘万里;;基于SVDD的渐进直推式支持向量机学习算法[J];模式识别与人工智能;2008年06期
7 詹永照;陈亚必;;具有噪声过滤功能的协同训练半监督主动学习算法[J];模式识别与人工智能;2009年05期
8 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
9 廖东平;姜斌;魏玺章;黎湘;庄钊文;;一种快速的渐进直推式支持向量机分类学习算法[J];系统工程与电子技术;2007年01期
10 廖东平;魏玺章;黎湘;庄钊文;;一种改进的渐进直推式支持向量机分类学习算法[J];信号处理;2008年02期
中国硕士学位论文全文数据库 前1条
1 翟德明;半监督判别分析方法研究[D];哈尔滨工业大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
2 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
3 刘光远;董立岩;苑森淼;李永丽;刘辉;;基于位差的属性选择算法[J];吉林大学学报(信息科学版);2007年01期
4 廖东平;王书宏;黎湘;;一种结合K近邻法的改进的渐进直推式支持向量机学习算法[J];电光与控制;2010年10期
5 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
6 唐晓亮;韩敏;;一种基于极端学习机的半监督学习方法[J];大连理工大学学报;2010年05期
7 王晓锋;秦玉平;;基于支持向量机的网页多类分类技术[J];大连轻工业学院学报;2007年04期
8 高旻;吴中福;;基于个性化情境和项目的协同推荐研究[J];东南大学学报(自然科学版);2009年S1期
9 黄裕洋;金远平;;一种综合用户和项目因素的协同过滤推荐算法[J];东南大学学报(自然科学版);2010年05期
10 何尧;张顺淼;;利用未标识文档提高中心分类法性能的研究[J];电脑知识与技术(学术交流);2007年16期
中国重要会议论文全文数据库 前9条
1 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 徐达;武新星;胡俊彪;郭磊;李华;;最小二乘支持向量机回归预测模型研究与实现[A];全国先进制造技术高层论坛暨第八届制造业自动化与信息化技术研讨会论文集[C];2009年
4 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
5 方昕;钟尚平;;基于聚类与TSVM融合的图像通用隐写检测算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
6 李巍华;刘雯;;基于主元分析和直推式支持向量机的齿轮早期故障诊断[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
3 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年
4 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
5 赵玉凤;图像检索中自动标注技术的研究[D];北京交通大学;2009年
6 高翠芳;模糊聚类新算法及应用研究[D];江南大学;2011年
7 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
8 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
9 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
10 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
2 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
3 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
4 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
5 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年
6 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
7 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
8 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
9 林良思;基于半监督和主动学习相结合的图像的检索研究[D];华南理工大学;2010年
10 李保秀;中文文本分类技术研究[D];南昌大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期
2 孙广玲,唐降龙;基于分层高斯混合模型的半监督学习算法[J];计算机研究与发展;2004年01期
3 周军锋,汤显,郭景峰;一种优化的协同过滤推荐算法[J];计算机研究与发展;2004年10期
4 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
5 张锋;常会友;;使用BP神经网络缓解协同过滤推荐算法的稀疏性问题[J];计算机研究与发展;2006年04期
6 邢春晓;高凤荣;战思南;周立柱;;适应用户兴趣变化的协同过滤推荐算法[J];计算机研究与发展;2007年02期
7 成科扬;文传军;詹永照;;模糊深隐马尔可夫模型研究[J];计算机科学;2008年06期
8 王辉;高利军;王听忠;;个性化服务中基于用户聚类的协同过滤推荐[J];计算机应用;2007年05期
9 沈新宇;许宏丽;官腾飞;;基于直推式支持向量机的图像分类算法[J];计算机应用;2007年06期
10 邓林,马尽文,裴健;秩和基因选取方法及其在肿瘤诊断中的应用[J];科学通报;2004年13期
【相似文献】
中国期刊全文数据库 前10条
1 谢美华;邓立新;;基于非线性扩散方程的多幅图像复原方法[J];光电子.激光;2007年08期
2 汪亚明,黄文清,李伟,汪元美;单目图像序列中基于正则化的局部三维非刚体运动估计[J];电路与系统学报;2004年02期
3 许建华,张学工,李衍达;最小平方误差算法的正则化核形式[J];自动化学报;2004年01期
4 谢美华,王正明;用偏微分方程作图像分析与处理[J];激光与光电子学进展;2005年08期
5 高河伟;张丽;陈志强;程建平;;有限角度CT图像重建算法综述[J];CT理论与应用研究;2006年01期
6 倚海伦;王庆;;基于L1范数的图像超分辨率及差分统计模型[J];计算机工程;2007年24期
7 程鸿;章权兵;韦穗;;基于整体变分的相位恢复[J];中国图象图形学报;2010年10期
8 杨安平;陈松乔;胡鹏;;基于图嵌入正则化的人脸线性判别分析[J];计算机工程;2011年12期
9 解应春,王海清,李平;矢量基学习算法及在辨识建模中的应用研究[J];电路与系统学报;2004年06期
10 张国山;;基于动态补偿的广义系统的正则化与极点配置[J];控制与决策;2006年01期
中国重要会议论文全文数据库 前10条
1 廖熠;赵荣椿;;从明暗恢复形状方法综述[A];中国体视学学会图像分析专业、中国体视学学会仿真与虚拟现实专业、中国航空学会信号与信息处理专业第一届联合学术会议论文集[C];2000年
2 郭永新;黄海军;;Birkhoff系统的正则化[A];数学·物理·力学·高新技术研究进展——2000(8)卷——中国数学力学物理学高新技术交叉研究会第8届学术研讨会论文集[C];2000年
3 薛齐文;;偶应力参数识别的正则化解[A];中国力学学会学术大会'2009论文摘要集[C];2009年
4 杨光;张庆灵;;非线性广义系统极点配置的一步设计[A];2007中国控制与决策学术年会论文集[C];2007年
5 曹东兴;檀润华;牛静娟;徐安平;栗新川;;基于功率键合图的机电一体化系统概念设计反问题研究[A];制造业与未来中国——2002年中国机械工程学会年会论文集[C];2002年
6 段晓钢;柴天佐;;一种隐式鲁棒自适应前馈控制算法[A];第三届全国控制与决策系统学术会议论文集[C];1991年
7 徐定华;李明忠;;椭圆型方程Cauchy问题的正则化[A];1997年中国地球物理学会第十三届学术年会论文集[C];1997年
8 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
9 张宾;贺昌政;;偏差准则对GMDH模型推广能力的改进[A];中国运筹学会第七届学术交流会论文集(下卷)[C];2004年
10 曹毅;吕英华;;基于微遗传算法和正则化处理的模糊图像复原方法[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 湖南 刘敏新;用Premiere让水中倒影“碧波荡漾”[N];电脑报;2002年
2 本报记者 温庆生 特约记者 赵丕聪 通讯员 崔持瑜;人民信得过的英雄连队[N];光明日报;2009年
3 小新;相片救星[N];中国电脑教育报;2004年
4 宁津生 陈军 晁定波;获取地球内部信息的间接方法[N];中国测绘报;2002年
5 张卒;你的表情我来定[N];计算机世界;2004年
6 宁津生 陈军 晁定波;大地测量资料反演[N];中国测绘报;2002年
7 本报特约记者 李华敏 罗文义 记者 陈典宏;一个英雄连队的宽阔视野[N];解放军报;2011年
8 何振邦 李京山;“龙眼”和“影子200”无人机[N];中国航空报;2003年
9 山东 崔玉山;卫星天线的快速定位[N];电子报;2007年
10 本报记者 孙岚;城乡盛开文明花[N];大庆日报;2007年
中国博士学位论文全文数据库 前10条
1 刘小兰;基于图和熵正则化的半监督分类算法[D];华南理工大学;2011年
2 刘超;超声层析成像的理论与实现[D];浙江大学;2003年
3 吕绍高;统计学习中回归与正则化谱聚类算法的研究[D];中国科学技术大学;2011年
4 闫晗;一类带有非牛顿位势的正则化Vlasov方程初边值问题[D];吉林大学;2009年
5 孙斌;基于CT成像的合成孔径雷达向量熵成像研究[D];浙江大学;2004年
6 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
7 王雷;基于全局统计与局部几何性质的数据降维算法研究[D];中国科学技术大学;2009年
8 严佩敏;电阻抗断层成像算法研究[D];上海大学;2005年
9 彭源;医学电阻抗成像研究[D];上海大学;2004年
10 靳刘蕊;函数性数据分析方法及应用研究[D];厦门大学;2008年
中国硕士学位论文全文数据库 前10条
1 田明党;系数正则化在线算法收敛性分析[D];宁波大学;2011年
2 张际雄;正则化回归算法学习速度的一种估计[D];杭州师范大学;2011年
3 王艳;基于联合正则化及隐马尔可夫树模型的图像压缩传感方法研究[D];燕山大学;2010年
4 赵志辉;正则化路径上的支持向量机贝叶斯模型平均[D];天津大学;2012年
5 黄小为;基于谱分析理论与Moore-Penrose广义逆的正则化[D];武汉理工大学;2004年
6 王万斌;偏微分方程参数识别反问题正则化方法研究[D];西安理工大学;2003年
7 康云;高清晰图像恢复技术研究[D];解放军信息工程大学;2004年
8 焦艳东;带约束的Tikhonov正则化方法的应用[D];河北工业大学;2004年
9 孔素然;噪音水平未知时一维带限信号重构的快速稳定算法[D];河北工业大学;2005年
10 景越峰;基于CCG的闪光照相图像重建研究[D];中国工程物理研究院;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026