收藏本站
《华南理工大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于图的半监督算法及其应用研究

蔡先发  
【摘要】:信息技术的迅速发展将人类社会带入大数据时代,人们面临以几何级数快速增长的海量数据。如何从这些海量数据中获取有用的知识是当前及今后相当长时期内全球科研工作者和技术专家所面临的共同挑战之一。此外,越来越多的数据呈现高维的趋势,比如数字图像、语音数据、文本数据以及基因表达谱微阵列数据等,降维技术已成为处理高维数据、克服“维数灾难”的重要途径。传统的维数约减方法虽然能够有效地学习出具有线性结构的高维数据的内在结构,但这类算法的线性本质决定了其不能揭示数据本身的非线性结构,从而不能发现高维数据的内在低维流形结构。为解决这些问题,流形学习则提供了一种有效的思路。然而,在很多实际的机器学习和数据挖掘任务中,人们很容易获得大量未标记数据以及少得可怜的标记数据,这恰好是半监督学习关注的重点:即如何从标记数据以及未标记数据中学习出有用的知识从而来改善学习性能。 尽管以往许多半监督算法在很多实际应用中取得了成功,但也存在诸如邻域个数选择、对噪声、稀疏以及非平衡数据敏感等一系列问题。针对图的构建与优化等问题,本文对半监督降维算法进行了研究,并且在人脸识别、癌症分类等实际应用问题中验证了本文所提出算法的有效性。总的来说,本文主要贡献有: (1)本文提出一种基于局部估计误差的半监督维数约减算法(LEESSDR)。在半监督学习中,图的构建非常重要,然而以往很多半监督维数约减算法构造的邻域图是拓扑不稳定的,对邻域参数选择比较敏感以及对邻域图边权值设定不够准确。由于局部模型只是对特定数据的相邻点进行训练,因而局部学习算法常常超越全局学习算法。正是由于局部学习算法的良好表现,使得某个标签点可以很好地由它们的近邻来估计,因此LEESSDR通过使用局部学习投影(LLP)算法最小化局部估计误差来确定邻域图的边权值,最终有效地保持正负约束信息以及数据集所在低维流形的全局以及局部信息。由于LLP的优点在于该算法并没有要求输入空间局部线性,对于非线性的局部空间,LLP通过核函数将其映射到特征空间,然后在特征空间中求局部估计误差,因而提高了算法的参数鲁棒性。在Extended YaleB和CMU PIE标准人脸库上的实验结果表明LEESSDR算法的分类准确率以及鲁棒性都要优于其它半监督维数约减算法。 (2)本文提出了一种基于随机子空间的局部和全局保持的半监督维数约减算法(RSLGSSDR)。在半监督维数约减算法中,图的构建起着非常重要的作用,然而面临噪声的时候,当前的大部分算法所构造的邻域结构是拓扑不稳定的。RSLGSSDR主要是将随机子空间与半监督维数约减算法结合起来。在数据集的不同的随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构建成一个混合图并且在其上进行维数约减,在保持数据集局部结构的同时能够保持其全局结构。在公共数据集上的实验结果表明RSLGSSDR算法具有较好的分类准确率和参数鲁棒性。 (3)本文提出了一种基于随机子空间的半监督维数约减算法(RSSSDR)。癌症分类对辅助临床决策很有作用,所以其精确的分类对于癌症的成功诊断和治疗是必不可少的。半监督维数约减算法在干净的数据集上表现地很好,然而当面临噪声的时候,当前的大部分算法所构造的邻域结构是拓扑不稳定的。RSSSDR主要是将随机子空间与半监督维数约减算法结合起来。在数据集的不同的随机子空间上,该算法首先设计多个不同的子图,然后将这些子图联合起来构建成一个混合图并且在其上进行维数约减。此外,该算法通过最小化局部重构误差来确定领域图的边权值,在保持癌症数据集局部结构的同时能够保持其全局结构。在公共癌症数据集上的实验结果表明RSSSDR算法具有较好的分类准确率和参数鲁棒性。 (4)首次将认知规律引入到半监督降维技术中来,设计了基于相对认知的半监督维数约减算法(RSSDR)算法。虽然半监督维数约减算法在很多实际应用中表现很好,然而当处理稀疏、噪声和非平衡数据时,它就难于确保构建一个良好的图进而影响了算法的表现。RSSDR根据认知的相对性规律提出了相对变换方法,通过相对变换将数据的原始空间变换到相对空间,在相对的空间中度量数据的相似性更符合人们的直觉,从而提高了数据之间的可区分性,同时在一定条件下相对变换还能抑制噪声的影响。然后,该算法通过最小化局部重构误差来确定邻域图的边权值,最终不仅能保持数据集所在低维流形的全局信息也能保持其局部信息。在人脸、基因表达谱、UCI以及噪声数据集上获得了较其它半监督维数约减算法更优的分类准确率以及鲁棒性。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP18

知网文化
【参考文献】
中国期刊全文数据库 前5条
1 詹德川,周志华;基于集成的流形学习可视化[J];计算机研究与发展;2005年09期
2 文贵华;;面向机器学习的相对变换[J];计算机研究与发展;2008年04期
3 张晨光;李玉鑑;;哈希图半监督学习方法及其在图像分割中的应用[J];自动化学报;2010年11期
4 侯书东;孙权森;;稀疏保持典型相关分析及在特征融合中的应用[J];自动化学报;2012年04期
5 陈伏兵;陈秀宏;张生亮;杨静宇;;基于模块2DPCA的人脸识别方法[J];中国图象图形学报;2006年04期
中国博士学位论文全文数据库 前1条
1 李勇周;人脸识别中基于流形学习的子空间特征提取方法研究[D];中南大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 刘金红;陆余良;施凡;宋舜宏;;基于语义上下文分析的因特网人物信息挖掘[J];安徽大学学报(自然科学版);2009年04期
2 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期
3 陈乐;王年;苏亮亮;王蕊平;;基于邻接谱主分量分析的肿瘤分类方法[J];安徽大学学报(自然科学版);2011年04期
4 叶爱霞;王年;苏亮亮;;基于非负矩阵分解和Normal_Matrix的肿瘤基因分类[J];安徽大学学报(自然科学版);2012年03期
5 牟少敏;田盛丰;尹传环;;基于协同聚类的多核学习[J];北京交通大学学报;2008年02期
6 钟尚平;林静;;一个基于TSVM的GIF图像通用隐写检测方法[J];北京交通大学学报;2009年02期
7 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
8 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
9 刘利;韦佳;马千里;;基于流形学习的图像检索研究进展[J];北京交通大学学报;2010年05期
10 尚坤;李培军;程涛;;基于合成核支持向量机的高光谱土地覆盖分类[J];北京大学学报(自然科学版);2011年01期
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 贲晛烨;基于人体运动分析的步态识别算法研究[D];哈尔滨工程大学;2010年
4 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
5 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
6 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
7 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
8 窦亚玲;基于直觉模糊集的多约束网络路由决策方法研究[D];华中科技大学;2010年
9 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年
10 吕宁;基于数据驱动的故障诊断模型及算法研究[D];哈尔滨理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 吴晓婷;基于流形学习的数据降维算法的研究[D];辽宁师范大学;2010年
3 左国辉;基于子空间方法的人脸识别技术研究[D];哈尔滨工程大学;2009年
4 杨欣颖;潜器光视觉目标识别技术的研究与设计[D];哈尔滨工程大学;2010年
5 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
6 韦哲;基于上下文感知技术的WSN路由协议研究[D];大连理工大学;2010年
7 李静伟;基于共享近邻的自适应谱聚类算法[D];大连理工大学;2010年
8 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
9 李海燕;互信息特征选择的研究及在代谢组学中的应用[D];大连理工大学;2010年
10 桑媛媛;基于非负稀疏表示的文本分类算法研究[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王梓坤;论混沌与随机[J];北京师范大学学报(自然科学版);1994年02期
2 周杰,卢春雨,张长水,李衍达;人脸自动识别方法综述[J];电子学报;2000年04期
3 庞彦伟;俞能海;沈道义;刘政凯;;基于核邻域保持投影的人脸识别[J];电子学报;2006年08期
4 王玲;薄列峰;焦李成;;密度敏感的谱聚类[J];电子学报;2007年08期
5 李德毅;知识表示中的不确定性[J];中国工程科学;2000年10期
6 李德毅,刘常昱;论正态云模型的普适性[J];中国工程科学;2004年08期
7 程永清;庄永明;杨静宇;;基于矩阵相似度的图象特征抽取和识别[J];计算机研究与发展;1992年11期
8 杨健,杨静宇;具有统计不相关性的图像投影鉴别分析及人脸识别[J];计算机研究与发展;2003年03期
9 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期
10 王和勇;郑杰;姚正安;李磊;;基于聚类和改进距离的LLE方法在数据降维中的应用[J];计算机研究与发展;2006年08期
中国博士学位论文全文数据库 前2条
1 李云峰;基于Gabor小波变换的人脸识别[D];大连理工大学;2006年
2 山世光;人脸识别中若干关键问题的研究[D];中国科学院研究生院(计算技术研究所);2004年
【相似文献】
中国期刊全文数据库 前10条
1 姚全珠;田元;王季;杨增辉;张楠;;基于最小二乘支持向量机的非平衡分布数据分类[J];计算机工程与应用;2008年05期
2 王和勇;樊泓坤;姚正安;李成安;;不平衡数据集的分类方法研究[J];计算机应用研究;2008年05期
3 周董;;一种基于机器学习的属性缺失值模糊填补方法[J];计算机与现代化;2008年12期
4 邓甦;付长贺;;四种贝叶斯分类器及其比较[J];沈阳师范大学学报(自然科学版);2008年01期
5 罗芳;李志亮;;基于分类的机器学习方法中的决策树算法[J];宁德师专学报(自然科学版);2009年01期
6 宋顶利;杨炳儒;于复兴;;关键点匹配三维人脸识别方法[J];计算机应用研究;2010年11期
7 何劲松;王煦法;;参数估计决策树算法[J];模式识别与人工智能;2002年03期
8 张艳;兰光华;郁生阳;杨静宇;;一种快速SVM学习算法[J];计算机工程与应用;2006年32期
9 许孝元;韩国强;闵华清;;多步原子规则的大规模关联分类[J];控制理论与应用;2007年03期
10 黄君毅;吴静;张晖;;IP流量分类算法中特征选择作用分析[J];计算机工程;2010年16期
中国重要会议论文全文数据库 前10条
1 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
2 关雪飞;杨军;马小兵;;决策树在航空发动机状态数据分析中的应用[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
3 马永立;寿国础;胡怡红;钱宗珏;区海平;;新型网络流量识别分析系统及其性能评估[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
4 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
8 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
9 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
10 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
2 李宇;上市预披露将成市场常规[N];中国证券报;2008年
3 郭立;荣昌猪实现数字化[N];中国畜牧兽医报;2005年
4 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
5 秦笃烈;解读 中国造女性数字人[N];健康报;2006年
6 李宇;港交所明年试验上市预披露计划[N];中国证券报;2007年
7 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
8 周青 编译;CDP:与快照相得益彰[N];计算机世界;2006年
9 本报记者 周仲全 实习生 蔡为伟;数字虚拟人:为承受人类苦痛而来[N];辽宁日报;2005年
10 本报记者  郝宗强;为社会和谐作贡献[N];人民日报;2006年
中国博士学位论文全文数据库 前10条
1 蔡先发;基于图的半监督算法及其应用研究[D];华南理工大学;2013年
2 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
3 毛慧芸;人脸美丽吸引力的特征分析与机器学习[D];华南理工大学;2011年
4 肖冰;人脸画像—照片的合成与识别方法研究[D];西安电子科技大学;2010年
5 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
6 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
7 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
8 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
9 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
10 孙曦;基于双目立体视觉的人脸三维重建与识别[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄煜斌;基于人脸聚类的视频结构化分析[D];北京邮电大学;2011年
2 王进进;二维和三维人脸融合[D];中国地质大学(北京);2010年
3 李秋实;基于人脸肤色的特征提取[D];吉林大学;2010年
4 马波;基于视频的多视角人脸检测与跟踪[D];上海交通大学;2010年
5 胡虎跃;海量训练数据如何影响人脸检测器性能:实验研究[D];南京航空航天大学;2010年
6 梅俊华;基于Contourlet变换的主成分分析人脸识别算法[D];中南民族大学;2010年
7 沙腾;基于子空间学习的人脸特征分析及应用[D];浙江大学;2011年
8 胡珍珍;基于深度数据的人脸旋转角度估计及三维人脸识别的研究[D];合肥工业大学;2011年
9 孙奇飞;人脸疲劳状态的识别与研究[D];广东工业大学;2011年
10 朱伟;人脸及其特征点的定位与应用[D];上海交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026