收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于等距特征映射的非线性降维及其应用研究

石洁  
【摘要】:随着大数据时代的到来,海量信息给我们的生活带来更多机遇的同时也带来了新的挑战。海量数据通常具有很高的维度,使得很多传统的数据分析方法无法直接对这些数据进行处理,这就是著名的"维数灾难",是21世纪数据分析面临的巨大挑战。数据降维作为解决"维数灾难"的重要工具,一直是机器学习、人工智能以及数据挖掘等领域的研究热点。然而传统线性降维算法的全局线性假设己经不能适应海量高维数据日益复杂的非线性结构,因此非线性降维方法成为了新的研究热点,其中流形学习的发展最为引人关注。以等距特征映射(Isometric Feature Mapping,ISOMAP)和局部线性嵌入(Locally Linear Embedding,LLE)为代表的流形学习算法以其简单直观的几何特性和完善的理论已经被成功地应用到不同的领域。但是目前基于流形学习的降维算法的研究中依然存在一些问题,例如计算复杂度问题、参数选择问题以及鲁棒性问题。以此为出发点,本论文围绕流形学习算法,特别是地标等距特征映射(Landmark-ISOMAP,L-ISOMAP)算法中存在的一些问题,进行了深入的探讨和研究,针对每一类问题提出了相应的解决方法,并且在人造标准数据集和真实数据集上对所提方法的有效性和可行性进行了验证。本文的主要工作和贡献如下:1.针对L-ISOMAP算法中的landmark点选择问题,提出了两种自适应的landmark点选择方法。第一种方法先采取贪婪策略得到邻域图的一个子覆盖,产生landmark候选点,然后从中挑选出互不相邻的点作为landmark点。第二种方法基于图论中的图顶点染色思想,采用Welsh-Powell算法对邻域图的顶点染色,然后利用Welsh-Powell染色定理选择其中的一个颜色划分中的点作为landmark点。在标准测试数据集和真实数据集上的仿真实验表明L-ISOMAP采用这两种方法所选取的landmark点都可以得到理想的低维嵌入结果。通过比较,第一种方法在计算准确性上要优于第二种方法;但是当遇到大规模数据集的时候,第二种方法具有更高的计算效率。在实际应用中,可以根据应用的场景和需求选取合适的方法。2.针对L-ISOMAP算法的鲁棒性问题,提出了两种消除"短路边"的方法。第一种方法基于计算最短路径时采用的Dijkstra算法的贪婪特性定义"边流量",通过选取"测试路径",实现对"边流量"的快速计算并且以此作为判断一条边是否为"短路边"的重要依据;第二种方法基于"短路边"的定义和流形的局部线性性质,以概率统计中的多维核密度估计函数为工具,分别计算流形上点的局部密度和边的区域密度,并且以此作为判断"短路边"的依据。通过大量在不同数据集上的仿真实验,验证了本文所提的两种方法可以准确地找出邻域图中的"短路边"并且将其从邻域图中删除,大大提高了 L-ISOMAP算法的鲁棒性。3.针对因特网流量矩阵数据的高维特性,利用改进的L-ISOMAP算法对因特网流量矩阵进行降维,分析流量矩阵的低维流形结构。首先对真实的网络流量数据进行流量矩阵建模,然后利用改进的L-ISOMAP算法对其进行降维,通过分析低维嵌入产生的"残差"曲线,证实了高维因特网流量矩阵的确具有低维特性。最后将流量矩阵数据投影到三维和二维空间中,分析了不同流量矩阵数据的低维非线性结构,为从全网络的视角分析因特网数据流量特征提供了一种新的思路和解决方案。
【关键词】:非线性降维 流形学习 L-ISOMAP 鲁棒性 landmark点选择
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP181
【目录】:
  • 摘要5-7
  • ABSTRACT7-17
  • 第一章 绪论17-29
  • 1.1 研究背景17-18
  • 1.2 线性降维的不足18-20
  • 1.3 研究现状20-25
  • 1.4 本文的主要工作25-26
  • 1.5 本文的组织结构26-29
  • 第二章 经典流形学习算法29-49
  • 2.1 数学基础29-31
  • 2.2 算法介绍31-46
  • 2.2.1 全局特征保持算法31-36
  • 2.2.2 局部特征保持算法36-46
  • 2.3 流形学习存在的问题46-48
  • 2.4 本章小结48-49
  • 第三章 L-ISOMAP的Landmark点选择49-69
  • 3.1 引言49-50
  • 3.2 基于邻域图优化的landmark点选择50-61
  • 3.2.1 选择landmark候选点51-52
  • 3.2.2 选择landmark点52-53
  • 3.2.3 基于L-MDS的低维嵌入53-54
  • 3.2.4 算法复杂度分析54
  • 3.2.5 实验分析54-61
  • 3.3 基于图顶点染色的landmark点选择61-67
  • 3.3.1 问题建模61-63
  • 3.3.2 图顶点染色算法63-64
  • 3.3.3 基于Welsh-Powell染色算法选取landmark点64-65
  • 3.3.4 实验分析65-67
  • 3.4 本章小结67-69
  • 第四章 "短路边"的消除方法69-91
  • 4.1 引言69-73
  • 4.2 基于"边流量"的"短路边"消除方法73-78
  • 4.2.1 "边流量"的快速计算73-76
  • 4.2.2 实验分析76-78
  • 4.3 基于核密度估计的"短路边"消除方法78-89
  • 4.3.1 基于点局部密度的"短路边"消除方法78-81
  • 4.3.2 基于边区域密度的"短路边"消除方法81-89
  • 4.4 本章小结89-91
  • 第五章 流量矩阵结构分析91-97
  • 5.1 引言91-92
  • 5.2 流量矩阵定义92-93
  • 5.3 流量矩阵分析93-96
  • 5.3.1 流量矩阵的本征维度分析93-95
  • 5.3.2 低维结构分析95-96
  • 5.4 本章小结96-97
  • 第六章 总结与展望97-101
  • 6.1 总结97-98
  • 6.2 展望98-101
  • 参考文献101-111
  • 致谢111-113
  • 在读期间发表的学术论文与取得的研究成果113

【相似文献】
中国期刊全文数据库 前10条
1 Mudasser NASEER;秦世引;;基于非线性降维多项式逻辑斯蒂回归的图像/非图像数据的分类与识别(英文)[J];智能系统学报;2010年01期
2 瞿师;吴玲达;于荣欢;魏迎梅;冯晓萌;;人体运动的非线性降维及新运动生成[J];计算机辅助设计与图形学学报;2011年09期
3 涂腾涛;顾嗣扬;;基于非线性降维的人脸识别新算法[J];计算机应用;2008年08期
4 蒋科辉;王宇东;余红山;;基于局部约束字典学习的非线性降维人脸识别[J];科学技术与工程;2013年35期
5 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[J];微电子学与计算机;2007年10期
6 孟德宇;古楠楠;徐宗本;梁怡;;针对环状流形数据的非线性降维[J];软件学报;2008年11期
7 李德启;刘传领;;一种非线性降维改进算法在图像处理中的应用[J];陕西科技大学学报(自然科学版);2011年01期
8 谭璐,易东云,吴翊,袁伟;基于非线性降维的图像识别[J];计算机工程;2005年13期
9 杨广源;付旭平;黄燕;李瑶;;一种基于非线性降维和Procrustes分析的基因选取方法[J];复旦学报(自然科学版);2009年03期
10 梁淑芬;张志伟;唐红梅;吴涛;;一种应用于人脸识别的非线性降维方法[J];电路与系统学报;2009年04期
中国重要会议论文全文数据库 前5条
1 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
2 吴玲达;瞿师;魏迎梅;于荣欢;冯晓萌;;一种人体运动自动连接方法[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
3 刘翠响;张艳;于明;赵卫萍;;基于非线性降维的人脸图像数据分析[A];2006中国控制与决策学术年会论文集[C];2006年
4 谭璐;易东云;吴翊;袁伟;;基于非线性降维方法的图像识别[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 沈徐辉;罗小平;杜鹏英;;基于模糊的改进KPCA方法[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前1条
1 石洁;基于等距特征映射的非线性降维及其应用研究[D];中国科学技术大学;2017年
中国硕士学位论文全文数据库 前1条
1 李荣灿;基于非线性降维的合成生物元件可视化及其聚类研究[D];合肥工业大学;2016年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026