收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

自然最近邻居在高维数据结构学习中的应用

邹咸林  
【摘要】:对大规模高维数据结构的分析和研究一直是数据挖掘、机器学习和模式识别等领域中十分重要的研究课题之一,同时也是现代科学技术所必须面对的困难之一。高维数据的结构特征主要包括聚类结构和流形结构,所用到的研究方法涉及到了多个数学分支,如多元分析、非线性泛函分析及统计等,寻找简单而有效的方法是人们一直追求的目标。因此对高维数据结构的学习具有十分重要的价值。 本文提出了一种新的最近邻居概念,自然最近邻居(Natural Nearest Neighbor : 3N),它是一种无尺度(scale-free)的最近邻居,其核心的思想是最离群的数据对象只有一个最近邻居或者说具有最低的能量,而稠密的对象有较多的邻居或较高的能量,而且,自然最近邻居的计算过程可以自动地实现,这是本文的主要贡献和创新。由自然最近邻居可以自动地形成一种自适应的数据最近邻域图或数据网络,借助复杂网络的概念,这也是一种无标度(scale-free)的网络,这种邻域图或网络可以很好地表示数据对象之间的关联关系,能够明显地给出各个数据对象的密度信息。自然最近邻居的形成机制,能够有效地降低跨边界寻找最近邻居的风险,因而可保持具有聚类结构的数据的凝聚状态,自然地展示出聚类数据的基础结构(infrastructure),为后续的聚类和流形结构分析提供一个稀疏和无参数的基础图模型。将这种自适应邻域图用于流形学习算法,如Isomap、LLE、HLLE、LTSA等,可得到相应的无自由参数的自适应流形学习算法,避免了传统流形学习算法中关于邻域参数的选择问题,原因在于由自然最近邻居所形成的邻域图能很好地逼近低维嵌入的数据流形。这为机器学习领域中的两大热点问题之一的维数约简(Dimensionality Reduction)方法提供了一个新的视角。 本文还研究了离群数据对象的特征子空间结构与聚类特征子空间结构之间的关系,还提供了一种从邻居的角度来观察离群对象的行为。 本文的主要创新和贡献包括如下几个方面。 (1)提出了自然最近邻居(3N)的概念,并提供了一个十分简单的计算方法。在标准分布(均匀分布、正态分布)及规则数据集上验证了这种邻居概念的合理性。与k-最近邻居和ε-最近邻居相比含有更丰富的信息:如密度、离群信息以及结构逼近等。从自然最近邻居数目的分布(直方图)可以观察数据集的分布状态,这种分布与数据集的高维特性无关。 (2)将自适应邻域图用于代表性的流形学习算法:如全局结构流形学习算法Isomap和局部结构流形学习算法LLE、HLLE及LTSA等算法,提出了无自由参数的自适应流形学习算法3N-Isomap、3N-LLE及3N-LTSA等,同时解决了近十年来流形学习算法中关于如何选择自由参数的问题。使任何人都可使用这批算法来观察自已领域范围内的数据,而不受困扰。在三个实际问题中应用了3N-Isomap算法,并提出了自动多流形学习算法、大规模流形学习算法(由一个通用的简单随机采样算法实现)及同质数据复杂性分析方法。 (3)将自适应邻域图用于谱图聚类算法,如MNcut算法,提出了一个改进的算法3N-MNcut,其性能优于原聚类算法。 (4)提出了离群点的特征子空间结构与聚类的特征子空间结构具有相同的特征依赖,即都依赖于最大特征值及相应的特征子空间。提出了一个新的离群指数,可以观察离群点的动态行为。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张旻;张铃;;基于构造性覆盖算法的离群数据挖掘研究[J];计算机科学;2005年04期
2 张净;孙志挥;;GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J];东南大学学报(自然科学版);2005年06期
3 王靖;;基于重构权的离群点检测方法[J];软件学报;2011年07期
4 曹洪其;孙志挥;;基于网格技术的高维大数据集离群点挖掘算法[J];计算机应用;2007年10期
5 周霆;张伟;张泽洪;;基于关联规则的映射聚类算法[J];微电子学与计算机;2006年03期
6 王宝文;阎俊梅;刘文远;石岩;;基于遗传算法的高维数据模糊聚类[J];计算机工程与应用;2007年16期
7 谢枫平;;聚类分析中的高维数据降维方法研究[J];闽西职业技术学院学报;2009年04期
8 贺玲;蔡益朝;杨征;;高维数据聚类方法综述[J];计算机应用研究;2010年01期
9 牛琨;张舒博;陈俊亮;;采用属性聚类的高维子空间聚类算法[J];北京邮电大学学报;2007年03期
10 沈萍;;高维数据挖掘技术研究[J];电脑知识与技术;2009年06期
11 张宁;;离群点检测算法研究[J];桂林电子科技大学学报;2009年01期
12 胡昭华;宋耀良;吴佑林;;新的连续自编码网络流形学习研究[J];计算机工程与应用;2009年30期
13 关庆;邓赵红;王士同;;子空间可能性聚类机制研究[J];计算机工程;2011年05期
14 刘文远;张亮;孙德杰;陈子军;;改进的SOD孤立点检测算法[J];计算机工程;2011年09期
15 余肖生;周宁;;高维数据降维方法研究[J];情报科学;2007年08期
16 姜斌;潘景昌;郭强;衣振萍;;PCA和相融性度量在聚类算法中的应用[J];电子科技大学学报;2007年06期
17 顾冬娟;戴浩;;改进的基于密度和网格的高维聚类算法[J];科技创新导报;2008年22期
18 黄斯达;陈启买;;一种基于相似性度量的高维数据聚类算法的研究[J];计算机应用与软件;2009年09期
19 吴晓燕;;基于遗传模拟退火算法的高维离群点挖掘[J];微计算机信息;2010年21期
20 陈海宇;曾德胜;;基于日志的异常软件使用模式检测[J];淮海工学院学报(自然科学版);2011年01期
中国重要会议论文全文数据库 前10条
1 任家东;周玮玮;何海涛;;高维数据流的自适应子空间聚类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
2 周煜人;彭辉;桂卫华;;基于映射的高维数据聚类方法[A];04'中国企业自动化和信息化建设论坛暨中南六省区自动化学会学术年会专辑[C];2004年
3 张锋;常会友;;茫然第三方支持的隐私保持离群点探测协议[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 刘文远;李振平;王宝文;裴继辉;;一种多维数据的离群点检测算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
5 陈冠华;马秀莉;杨冬青;唐世渭;帅猛;;面向高维数据的低冗余Top-k异常点发现方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
6 梁俊杰;杨泽新;冯玉才;;大规模高维数据库索引结构[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
7 连凤娜;吴锦林;薛永生;;一种改进的基于距离的离群挖掘算法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
8 王公恕;刘喜兰;袁拓;冯雯;朱成熹;冯德益;;投影寻踪软件PPAS及其在地震预报中的应用[A];1993年中国地球物理学会第九届学术年会论文集[C];1993年
9 汤天亮;张晓龙;陈珂;陈刚;;一种高效的P2P环境中的窗口查询算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 丁琳琳;乔百友;王国仁;陈忱;;SMR:一种支持高维数据KNN查询的P2P语义覆盖网络[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 邹咸林;自然最近邻居在高维数据结构学习中的应用[D];重庆大学;2011年
2 杨鹏;离群检测及其优化算法研究[D];重庆大学;2010年
3 雷大江;离群检测与离群释义算法研究[D];重庆大学;2012年
4 林海;离群检测及离群释义空间查找算法研究[D];重庆大学;2012年
5 杨茂林;离群检测算法研究[D];华中科技大学;2012年
6 陈建娇;高维数据的K-harmonic Means聚类方法及其应用研究[D];上海大学;2012年
7 陈黎飞;高维数据的聚类方法研究与应用[D];厦门大学;2008年
8 蒋胜利;高维数据的特征选择与特征提取研究[D];西安电子科技大学;2011年
9 项燕彪;高维数据的统计推断[D];浙江大学;2011年
10 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 侯天子;互联网质量异常挖掘[D];西南交通大学;2011年
2 王立强;基于多元统计图的高维数据降维方法及应用研究[D];燕山大学;2006年
3 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
4 刘建;高维数据的本征维数估计方法研究[D];国防科学技术大学;2005年
5 闫妍;子空间聚类改进方法研究[D];大连理工大学;2008年
6 周骋;基于高维数据的双聚类算法研究与应用[D];南京理工大学;2009年
7 张远方;基于密度的局部离群点挖掘算法研究[D];广西大学;2011年
8 苏进;一种分层聚类模型及其在电信行业的应用研究[D];合肥工业大学;2005年
9 吴俊杰;基于密度的子空间聚类算法研究[D];厦门大学;2009年
10 周书勇;高维孤立点检测算法研究[D];江苏大学;2007年
中国重要报纸全文数据库 前4条
1 ;基于生物信息学的中医证候现代研究简述[N];中国中医药报;2004年
2 记者 胡嫚;我国发布首个推荐引擎技术[N];中国知识产权报;2011年
3 本报实习记者 姚轩杰;浪淘金发布“推荐引擎”[N];中国证券报;2011年
4 记者 陈静;推荐引擎抢占行业先机[N];经济日报;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978