收藏本站
《山东师范大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于流形学习的数据约简方法研究与应用

闫志敏  
【摘要】:随着信息化技术的不断发展,在大量的科学研究中,有时会遇到具有高维特性的数据集,数据的高维特性为获取数据内在规律和结构带来了很大的困难。因此,需要采用适当的数据约简方法对这些数据集进行约简处理。数据约简也被称为维数约简或数据降维,现有的降维方法对于不同的数据集具有不同的处理效果。从数据所呈现的结构出发,基于流形学习的数据约简方法可以分为两大类:线性方法和非线性方法。线性降维方法可以对具有线性结构的数据集或者高斯数据集进行有效的处理,非线性降维方法可以对嵌入在高维空间中的数据进行投影,将其映射到低维空间坐标中,从而可以进一步探索数据的内在几何结构。流形学习将样本集内的数据几何信息通过运用数据分析技术呈现出来,即将高维复杂的数据用简洁的低维结构来表示。流形学习的主要目的是寻求嵌入在高维空间中数据的内在分布规律,目前已成为机器学习等相关领域的研究热点。 本文通过对基于流形学习的数据约简方法进行一定程度的研究,分别从邻域参数的选择、新增数据点的处理方面对流形学习方法进行了研究和详细的阐述,将改进后的方法有效的应用在文本聚类中,并通过实验验证了方法的有效性和可行性。主要工作总结如下: 1.提出了一种判别邻域参数选择合适性的方法。方法采用核主成分分析方法对数据误差进行重构,然后对重构后的数据误差进行聚类,根据聚类的个数判断邻域选择的合适性。之所以采用核主成分分析方法是因为它属于非线性方法,是在主成分分析的基础上产生的,它采用核函数来代替数据向量内积,同时具有主成分分析方法的特性。利用非线性函数把原始数据映射到高维特征空间中进行处理,需要进行内积计算,通过计算原始数据的核函数来代替内积计算,那么相应的计算量就会大大减小。在对误差进行聚类效果的评价方面,采用AIC信息准则对聚类个数进行判断。当数据误差被聚为一类时,则说明所选的邻域参数没有引起误差结构的变化,此时邻域值是合适的;当数据误差的聚类的个数多于一类时,则说明所选的邻域参数导致误差结构发生了严重的变化,此时邻域值是不合适的。 2.探讨了一种新的降维方法。从目前的研究来看,局部切空间排列方法使用比较少,经过分析可知,之所以研究较少是因为该方法在某些情况下存在一些缺陷。比如,在处理样本较大的数据集的时候会出现数据内在结构扭曲或者不完整现象,由此可知局部切空间排列方法对于新增数据样本点的处理并不是很理想。优化的线性判别方法是一种线性降维方法,是将原始线性判别方法中的Fisher准则进行优化,使方法执行起来更加方便。文中将优化的线性判别方法与局部切空间排列方法相结合,利用经过优化的Fisher准则对类内和类间投影矩阵进行求解变形,最后得到数据的最优投影矩阵。通过两种方法的结合,可以有效的对新增数据点进行处理。 3.探讨了基于流形学习的降维方法在文本聚类中的应用。一般情况下,对文本信息的获得是通过将文本中出现的词条信息频率构造成相应的矩阵,这些矩阵呈现高维特性。若想进一步探究文本数据的内在规律,就需要运用适当的降维方法,近年来数据约简技术已经逐步被应用在文本聚类中。文中运用基于优化线性判别的局部切空间排列方法对高维文本数据信息进行降维处理,将低维空间中的局部坐标对齐,进而表示出全局坐标,获取数据的局部邻域和局部切空间向量坐标,通过使局部误差最小化来对齐局部和全局切空间向量坐标。为了得到良好的可视化效果,用k均值方法对处理后的数据进行聚类分析,同时使用熵值对聚类质量进行评价。
【学位授予单位】:山东师范大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP311.13

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 李小丽;薛清福;;几种流形学习算法的比较研究[J];电脑与信息技术;2009年03期
2 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期
3 张振跃,查宏远;线性低秩逼近与非线性降维[J];中国科学(A辑:数学);2005年03期
4 曾宪华;罗四维;;局部保持的流形学习算法对比研究[J];计算机工程与应用;2008年29期
5 王自强;钱旭;孔敏;;流形学习算法综述[J];计算机工程与应用;2008年35期
6 曾宪华;罗四维;;全局保持的流形学习算法对比研究[J];计算机工程与应用;2010年15期
7 邵超;张斌;万春红;;流形学习中邻域大小参数的合适性判定[J];计算机工程与应用;2010年20期
8 王路;王磊;卓晴;王文渊;;基于二维主成分分析的运动目标检测[J];计算机科学;2008年08期
9 高小方;;流形学习方法中的若干问题分析[J];计算机科学;2009年04期
10 刘忠宝;王士同;;一种改进的线性判别分析算法MLDA[J];计算机科学;2010年11期
中国博士学位论文全文数据库 前7条
1 刘小明;数据降维及分类中的流形学习研究[D];浙江大学;2007年
2 孙明明;流形学习理论与算法研究[D];南京理工大学;2007年
3 于雪莲;基于核方法和流形学习的雷达目标距离像识别研究[D];电子科技大学;2008年
4 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
5 曾宪华;流形学习的谱方法相关问题研究[D];北京交通大学;2009年
6 王庆刚;流形学习算法及若干应用研究[D];重庆大学;2009年
7 何力;维数约简中的若干问题[D];复旦大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 赵连伟;罗四维;廖灵芝;田媚;;主曲线构建算法研究[J];北京交通大学学报;2006年02期
2 万春红;邵超;;一种新的基于自组织映射的流形学习算法[J];北京交通大学学报;2009年06期
3 蒋敏;叶龙;;基于流形的图像检索算法的研究[J];中国传媒大学学报(自然科学版);2011年01期
4 黄天羽;李立杰;胡希胜;;基于样本的等距特征映射的行为分析方法[J];北京理工大学学报;2011年05期
5 黄美璇;;基于主题发现的舆情分析系统的设计与实现[J];北京联合大学学报(自然科学版);2012年01期
6 姚劲勃;余宜诚;于卓尔;李惠民;;基于PCA降维协同过滤算法的改进[J];吉林大学学报(信息科学版);2011年05期
7 李喜来;李艾华;白向峰;蔡艳平;牛武泽;;增量式特征基背景模型目标运动检测[J];传感技术学报;2010年09期
8 赵继东;鲁珂;吴跃;;保局投影算法的优化研究[J];电子科技大学学报;2008年05期
9 吴晓婷;马玉梅;;高维数据流形的低维嵌入问题研究[J];大连民族学院学报;2008年05期
10 王一;杨俊安;刘辉;;基于保局判别投影的声目标特征提取算法[J];电路与系统学报;2011年05期
中国重要会议论文全文数据库 前2条
1 董冀媛;穆志纯;欧阳定恒;;基于最大线性片划分的局部切空间排列算法及在多姿态人耳识别中的应用[A];第二十九届中国控制会议论文集[C];2010年
2 董广军;纪松;朱朝杰;;基于局部线性嵌入流形学习的高光谱影像分类技术[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
中国博士学位论文全文数据库 前10条
1 杨树忠;复杂网络中的社团检测问题研究[D];北京交通大学;2009年
2 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
3 符茂胜;局部保持的流形学习理论及其在视觉信息分析中的应用[D];安徽大学;2010年
4 雷迎科;流形学习算法及其应用研究[D];中国科学技术大学;2011年
5 孙曦;基于双目立体视觉的人脸三维重建与识别[D];中国科学技术大学;2011年
6 李伟;复杂网络特征结构的挖掘方法研究[D];南京理工大学;2010年
7 赵才荣;基于图嵌入与视觉注意的特征抽取[D];南京理工大学;2011年
8 严慧;线性特征抽取研究及其在人脸识别中的应用[D];南京理工大学;2011年
9 王广斌;基于流形学习的旋转机械故障诊断方法研究[D];中南大学;2010年
10 肖永良;基于内容的视频检索关键技术研究[D];中南大学;2010年
中国硕士学位论文全文数据库 前10条
1 吴晓婷;基于流形学习的数据降维算法的研究[D];辽宁师范大学;2010年
2 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
3 刘军伟;基于正交变换的时间序列索引[D];大连理工大学;2010年
4 唐科威;基于洛伦兹流形的特征提取算法研究[D];大连理工大学;2010年
5 高知行;基于流形的人脸识别子空间特征提取算法研究[D];辽宁工程技术大学;2010年
6 季浩;非线性系统的规律维及其可视化方法初探[D];合肥工业大学;2010年
7 于天;一种在线动态心电信号聚类分析策略[D];天津理工大学;2010年
8 王慧鑫;基于子空间的人脸特征提取和识别算法研究[D];哈尔滨理工大学;2010年
9 何菲;智能多故障识别方法在过程监控中的应用研究[D];华东理工大学;2011年
10 贾晓哲;实用约束主曲线算法研究及应用[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 阳建宏,徐金梧,杨德斌,吕勇;基于相重构和主流形识别的非线性时间序列降噪方法[J];北京科技大学学报;2005年05期
2 薛为民;陆玉昌;;文本挖掘技术研究[J];北京联合大学学报(自然科学版);2005年04期
3 王顺久,张欣莉,丁晶,侯玉;投影寻踪聚类模型及其应用[J];长江科学院院报;2002年06期
4 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
5 李小丽;薛清福;;几种流形学习算法的比较研究[J];电脑与信息技术;2009年03期
6 吴佑寿,丁晓青;树分类器性能分析[J];电子学报;1991年04期
7 高新波,裴继红,谢维信;模糊c-均值聚类算法中加权指数m的研究[J];电子学报;2000年04期
8 黄萱菁,吴立德,郭以昆,刘秉伟;现代汉语熵的计算及语言模型中稀疏事件的概率估计[J];电子学报;2000年08期
9 王守觉;仿生模式识别(拓扑模式识别)——一种模式识别新模型的理论与应用[J];电子学报;2002年10期
10 邵超;黄厚宽;赵连伟;;P-ISOMAP:一种新的对邻域大小不甚敏感的数据可视化算法[J];电子学报;2006年08期
中国博士学位论文全文数据库 前1条
1 谭璐;高维数据的降维理论及应用[D];国防科学技术大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 申爱华,陈燕;一种基于粗糙集的数据约简改进算法[J];大连海事大学学报;2004年01期
2 韩影,王玉敏,王铭伟;基于粗集和格机数据约简的原型系统[J];吉林大学学报(理学版);2003年03期
3 赵连胜,行飞;数据挖掘的任务、对象和方法[J];内蒙古大学学报(自然科学版);2002年02期
4 于海涛;Rough集理论在数据约简中的应用[J];安徽教育学院学报;2004年03期
5 张学明,施法中;基于属性集等价类划分的数据约简[J];北京航空航天大学学报;2001年03期
6 李炜,谢刚,谢克明;一种改进型的粗糙-神经网络PID控制器设计[J];太原理工大学学报;2004年03期
7 胡涛,杨建军,高冠新,赖朝辉;基于ROUGH集理论的装备费用效能评估方法研究[J];科技进步与对策;2005年02期
8 胡波;聚类方法在警报数据分类与约简中的应用[J];泰山学院学报;2003年03期
9 何友全,肖建,黄碧霞,熊启军;用于铁道牵引供电系统故障诊断的数据仓库挖掘技术[J];计算机工程;2004年20期
10 梁铁柱,李建成;入侵检测中的人工智能方法研究[J];计算机工程与科学;2002年04期
中国重要会议论文全文数据库 前10条
1 张建锦;刘小霞;;密度偏差抽样及其在海量数据挖掘中的应用[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
2 左旺孟;朱颢;李乃民;李剑峰;张宏志;;基于流形学习的舌色分析与聚类研究[A];第四次全国中西医结合诊断学术研讨会论文集[C];2010年
3 苏凯敏;韩关德;;中学生学习过程中的心理疲劳现象分析与疏导[A];中国心理卫生协会青少年心理卫生专业委员会第八届全国学术会议论文集[C];2002年
4 秦启康;奚仲廉;;“开潜教育”的心理学研究[A];中国民办教育家优秀论文集[C];2006年
5 陈绍清;;复习课中深入学生学习过程,提高学习结果[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
6 杨丽霞;;重视学生学习物理的过程[A];国家教师科研基金“十一五”成果集(中国名校卷)(五)[C];2009年
7 李权康;陈义明;;“活性评价”在学生学习过程中的应用[A];国家教师科研基金“十一五”成果集(中国名校卷)(三)[C];2009年
8 陈绍清;;复习课中深入学生学习过程,提高学习结果[A];国家教师科研基金十一五阶段性成果集(四川卷)[C];2010年
9 杨丽霞;;重视学生学习物理的过程[A];国家教师科研基金十一五阶段性成果集(四川卷)[C];2010年
10 吕世华;;西北干旱区绿洲-沙漠环流形成机理的数值模拟[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“气候系统与气候变化”分会论文集[C];2003年
中国重要报纸全文数据库 前10条
1 通讯员 黄慧文;吉隆全体党员开展“比学促学”活动[N];日喀则报;2008年
2 冀灵渊 朔城区四中;为学生创设快乐的学习情境[N];朔州日报;2010年
3 姜堰市东桥中心小学 杨爱军;在课文课堂中渗透心理教育[N];成才导报.教育周刊;2005年
4 师炜;西安学习经验可全省推广[N];西安日报;2003年
5 民乐县逸夫小学 宋晓华;用爱心培养学生主动学习的兴趣[N];张掖日报;2005年
6 山东省临沭县白旄中学 张秀伟;如何培养中学生学习历史的习惯[N];学知报;2011年
7 本报记者 靳晓燕;哦,学习是能倒着来的[N];光明日报;2011年
8 剑河民族中学 刘明;刍议性格与学习的关系[N];贵州民族报;2011年
9 郭佳 编译;21世纪的学习什么样[N];中国教师报;2011年
10 李林 余承武;努力把基层学习抓实抓深[N];战士报;2011年
中国博士学位论文全文数据库 前10条
1 王勇;基于流形学习的分类与聚类方法及其应用研究[D];国防科学技术大学;2011年
2 王广斌;基于流形学习的旋转机械故障诊断方法研究[D];中南大学;2010年
3 蔡伯根;低成本列控系统的列车组合定位理论与方法[D];北京交通大学;2010年
4 赵辉;基于平衡流形展开模型的航空发动机非线性控制方法研究[D];哈尔滨工业大学;2011年
5 傅明;基于Web的空间数据挖掘研究[D];中南大学;2004年
6 周琰;大学生认识信念研究[D];南京师范大学;2011年
7 刘向阳;多流形数据建模及其应用[D];上海交通大学;2011年
8 张守志;Rough集中若干问题的研究[D];复旦大学;2004年
9 戴敏;流形间有界失真映射和调和映射的研究[D];浙江大学;2009年
10 罗磊;基于流形学习的毫米波探测器目标识别方法研究[D];南京理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 闫志敏;基于流形学习的数据约简方法研究与应用[D];山东师范大学;2012年
2 李昱;半监督流形学习算法研究和应用[D];西安电子科技大学;2010年
3 王晓丹;主流形学习及应用[D];复旦大学;2011年
4 陆阳;基于流形学习的压缩传感重构问题研究[D];燕山大学;2012年
5 宋雪飞;基于粗集理论值约简的数据挖掘系统[D];长春理工大学;2002年
6 常海欣;基于Rough集理论的板材成形智能化控制神经网络识别模型研究[D];燕山大学;2004年
7 李祥亮;一种基于张量场的数据约简方法及应用研究[D];苏州大学;2009年
8 谭立国;半监督流形学习理论与应用研究[D];哈尔滨工业大学;2011年
9 卢小甫;切丛流形学习算法及其应用研究[D];苏州大学;2010年
10 何建军;基于粗糙集理论的粮食经营信息挖掘模型研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026