收藏本站
《天津大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

非线性维数约减的研究及其应用

余从津  
【摘要】:目前人类社会日益深入到信息时代,在进行科学研究的过程中,不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布、文本聚类和文本分类中的词频等,所以经常会面临维数约减的问题, 维数约减的目的是找出隐藏在高维数据中的低维结构。 对维数约减的研究是机器学习的重要主题,维数约减较中肯地把握了人类的归纳学习和抽象思维过程的形式特征。 维数约减算法大致可以分为两类,一类是线性的方法:如主成分分析法(PCA)和经典多维尺度算法(CMDS),另一类是非线性的方法:如等距映射法(Isomap)、局域线性嵌入法(LLE)和自组织等距嵌入法(SIE)等。 本文首先对几种维数约减算法进行了研究和分析。经典的维数约减算法,如PCA和CMDS,实现简单,可以确保发现处于高维向量空间的线性子空间上的数据集的真实几何结构。但是这类算法的线性本质使其无法揭示复杂的非线性流形。为此,许多非线性维数约减算法相继提出。Isomap是一种全局优化算法,该算法建立在经典多维尺度算法 CMDS基础之上,试图保持数据间内在的几何特性,即保持数据点之间的测地线距离;LLE是一种无监督的学习算法,揭示非线性流形的全局结构。LLE使用一种局域对称和线性重构的方法,将输入空间的点集映射为一个单一低维的全局坐标系,并保持点的邻域关系。SIE则是基于一种几何的观点:一个全局等距的嵌入必然是局域等距的,同样,适当选定一组局域等距约束条件,可以蕴含全局等距;SIE利用点集的距离分布作为等距约束条件,通过适当选取保持局域距离分布的局域等距映象,在概率意义上强迫出全局等距嵌入映象。 为了客观评价各种非线性维数约减算法的重构质量,本文采用仿真数据和真实数据分别用各种维数约减算法进行重构。本文将非线性维数约减的方法引入文本分类,并验证了基于非线性维数约减的文本分类的可用性。仿真实验表明,对于无噪数据集,Isomap和SIE重构质量近似,优于LLE;对于含噪数据集,LLE和Isomap这样的全局非线性嵌入算法,由于噪声导致的伪自由度在整体上扭曲 WP=4 重构流形,导致重构质量的严重下降,而SIE可以有效屏蔽少数噪声点对于重构质量的影响,保持近似优化的重构质量;对于真实数据,对于不同的应用,各个算法的重构质量有很大差异。
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP182

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 杜家杰;段会川;;混合值差度量在MDS算法中的应用[J];计算机工程与应用;2011年34期
2 刘诚;郭科;;基于模式识别的非线性地震资料解释方法[J];物探化探计算技术;2008年01期
【参考文献】
中国期刊全文数据库 前6条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
3 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
4 侯越先,丁峥,何丕廉;基于自组织的鲁棒非线性维数约减算法[J];计算机研究与发展;2005年02期
5 陈小前,罗世彬,王振国,陶玉静;BP神经网络应用中的前后处理过程研究[J];系统工程理论与实践;2002年01期
6 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
【共引文献】
中国期刊全文数据库 前10条
1 单方,陈璞;注塑机锁模机构CAD的研究与开发[J];工程塑料应用;2001年09期
2 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
3 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
4 田晓艳;;计算智能主要算法研究[J];安防科技;2009年12期
5 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
6 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
7 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
8 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
9 马丽丽;贺超兴;纪建伟;张志斌;;基于BP神经网络番茄果实横纵径生长的建模研究[J];安徽农业科学;2008年06期
10 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
【同被引文献】
中国期刊全文数据库 前10条
1 邓星亮,吴清;LLE算法及其应用[J];兵工自动化;2005年03期
2 尹宝才,苏世前;人脸图像检索系统的设计[J];北京工业大学学报;2005年04期
3 刘淑梅,许南山,山岚,赵恒永;乙苯/ 苯乙烯精馏塔在线模拟与优化操作系统[J];北京化工大学学报(自然科学版);1999年03期
4 田兆东;张育林;;自适应局部线性嵌入算法[J];电脑编程技巧与维护;2010年06期
5 张博;;基于2DLDA的人脸识别快速算法的研究[J];电脑知识与技术;2009年01期
6 刘中华;周静波;陈燚;金忠;;距离保持投影非线性降维技术的可视化与分类[J];电子学报;2009年08期
7 刘天桢,童恒庆;基于投影寻踪和聚类分析的多维数据可视化[J];福建电脑;2005年08期
8 邹凌,朱善安,张迎春;关于脑电偶极子源定位问题[J];国外医学.生物医学工程分册;2003年03期
9 罗昊,孟传良;基于特征脸和LDA的人脸识别[J];贵州工业大学学报(自然科学版);2005年01期
10 陆恩锡,张慧娟,尹清华;化工过程模拟及相关高新技术 (Ⅰ)化工过程稳态模拟[J];化工进展;1999年04期
【二级引证文献】
中国期刊全文数据库 前1条
1 杨圳;李蓉艳;岳继光;萧蕴诗;;高阶交错网格有限差分法的地震波场数值模拟[J];北京交通大学学报;2012年05期
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 沈学华,周志华,吴建鑫,陈兆乾;Boosting和Bagging综述[J];计算机工程与应用;2000年12期
4 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
5 王实;高文;;增强型朴素贝叶斯学习[J];计算机科学;2000年04期
6 孙茂松,左正平,邹嘉彦;基于k-近似的汉语词类自动判定[J];计算机学报;2000年02期
7 蒋灵,何小荣;BP神经网络的置信度分析[J];计算机与应用化学;1999年03期
8 杨清,杨岳湘,瞿国平;智能文本分类系统的研究与设计[J];计算机应用研究;1999年10期
9 黄萱菁,吴立德,石崎洋之,徐国伟;独立于语种的文本分类方法[J];中文信息学报;2000年06期
10 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
【相似文献】
中国期刊全文数据库 前10条
1 郑海,林鸿飞;基于段落匹配的文本分类机制[J];计算机工程与应用;2004年28期
2 王丁,运海红,张辉;文本自动分类系统的研究与实现[J];信息技术;2005年03期
3 杜志文;曾文华;;网格计算在文本分类中的应用[J];微电子学与计算机;2006年S1期
4 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
5 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
6 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
7 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
8 张桂芸;刘洋;王元元;;基于模糊认知图的文本分类推理算法[J];计算机工程与应用;2007年12期
9 陈莲娜;姚伏天;;用于文本分类的多核SVM算法研究[J];计算机工程;2007年09期
10 王倩倩;段震;张燕平;;基于交叉覆盖算法的文本分类[J];计算机技术与发展;2007年06期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 Joe Black;局域网内搞定装机配置[N];电脑报;2005年
2 李文;局域网间无线连[N];中国计算机报;2004年
3 赵伟 皇燕明;医疗保险局域网的组建[N];电脑报;2001年
4 天津 刘玉莲;如何利用局域网共享资源[N];电脑报;2001年
5 ;保护局域网的安全[N];中国计算机报;2002年
6 ;局域网用户也“嚣张”[N];电脑报;2004年
7 lifen;在局域网内远程控制客户机[N];电脑报;2003年
8 ;福日:突破“局域”限制[N];计算机世界;2002年
9 山东 丁明涛;小型公司办公局域网搭建实例[N];电脑报;2001年
10 郝尚永;共享 局域网资源共享[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
4 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
7 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
10 王瑞东;巴拿赫空间等距及自反空间刻画[D];南开大学;2009年
中国硕士学位论文全文数据库 前10条
1 余从津;非线性维数约减的研究及其应用[D];天津大学;2004年
2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026