收藏本站
《复旦大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

大规模数据集下核方法的技术研究

史卫亚  
【摘要】: 主成分分析(Principal Component Analysis)是一种用于特征提取和降维的线性方法,它一般使用具有较大方差的维作为主成分而忽略方差小的维,从而将数据映射到低维的子空间中提取线性特征。但是当数据是线性不可分的情况下,该方法不能很好地提取判别特征,通常使用核方法把数据映射到高维特征空间进行主成分的运算,即核主成分分析(Kernel Principal Component Analysis),该过程不需要显式地知道映射函数,而是利用核技巧实现,提取的非线性特征被成功应用于图像处理等任务中。在核主成分计算过程中,需要储存全部数据集生成的核矩阵,该矩阵是通过核函数计算数据之间的内积而得到的,矩阵的大小随着数据集样本数目m变化而变化,空间复杂度为O(m~2),而对核矩阵进行特征分解的时间复杂度为O(m~3)。在大规模数据集的情况下,由于内存容量的限制,在一般计算机上对核矩阵的存储和计算都是困难的,应寻找可行的解决方法。 在深入研究模式分析中核方法相关技术的基础上,本文针对大规模数据集问题,探讨了已有解决方法的实质以及相互之间的关系,提出了三种有效的求解核主成分的方法,具体内容包括: ●使用incomplete Cholesky分解将核矩阵转化为两个互为转置的三角矩阵,三角矩阵的每一列可以看作为特征空间特殊的“输入样本”,将这些样本输入到主成分分析的迭代算法中,经过若干次迭代后,就可以计算出核主成分。该方法不需要对核矩阵进行特征分解,其空间和时间复杂度分别为O(nm)和O(nm)+O(nkp),其中n,k,m,p分别为核矩阵的秩、需提取的主成分数、样本数以及迭代次数。在大规模数据集的情况下,核矩阵的秩和要提取的主成分数通常远小于样本数,因此空间和时间复杂度都有较大程度的降低。 ●利用核矩阵的对称性质,基于初始核矩阵创建一个新的Gram-power矩阵,因为新矩阵和原核矩阵具有有相同的特征向量,可以计算Gram-Power矩阵的特征向量来代替核矩阵的特征分解,把核矩阵的每一列看成是迭代主成分分析算法的“输入样本”,经过若干次迭代后,可以很容易的求出核主成分,并且算法的空间复杂度从O(m~2)减少到O(m)。 ●提出了一个基于矩阵的核主成分分析(Matrix-based Kernel PrincipalComponent Analysis)方法,该方法首先将大规模数据集等分成许多小的数据子集,每个数据子集的自相关矩阵可以看成是核空间的“特殊样本”,用一个基于矩阵的创新核函数来计算数据子集之间的内积。由于子集的数量远小于数据集样本的数目,因此较大程度地降低核矩阵的大小,提出的方法和KPCA的实现过程几乎完全一样,并且自相关矩阵含有每个子集的高阶统计信息,有助于性能的改善。 通过在人工合成的数据集以及真实的数据上进行实验,验证了大规模数据集的情况下所提出算法的有效性。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP301

手机知网App
【引证文献】
中国博士学位论文全文数据库 前2条
1 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
2 刘松华;核矩阵低秩分解与核空间信息能度量研究及应用[D];西安电子科技大学;2011年
中国硕士学位论文全文数据库 前1条
1 姜苏迪;核主成分分析在企业经济效益分析中的应用[D];哈尔滨工程大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 孙承毅,王继昌;斜Hermite 阵的一个特征[J];鞍山师范学院学报;1998年02期
7 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
8 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
9 李卓远,吴为民,王旸,洪先龙;一种新的光学临近校正方法(英文)[J];半导体学报;2003年12期
10 王一丁;杨虹;;基于多目标线性规划的人脸识别方法[J];北方工业大学学报;2009年01期
中国重要会议论文全文数据库 前10条
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
3 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
5 ;State Estimation Model of Ferment Process Based on PSO[A];第二十九届中国控制会议论文集[C];2010年
6 常俊林;魏巍;梁君燕;;基于支持向量机的SURF改进算法[A];中国自动化学会控制理论专业委员会C卷[C];2011年
7 ;Research of Intelligent Control Model and System on Traffic Light Time[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 刘友强;李斌;奚宁;陈家骏;;基于双语平行语料的中文缩略语提取方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 陈龙;吴志勇;袁春;蒙美玲;蔡莲红;;面向数字版权管理的声纹辅助认证系统[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
10 颜七笙;;基于PCA-SVM的动态联盟候选伙伴绩效评价方法[A];第十三届中国管理科学学术年会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
3 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
4 绽琨;脉冲发放皮层模型及其应用[D];兰州大学;2010年
5 张昌明;新疆汉族、维吾尔族及哈萨克族食管癌血清蛋白质指纹图谱研究[D];新疆医科大学;2010年
6 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 许伟;基于进化算法的复杂化工过程智能建模方法及其应用[D];华东理工大学;2011年
9 吴锋;基于GPU并行计算的数值模拟与燃煤锅炉系统的优化研究[D];浙江大学;2010年
10 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
3 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
4 刘磊;多泥沙河流水库优化调度研究[D];郑州大学;2010年
5 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
6 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
7 林天威;基于视频流的人脸识别系统研究[D];哈尔滨工程大学;2010年
8 韩艳;基于支持向量机的发酵过程建模研究[D];大连理工大学;2010年
9 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
10 梁怀志;基于嵌入式的车型分类系统的设计与实现[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 郭辉;王玲;刘贺平;;基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题[J];北京科技大学学报;2006年03期
2 周莉莉;浅谈企业经济效益分析[J];经济教育研究;1996年02期
3 伍尤富;刘爱林;;基于KPCA和SVM的虹膜特征提取与识别[J];重庆工学院学报(自然科学版);2009年11期
4 谢海深;刘永新;吕庆;孟军波;;焦炭质量预测模型[J];东北大学学报(自然科学版);2007年03期
5 杨庆新;安金龙;马振平;侯立坤;陈堂功;陈海燕;;基于最小二乘支持向量机和自适应模拟退火算法的电磁场逆问题全局优化方法[J];电工技术学报;2008年11期
6 刘素京;杨琳;王从庆;;基于核主成分分析和支持向量机的飞机舱音信号识别[J];东南大学学报(自然科学版);2008年S2期
7 郭建林;戴国强;;表情识别中支持向量机核函数选取研究[J];电脑知识与技术;2009年20期
8 张鸿宾,孙广煜;近邻法参考样本集的最优选择[J];电子学报;2000年11期
9 杨道军;钱新;钱瑜;张玉超;;核主成分分析法在生态经济可持续发展评价中应用[J];环境科学与技术;2007年12期
10 朱帮助;林健;;区域经济社会发展综合评价与预测[J];辽宁工程技术大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前1条
1 贾传亮;陈安;朱美琳;;地区科技创新能力评价研究[A];2004年中国管理科学学术会议论文集[C];2004年
中国博士学位论文全文数据库 前3条
1 苏时光;谱主成分分析及其在多指标评价体系中的应用[D];中国农业大学;2004年
2 谢永华;人脸特征抽取与分类器设计若干问题的研究[D];南京理工大学;2006年
3 厉小润;模式识别的核方法研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 李乐;人脸识别方法研究[D];天津大学;2005年
2 王辉;基于核主成分分析特征提取及支持向量机的人脸识别应用研究[D];合肥工业大学;2006年
3 焦玥;基于主成分分析的企业物流绩效综合评价方法研究[D];青岛大学;2006年
4 赵歆玉;旅游公路景观环境评价方法研究[D];东北林业大学;2006年
5 徐春明;基于子空间分析的特征抽取及人脸识别技术研究[D];扬州大学;2006年
6 方建斌;基于KPCA的图像匹配算法研究[D];武汉理工大学;2006年
7 时书剑;基于正侧面级联匹配的人脸识别算法研究[D];上海师范大学;2007年
8 马杰;视频人脸检测与识别方法研究[D];湖南大学;2008年
9 王海炳;人脸识别技术研究与实现[D];武汉理工大学;2008年
10 李志梅;基于KPCA-SVM模型的企业员工绩效评价研究[D];五邑大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 杨丽丽;基于人工神经网络的手写数字模式识别和分类[D];中北大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 陆辉;万燕;姚砺;;核主成分分析在异型纤维识别中的应用[J];计算机与信息技术;2009年03期
2 韦振中;;基于核主成分分析的特征提取方法[J];广西工学院学报;2006年04期
3 傅向华,冯博琴,马兆丰,韩冰;基于核方法的Web挖掘研究[J];小型微型计算机系统;2005年05期
4 冯兴杰;冯小荣;王艳华;;基于核函数的PCA在QAR数据分析中的应用[J];计算机工程与应用;2009年14期
5 史卫亚;郭跃飞;薛向阳;;一种解决大规模数据集问题的核主成分分析算法[J];软件学报;2009年08期
6 郭雷;肖怀铁;付强;;目标识别中特征空间核矩阵收缩方法[J];自然科学进展;2008年12期
7 邓貌;鲁华祥;金小贤;;基于特征分析的粒子群优化聚类算法[J];计算机工程;2010年08期
8 杨绍华;;一种基于核主成分分析的人脸识别方法[J];河北科技师范学院学报;2008年03期
9 杨绍华;林盘;潘晨;;利用小波变换提高基于KPCA方法的人脸识别性能[J];山东大学学报(理学版);2007年09期
10 刘旭;许宗泽;;应用Khatri-Rao积分解的DS-CDMA盲多用户检测[J];电子科技大学学报;2011年01期
中国重要会议论文全文数据库 前10条
1 熊伟;万忠宏;张红英;幸华刚;;基于聚类的核主成分分析方法在地震属性降维中的应用[A];中国地球物理学会第二十七届年会论文集[C];2011年
2 秦建玲;李军;;基于核的主成分分析的特征提取方法与样本筛选[A];2005年中国机械工程学会年会论文集[C];2005年
3 王春江;王人鹏;钱若军;王颖;;矩阵分解技术在体系性态综合分析中的初步应用[A];“力学2000”学术大会论文集[C];2000年
4 龙飞;庄镇泉;;基于广义鉴别分析理论的人脸识别算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 王春江;钱若军;王人鹏;杨联萍;;矩阵分解在张力集成体系模态分析中的应用[A];第九届全国结构工程学术会议论文集第Ⅰ卷[C];2000年
6 彭真明;刘克文;唐其森;;地震记录中的非线性特征分析[A];2000年中国地球物理学会年刊——中国地球物理学会第十六届年会论文集[C];2000年
7 丁烽;杜栓平;宫先仪;;目标辐射噪声的非线性特征分析[A];中国声学学会2001年青年学术会议[CYCA'01]论文集[C];2001年
8 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年
9 徐扬;陈实;田玉敏;;基于核主成分分析的步态识别[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 李方洁;曾辉;白净;杨新春;郭小玉;乔益玲;;心脏节律非线性特征与冠心病虚实证候相关性研究[A];中华中医药学会心病分会第十次全国中医心病学术年会暨吉林省中医药学会心病第二次学术会议论文精选[C];2008年
中国重要报纸全文数据库 前10条
1 赵辉 傅绍权;重视非线性特征的线性表现[N];中国国防报;2010年
2 车先明 朱小宁;以理论的突破性创新推动军队跨越式发展[N];解放军报;2005年
3 沈雪勇 魏建子 张一和;人体穴位伏安特性研究新发现[N];中国医药报;2006年
4 宝胜;科技创新的系统性特征[N];辽宁日报;2008年
5 齐玄江;花别人的钱也要心疼[N];中国财经报;2004年
6 齐绍洲 武汉大学经济与管理学院世界经济系、武汉大学欧洲问题研究中心 李锴 武汉大学经济与管理学院世界经济系;高增长并不必然伴随高能耗[N];中国社会科学报;2010年
7 ;“孤子”在光传输中的角色[N];计算机世界;2002年
8 施龙青;预防中国煤矿水害事故的建议[N];大众科技报;2008年
9 郭昌盛;年报财务指标如何影响股价?[N];中国证券报;2003年
10 山东省莱州市教研室教科所 彭慧;以“过程增值”评价教师教学成绩[N];中国教育报;2007年
中国博士学位论文全文数据库 前10条
1 史卫亚;大规模数据集下核方法的技术研究[D];复旦大学;2008年
2 贾磊;核方法模型选择与模型组合的谱方法[D];天津大学;2010年
3 刘松华;核矩阵低秩分解与核空间信息能度量研究及应用[D];西安电子科技大学;2011年
4 蒋玲莉;基于核方法的旋转机械故障诊断技术与模式分析方法研究[D];中南大学;2010年
5 吴树林;分裂——迭代算法的理论分析及应用[D];华中科技大学;2010年
6 蒋金山;图像模式分类与检索[D];华南理工大学;2004年
7 陈才扣;基于核的非线性特征抽取与图象识别研究[D];南京理工大学;2004年
8 王建国;特征抽取方法研究及其在人脸识别中的应用[D];南京理工大学;2008年
9 武文佳;边值问题的四阶紧有限差分方法及单调迭代算法[D];华东师范大学;2012年
10 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
中国硕士学位论文全文数据库 前10条
1 何孔新;面向数据流的数据聚类算法研究[D];哈尔滨工程大学;2008年
2 贾亚琼;基于核主成分分析的图像降噪方法研究[D];华南理工大学;2010年
3 高海燕;拟变分和似变分不等式的迭代算法的收敛性[D];辽宁师范大学;2006年
4 聂圣峰;高带宽利用率OFDM系统研究[D];哈尔滨工程大学;2005年
5 莫会云;三维锥束迭代算法的投影矩阵及去伪研究[D];中北大学;2008年
6 白小红;变分迭代算法在双比例延迟微分方程中的应用[D];长沙理工大学;2010年
7 王骐;博弈树搜索算法的研究及改进[D];浙江大学;2006年
8 李志勇;基于成分分析增量学习算法的人脸识别研究[D];浙江师范大学;2008年
9 王璐瑶;求解大型稀疏线性方程组的一类预处理子的构造及其应用[D];华东师范大学;2009年
10 陈蕾;基于小世界体系的核自联想记忆框架及其应用研究[D];南京航空航天大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026