收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

大规模数据集下核方法的技术研究

史卫亚  
【摘要】: 主成分分析(Principal Component Analysis)是一种用于特征提取和降维的线性方法,它一般使用具有较大方差的维作为主成分而忽略方差小的维,从而将数据映射到低维的子空间中提取线性特征。但是当数据是线性不可分的情况下,该方法不能很好地提取判别特征,通常使用核方法把数据映射到高维特征空间进行主成分的运算,即核主成分分析(Kernel Principal Component Analysis),该过程不需要显式地知道映射函数,而是利用核技巧实现,提取的非线性特征被成功应用于图像处理等任务中。在核主成分计算过程中,需要储存全部数据集生成的核矩阵,该矩阵是通过核函数计算数据之间的内积而得到的,矩阵的大小随着数据集样本数目m变化而变化,空间复杂度为O(m~2),而对核矩阵进行特征分解的时间复杂度为O(m~3)。在大规模数据集的情况下,由于内存容量的限制,在一般计算机上对核矩阵的存储和计算都是困难的,应寻找可行的解决方法。 在深入研究模式分析中核方法相关技术的基础上,本文针对大规模数据集问题,探讨了已有解决方法的实质以及相互之间的关系,提出了三种有效的求解核主成分的方法,具体内容包括: ●使用incomplete Cholesky分解将核矩阵转化为两个互为转置的三角矩阵,三角矩阵的每一列可以看作为特征空间特殊的“输入样本”,将这些样本输入到主成分分析的迭代算法中,经过若干次迭代后,就可以计算出核主成分。该方法不需要对核矩阵进行特征分解,其空间和时间复杂度分别为O(nm)和O(nm)+O(nkp),其中n,k,m,p分别为核矩阵的秩、需提取的主成分数、样本数以及迭代次数。在大规模数据集的情况下,核矩阵的秩和要提取的主成分数通常远小于样本数,因此空间和时间复杂度都有较大程度的降低。 ●利用核矩阵的对称性质,基于初始核矩阵创建一个新的Gram-power矩阵,因为新矩阵和原核矩阵具有有相同的特征向量,可以计算Gram-Power矩阵的特征向量来代替核矩阵的特征分解,把核矩阵的每一列看成是迭代主成分分析算法的“输入样本”,经过若干次迭代后,可以很容易的求出核主成分,并且算法的空间复杂度从O(m~2)减少到O(m)。 ●提出了一个基于矩阵的核主成分分析(Matrix-based Kernel PrincipalComponent Analysis)方法,该方法首先将大规模数据集等分成许多小的数据子集,每个数据子集的自相关矩阵可以看成是核空间的“特殊样本”,用一个基于矩阵的创新核函数来计算数据子集之间的内积。由于子集的数量远小于数据集样本的数目,因此较大程度地降低核矩阵的大小,提出的方法和KPCA的实现过程几乎完全一样,并且自相关矩阵含有每个子集的高阶统计信息,有助于性能的改善。 通过在人工合成的数据集以及真实的数据上进行实验,验证了大规模数据集的情况下所提出算法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陆辉;万燕;姚砺;;核主成分分析在异型纤维识别中的应用[J];计算机与信息技术;2009年03期
2 韦振中;;基于核主成分分析的特征提取方法[J];广西工学院学报;2006年04期
3 傅向华,冯博琴,马兆丰,韩冰;基于核方法的Web挖掘研究[J];小型微型计算机系统;2005年05期
4 冯兴杰;冯小荣;王艳华;;基于核函数的PCA在QAR数据分析中的应用[J];计算机工程与应用;2009年14期
5 史卫亚;郭跃飞;薛向阳;;一种解决大规模数据集问题的核主成分分析算法[J];软件学报;2009年08期
6 郭雷;肖怀铁;付强;;目标识别中特征空间核矩阵收缩方法[J];自然科学进展;2008年12期
7 邓貌;鲁华祥;金小贤;;基于特征分析的粒子群优化聚类算法[J];计算机工程;2010年08期
8 杨绍华;;一种基于核主成分分析的人脸识别方法[J];河北科技师范学院学报;2008年03期
9 杨绍华;林盘;潘晨;;利用小波变换提高基于KPCA方法的人脸识别性能[J];山东大学学报(理学版);2007年09期
10 刘旭;许宗泽;;应用Khatri-Rao积分解的DS-CDMA盲多用户检测[J];电子科技大学学报;2011年01期
11 夏国恩;;基于核主成分分析特征提取的客户流失预测[J];计算机应用;2008年01期
12 孙永军;田斌;易克初;;无平方根运算的正交分解非线性窄带干扰抑制[J];北京邮电大学学报;2009年01期
13 徐洪章;牛小梅;廖海斌;;一种互信息梯度不变的非线性特征提取方法[J];计算机应用研究;2010年12期
14 吴燕茹;程咏梅;赵永强;高仕博;;基于核Rayleigh商二次相关滤波器的红外目标检测[J];红外与毫米波学报;2011年02期
15 包潘晴;杨明福;;基于KPCA和SVM的网络入侵检测[J];计算机应用与软件;2006年02期
16 张明慧;卢振泰;肖烈红;;基于核方法的图像快速加密算法[J];电路与系统学报;2010年03期
17 贲晛烨;王科俊;刘海洋;;核方法的对比研究及在步态识别中的应用[J];智能系统学报;2011年01期
18 徐春明;乐晓蓉;王正群;;一种基于核主成分特征组合的人脸识别方法[J];计算机工程与应用;2006年03期
19 饶秀琪;张国基;;基于KPCA的决策树方法及其应用[J];计算机工程与设计;2007年07期
20 吴洪艳;黄道平;;基于特征向量提取的核主元分析法[J];计算机科学;2009年07期
中国重要会议论文全文数据库 前10条
1 熊伟;万忠宏;张红英;幸华刚;;基于聚类的核主成分分析方法在地震属性降维中的应用[A];中国地球物理学会第二十七届年会论文集[C];2011年
2 秦建玲;李军;;基于核的主成分分析的特征提取方法与样本筛选[A];2005年中国机械工程学会年会论文集[C];2005年
3 王春江;王人鹏;钱若军;王颖;;矩阵分解技术在体系性态综合分析中的初步应用[A];“力学2000”学术大会论文集[C];2000年
4 龙飞;庄镇泉;;基于广义鉴别分析理论的人脸识别算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 王春江;钱若军;王人鹏;杨联萍;;矩阵分解在张力集成体系模态分析中的应用[A];第九届全国结构工程学术会议论文集第Ⅰ卷[C];2000年
6 彭真明;刘克文;唐其森;;地震记录中的非线性特征分析[A];2000年中国地球物理学会年刊——中国地球物理学会第十六届年会论文集[C];2000年
7 丁烽;杜栓平;宫先仪;;目标辐射噪声的非线性特征分析[A];中国声学学会2001年青年学术会议[CYCA'01]论文集[C];2001年
8 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年
9 徐扬;陈实;田玉敏;;基于核主成分分析的步态识别[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
10 李方洁;曾辉;白净;杨新春;郭小玉;乔益玲;;心脏节律非线性特征与冠心病虚实证候相关性研究[A];中华中医药学会心病分会第十次全国中医心病学术年会暨吉林省中医药学会心病第二次学术会议论文精选[C];2008年
中国博士学位论文全文数据库 前10条
1 史卫亚;大规模数据集下核方法的技术研究[D];复旦大学;2008年
2 贾磊;核方法模型选择与模型组合的谱方法[D];天津大学;2010年
3 刘松华;核矩阵低秩分解与核空间信息能度量研究及应用[D];西安电子科技大学;2011年
4 蒋玲莉;基于核方法的旋转机械故障诊断技术与模式分析方法研究[D];中南大学;2010年
5 吴树林;分裂——迭代算法的理论分析及应用[D];华中科技大学;2010年
6 蒋金山;图像模式分类与检索[D];华南理工大学;2004年
7 陈才扣;基于核的非线性特征抽取与图象识别研究[D];南京理工大学;2004年
8 王建国;特征抽取方法研究及其在人脸识别中的应用[D];南京理工大学;2008年
9 武文佳;边值问题的四阶紧有限差分方法及单调迭代算法[D];华东师范大学;2012年
10 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
中国硕士学位论文全文数据库 前10条
1 何孔新;面向数据流的数据聚类算法研究[D];哈尔滨工程大学;2008年
2 贾亚琼;基于核主成分分析的图像降噪方法研究[D];华南理工大学;2010年
3 高海燕;拟变分和似变分不等式的迭代算法的收敛性[D];辽宁师范大学;2006年
4 聂圣峰;高带宽利用率OFDM系统研究[D];哈尔滨工程大学;2005年
5 莫会云;三维锥束迭代算法的投影矩阵及去伪研究[D];中北大学;2008年
6 白小红;变分迭代算法在双比例延迟微分方程中的应用[D];长沙理工大学;2010年
7 王骐;博弈树搜索算法的研究及改进[D];浙江大学;2006年
8 李志勇;基于成分分析增量学习算法的人脸识别研究[D];浙江师范大学;2008年
9 王璐瑶;求解大型稀疏线性方程组的一类预处理子的构造及其应用[D];华东师范大学;2009年
10 陈蕾;基于小世界体系的核自联想记忆框架及其应用研究[D];南京航空航天大学;2005年
中国重要报纸全文数据库 前10条
1 赵辉 傅绍权;重视非线性特征的线性表现[N];中国国防报;2010年
2 车先明 朱小宁;以理论的突破性创新推动军队跨越式发展[N];解放军报;2005年
3 沈雪勇 魏建子 张一和;人体穴位伏安特性研究新发现[N];中国医药报;2006年
4 宝胜;科技创新的系统性特征[N];辽宁日报;2008年
5 齐玄江;花别人的钱也要心疼[N];中国财经报;2004年
6 齐绍洲 武汉大学经济与管理学院世界经济系、武汉大学欧洲问题研究中心 李锴 武汉大学经济与管理学院世界经济系;高增长并不必然伴随高能耗[N];中国社会科学报;2010年
7 ;“孤子”在光传输中的角色[N];计算机世界;2002年
8 施龙青;预防中国煤矿水害事故的建议[N];大众科技报;2008年
9 郭昌盛;年报财务指标如何影响股价?[N];中国证券报;2003年
10 山东省莱州市教研室教科所 彭慧;以“过程增值”评价教师教学成绩[N];中国教育报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978