收藏本站
《北京邮电大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Spark的主成分分析和因子分析并行化的研究与实现

王瑶  
【摘要】:随着科学技术的不断发展,各行各业产生着以往无法想象的海量数据。人们急需从海量数据中得到有用信息。主成分分析和因子分析作为常用的数据降维方式对于从数据中提取有用信息有着非常重要的意义。本文对主成分分析和因子分析的算法进行了研究,并且在Spark平台上实现了这两种算法。本文的主要研究工作如下:(1)实现了基于Hadoop平台的一个数理统计的功能集,该功能集包括了最常用的数理统计功能:常用统计量(包括平均数、方差、众数、中位数等11个统计量)、单变量分析(通过计算一个因变量和多个自变量之间的协方差判断因变量和自变量之间的相关关系)、多变量分析(通过计算多个变量之间的相关系数矩阵来判断变量两两之间的相关关系)、假设检验(包括单变量T检验,成对样本T检验,独立样本T检验)、自助法(对数据进行重抽样,计算抽样样本的均值和方差)。(2)实现了基于Spark的主成分分析和因子分析。本文将分而治之的思想和QR分解应用到主成分分析和因子分析。分而治之的思想就是将“大问题”化成“小问题”,然后利用Spark分布式计算的能力并行解决小问题,尽最大努力节省计算时间。利用QR分解的方法(QR分解是效率最高的矩阵分解)用于分块矩阵特征值求解,提高“小问题”的运算效率。算法结合了分而治之的思想和高效的QR分解算法,并且充分利用了 Spark平台的并行运算能力。最后,本文通过对不同规模的数据集进行实验。实验结果表明,本文提出的并行算法能够提高运算效率。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:O212;TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 范炤;关于主成分分析的一点注记[J];中国卫生统计;2001年06期
2 林和平;杨晨;;模糊主成分分析方法的研究与分析[J];航空计算技术;2006年06期
3 林培龙;;基于主成分分析评价模型的研究与应用[J];信息系统工程;2010年05期
4 张磊;;天津市电子信息产品制造业竞争力分析与评价[J];科技和产业;2011年07期
5 李瑜祥;;主成分分析程序及其应用[J];自动化仪表;1987年04期
6 朱宁;主成分分析在选拔竞赛队员中的应用[J];桂林电子工业学院学报;1999年02期
7 姜春燕;林和平;刘丁慧;付希金;纪永凤;;灰主成分分析研究及其应用[J];吉林大学学报(信息科学版);2007年05期
8 周春生;;主成分分析在大学生成绩影响因素研究中的应用[J];现代计算机;2013年17期
9 顾绍红;王永生;王光霞;;主成分分析模型在数据处理中的应用[J];测绘科学技术学报;2007年05期
10 李雪梅;张素琴;;主成分分析在区域经济分析中的应用[J];计算机工程与应用;2009年19期
中国重要会议论文全文数据库 前10条
1 么彩莲;魏宁;;关于主成分分析的改进方法探讨[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 陈明星;缪柏其;靳韬;;利率影响因素的主成分分析与因子分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 孙晓东;胡劲松;焦玥;;基于主成分分析和灰色关联聚类分析的指标综合方法研究[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
4 林海明;杜子芳;;主成分分析评估指数的构造条件和案例[A];21世纪数量经济学(第13卷)[C];2012年
5 盛子宁;;教师课堂教学质量的主成分分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
6 许咏梅;马兴旺;陈署晃;何生丽;郭海峰;李毳;严莉;李平;蒋文;杨红丽;;基于主成分分析乌鲁木齐无公害蔬菜土壤质量评价[A];中国科协2005年学术年会“新疆现代农业论坛”论文专集[C];2005年
7 阎辉;张学工;李衍达;;一种新的主成分分析方法[A];2000年中国地球物理学会年刊——中国地球物理学会第十六届年会论文集[C];2000年
8 薛风平;;基于主成分分析的中国产业自主创新能力测评[A];科学发展观:理论·模式·实践——山东省社会科学界2006年学术年会文集(4)[C];2006年
9 戴磊;孙慧;任巍;;基于主成分分析的西部12省区市对外开放竞争力研究[A];21世纪数量经济学(第13卷)[C];2012年
10 朱军华;余岭;;结构损伤响应时程主成分及其相关性分析[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
中国重要报纸全文数据库 前10条
1 叶东云;统计主成分分析的应用问题[N];延安日报;2009年
2 ;电信业对信息化的贡献有多大[N];人民邮电;2004年
3 ;2011年新闻出版产业快速稳步增长(下)[N];中国新闻出版报;2012年
4 杨娜;雪佛兰SPARK诠释微车[N];中国工业报;2003年
5 ;雪佛兰SPARK技术参数表[N];中国商报;2003年
6 若冰;雪佛兰Spark小车中的精灵[N];中国商报;2003年
7 记者 姬旺芳;天水星火SPARK商标获“中国驰名商标”[N];天水日报;2010年
8 记者 晓瑗;新西兰电信将更名为Spark[N];人民邮电;2014年
9 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年
10 ;上汽通用五菱SPARK引发微车新热浪[N];中国质量报;2003年
中国博士学位论文全文数据库 前9条
1 王凌群;基于统计特性分析的航空电磁数据噪声压制技术研究[D];吉林大学;2016年
2 萨建;基于稀疏主成分变系数模型的基因-环境互作分析[D];山西医科大学;2016年
3 杨平;地学空间变量优选中的多元分析与计算智能组合方法的研究[D];吉林大学;2016年
4 苏时光;谱主成分分析及其在多指标评价体系中的应用[D];中国农业大学;2004年
5 洪营东;基于主成分分析法对损伤血瘀证相关性指标的研究[D];成都中医药大学;2014年
6 郭建校;改进的高维非线性PLS回归方法及应用研究[D];天津大学;2010年
7 贾润林;内蒙古新型农村合作医疗运行效果评价研究[D];内蒙古农业大学;2014年
8 张长林;近海卸载平台结构系统的效能与风险研究[D];天津大学;2003年
9 孟银凤;函数型数据建模的方法及其应用[D];山西大学;2017年
中国硕士学位论文全文数据库 前10条
1 王瑶;基于Spark的主成分分析和因子分析并行化的研究与实现[D];北京邮电大学;2017年
2 张宁;水泥生产电耗预测与用电负荷优化调度技术研究[D];天津理工大学;2015年
3 段杏宽;高尚堡油田低产低效井的判定及综合治理[D];河北联合大学;2014年
4 杨阳;北京市大气污染与人群健康研究[D];北京协和医学院;2015年
5 滕浩宇;基于常规大气监测数据对PM_(2.5)的评估和预测[D];东北林业大学;2015年
6 邵雅楠;基于主成分分析和BP网络的高层住宅工程造价估算方法[D];燕山大学;2015年
7 盖琴宝;地熊蜂蜂群发育性状评价及其饲料花粉配比优化[D];中国农业科学院;2015年
8 李广正;关于选取主成分个数的探讨[D];兰州财经大学;2015年
9 巩亚文;基于主成分分析-BP神经网络的港口竞争力评价研究[D];长安大学;2015年
10 马雪莲;采后灵武长枣电学特性和生理特性关系的研究[D];宁夏大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026