收藏本站
《湖南大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Spark的基因数据聚类分析及可视化

张广旭  
【摘要】:在对基因数据研究过程中可视化的研究方法体验不够良好,无法直观的观察实验结果,并且针对基因数据聚类分析,对于K值的选择方法不够可靠,使得聚类结果并没有较明显的改善,同时无法使用确定的数值来代表聚类结果,不能直接的反映数据变化情况。本文通过对比利用Spark对于分布式文件系统的数据进行分析与利用普通方法进行数据分析的时间,显示Spark在对数据处理方面的速度优势;同时利用Spark SQL与SparkStreaming实现对于分布式文件系统数据的不间断分析,并且将查询到的上调与下调基因进行可视化分析;针对K均值聚类,计算分析平均欧氏距离与K值变化的关系,并且找到使得平均欧氏距离趋于稳定的拐点,确定K值并且得到聚类结果,对比在正常条件和盐胁迫下的基因表达强度变化情况,得出结论;将高斯混合模型聚类与基因数据分析相结合,得到不同权重下的高斯分布参数,从而得到完整的高斯混合模型公式,利用高斯混合模型图形对比不同条件下的基因数据变化情况,同时可以根据高斯混合模型公式计算图形与x轴所围成的面积大小,也代表数值落在该区域的概率,对比不同条件下的概率变化,从而确定数据变化情况。本文通过基因数据可视化分别使用了折线图与柱状图对数据变化情况进行了更直观的改善,同时通过分析平均欧氏距离与K值的关系得到可靠的聚类结果,使得聚类后的数据生成的图表更加清晰,并且利用高斯混合模型参数进行积分计算,得到数值落在区域范围的概率大小,用区域范围值直观的比较基因数据变化情况。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 ;Evaluation of energy transfer and utilization efficiency of azo dye removal by different pulsed electrical discharge modes[J];Chinese Science Bulletin;2008年12期
2 张路;谁的搜索更适合你的口味?[J];互联网周刊;2005年10期
3 李存华,潘祝山;聚类分析技术与基因数据知识发现[J];淮海工学院学报(自然科学版);2002年03期
4 Fujiwara Osamu;;CORRELATION INVESTIGATION BETWEEN CONTACT APPROACH SPEED OF HANDHELD METAL ROD AND DISCHARGE PARAMETERS FROM CHARGED HUMAN BODY[J];Journal of Electronics(China);2008年03期
5 嘉南;来自生命的信号——互联网翘首企盼医学奇迹的到来[J];电子商务;2001年07期
6 程国建;安瑶;;基于PCA的SOM网络在基因数据聚类分析中的应用[J];软件导刊;2013年01期
7 ;谷歌欲利用基因数据解码人类健康[J];中国西部;2014年26期
8 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
9 潘丽敏;邓建钢;罗森林;张铁梅;韩怡文;;基于SOM的不同胰岛素敏感状态下基因数据处理[J];计算机工程与应用;2007年02期
10 李兴伟;;飞跃音符间——试听飞声“SPARK”扬声器[J];中国电子商情(视听博览);1997年08期
中国重要会议论文全文数据库 前6条
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五届全国等离子体科学技术会议会议摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二届贵州省自然科学优秀学术论文评选获奖论文集(2007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中国生理学会第23届全国会员代表大会暨生理学学术大会论文摘要文集[C];2010年
4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中国材料大会2012第14分会场:先进陶瓷材料论文集[C];2012年
5 骆俊;马尽文;;高斯混合模型的遗传分基融合算法[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
6 廖频;沈理;;基于高斯混合模型的人脸图象识别研究[A];2001年中国智能自动化会议论文集(上册)[C];2001年
中国重要报纸全文数据库 前10条
1 张亮;为生物技术加上道德的辔头[N];科技日报;2003年
2 杨娜;雪佛兰SPARK诠释微车[N];中国工业报;2003年
3 ;雪佛兰SPARK技术参数表[N];中国商报;2003年
4 若冰;雪佛兰Spark小车中的精灵[N];中国商报;2003年
5 记者 姬旺芳;天水星火SPARK商标获“中国驰名商标”[N];天水日报;2010年
6 记者 晓瑗;新西兰电信将更名为Spark[N];人民邮电;2014年
7 本报记者 那罡;微软Spark计划再添新成员[N];中国计算机报;2009年
8 陈勇;蝙蝠“家谱图”绘制成功[N];光明日报;2005年
9 ;上汽通用五菱SPARK引发微车新热浪[N];中国质量报;2003年
10 黄静洁;08款SPARK乐驰上市 能否突围微轿市场?[N];东方早报;2008年
中国博士学位论文全文数据库 前4条
1 骆嘉伟;基因数据相似性分析方法研究[D];湖南大学;2008年
2 王益文;复杂网络节点影响力模型及其应用[D];浙江大学;2015年
3 罗林;基于数据驱动的非线性过程故障诊断若干问题研究[D];浙江大学;2015年
4 陈雪峰;图像高斯混合模型的判别学习方法[D];北京理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 张广旭;基于Spark的基因数据聚类分析及可视化[D];湖南大学;2017年
2 王韬;基于Spark的聚类集成系统研究与设计[D];西南交通大学;2015年
3 陈晓康;基于Spark 云计算平台的改进K近邻算法研究[D];广东工业大学;2016年
4 牟善文;美国SPARK课程模式小学生体育课能量代谢特点及干预实验研究[D];首都体育学院;2016年
5 李争献;基于Spark的移动终端信息推送系统的设计与实现[D];华南理工大学;2016年
6 赵洋;基于spark的网络广告交易计费系统的设计与实现[D];哈尔滨工业大学;2016年
7 尚勃;Spark平台下基于深度学习的网络短文本情感分类研究[D];西安建筑科技大学;2016年
8 王海华;Spark数据处理平台中内存数据空间管理技术研究[D];北京工业大学;2016年
9 皮兴杰;基于Spark的电网大数据统计中等值连接问题的优化及其应用[D];重庆大学;2016年
10 周婷媛;基于Spark的直播视频场景分类系统的分析与实现[D];北京交通大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026