收藏本站
《华中农业大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于奇异值分解和SCAD估计的多位点全基因组关联分析方法

杜应雯  
【摘要】:绝大多数动植物重要性状是由少数较大效应的基因和较多效应较小的基因控制,并受环境修饰的数量性状。为在动植物育种中更好地利用和改良这些性状,需要深入解析这些性状的遗传基础。目前,关联分析是解析数量性状遗传基础的主要途径。随着测序技术的飞速发展,标记数p远大于样本容量n的超高维标记小样本数据已成常态。这无疑加重了关联分析的计算压力。如何在有限的样本容量下快速准确地从海量标记中筛选出与数量性状显著关联的位点成为一项重大挑战。当前广泛应用的关联分析方法是基于多基因背景和群体结构控制的单位点全基因组扫描。这些方法不能同时估计所有标记效应,只能在群体结构与多基因背景控制下单独估计每个标记效应。这些估计值可能是有偏的。为解决这一问题,本研究利用奇异值分解、SCAD和经验Bayes估计、多位点遗传模型和似然比检验,提出了一种多位点全基因组关联分析新方法,通过三个Monte Carlo模拟试验和拟南芥开花时间相关性状分析,来证实新方法的有效性。主要结果如下:1、新方法分为两步:1)潜在关联标记的选择。通过奇异值分解获得所有标记的效应值,效应值较大的标记为可能潜在关联标记,进一步用SCAD压缩估计选择出潜在关联标记;2)显著QTN(quantitative trait nucleotide)的鉴定。将潜在关联标记放入多位点模型中,用经验Bayes估计这些潜在关联标记效应,当效应绝对值大于10~(5-)时用似然比检验鉴定其与性状的显著关联性。这种方法称为基于奇异值分解和SCAD估计(Singular value decomposition-SCAD screening plus empirical Bayes,S3-EB)的多位点关联分析方法。2、通过三个Monte Carlo计算机模拟试验来验证S3-EB的有效性。在第一个模拟试验中,从199个拟南芥品系216130个SNP的实际关联群体中随机抽取10000个SNP作为模拟关联群体的基因型。在稀有等位基因频率等于0.3的6个SNP上设置了6个模拟QTNs,其遗传率分别设为0.1、0.05、0.05、0.15、0.05和0.05。群体平均数和误差方差均设置为10。通过模拟QTN基因型值和随机误差获得199个品系的模拟表型观察值,并重复1000次。用S3-EB、mrMLM、EMMA和FarmCPU四种方法分别分析每个模拟样本数据,结果表明:1)用上述四种方法检测6个模拟QTNs的平均功效分别为74.8、67.03、46.0和41.87(%),成对t检验表明:S3-EB的统计功效显著高于另外三种方法(P-值介于0.0036与0.0063之间);2)6个模拟QTNs的平均均方误差(mean squared error,MSE)分别为0.1064、0.0934、0.5432和0.2824,成对t检验表明:S3-EB的MSE显著低于EMMA(P-值等于0.015),但与mrMLM和FarmCPU无显著差异(P-值分别等于0.3199和0.1549);3)上述四种方法的计算时间分别为0.79、4.01、68.77和5.12小时;4)四种方法的假阳性率分别为0.0489、0.0167、0.0325和0.0178(%),处于同一数量级。若在第一个模拟试验中分别添加多基因背景和上位性背景,以研究这些背景干扰对S3-EB的QTN检测功效和参数估计精度的影响。结果表明:这些结果与第一个模拟试验结果趋势一致。综上所述,新方法通过奇异值分解,将运算维度由计算数十万计SNP标记效应个数降低为计算数千计样本容量效应数,快速获得同一模型下全部标记效应值,有利于潜在关联变量选择,提高了统计功效和参数估计精度,缩短了计算时间,使假阳性率与Bonferroni矫正方法处于同一量级,验证了新方法的有效性。3、用上述四种方法分析了下载的199个拟南芥品系216130个SNP的开花时间相关性状FLC、FRI、FT-GH和FT-Field。结果表明:1)上述四种方法检测到与FLC显著关联标记数分别为15、21、0和6,计算时间分别为0.0083、0.0684、1.0767和0.0838小时;与FRI显著关联的标记数分别为6、8、33和5;与FT-GH显著关联的标记数分别为17、4、0和7;与FT-Field显著关联的标记数分别为17、24、0和9;2)建立数量性状表型与显著关联标记间的多元线性回归模型,FLC性状四种方法的BIC值分别为336、328.2、596.5和521.3;FRI的BIC值分别为163.5、156.7、322.3和211.6;FT-GH性状的BIC值分别为-321.2、-296.1、314.6和-465.0;FT-Field性状的BIC值分别为30.4、318.9、306.9和156.6。新方法BIC值处于最小或者次小,说明新方法是相对较优的;3)在上述关联标记?50kb范围内,上述四种方法分别检测到59、9、3和8个已报道的性状相关基因,其中39个仅被S3-EB方法检测到。这些结果也证实新方法的有效性。为了便于推广应用该方法,在R环境下,基于附加包shiny,研制了S3-EB方法的应用程序,嵌入多位点关联分析软件包mrMLM,可在Windows、Mac和Linux系统下运行操作。
【学位授予单位】:华中农业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:Q811.4

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 Honggang Yi;Hongmei Wo;Yang Zhao;Ruyang Zhang;Junchen Dai;Guangfu Jin;Hongxia Ma;Tangchun Wu;Zhibin Hu;Dongxin Lin;Hongbing Shen;Feng Chen;;Comparison of dimension reduction-based logistic regression models for case-control genome-wide association study:principal components analysis vs.partial least squares[J];The Journal of Biomedical Research;2015年04期
【二级参考文献】
中国期刊全文数据库 前1条
1 Cheng Wang;Zhengfeng Xu;Guangfu Jin;Zhibin Hu;Juncheng Dai;Hongxia Ma;Yue Jiang;Lingmin Hu;Minjie Chu;Songyu Cao;Hongbing Shen;;Genome-wide analysis of runs of homozygosity identifies new susceptibility regions of lung cancer in Han Chinese[J];The Journal of Biomedical Research;2013年03期
【相似文献】
中国期刊全文数据库 前10条
1 余斌;;奇异值分解在人脸识别中的应用[J];知识文库;2017年15期
2 M.穆伦;张俊芳;;修正的奇异值分解并行实现[J];雷达与对抗;1992年04期
3 肖丁;关于加权奇异值分解与QR分解的渐近表达式的证明[J];大连理工大学学报;1988年04期
4 朱明,陈鹿民;机械回路系统动力学分析的奇异值分解(SVD)缩聚法[J];南京航空航天大学学报;1989年02期
5 万明坚,肖先赐;基于矩阵奇异值分解的空间谱估计算法[J];电子科技大学学报;1989年02期
6 夏江海;;奇异值分解在位场资料处理中的应用[J];物探化探计算技术;1989年02期
7 戴伟辉,吕维雪,段云所,杨芙清;多准则优化图象重建方法的奇异值分解研究[J];计算机学报;1997年07期
8 张丽艳;殷福亮;;一种改进的奇异值分解语音增强方法[J];电子与信息学报;2008年02期
9 王娟;黄忠朝;刘正春;;基于增强的谱分析和奇异值分解的T波交替检测[J];浙江大学学报(工学版);2012年01期
10 张登银;刘琬;;一种改进的基于奇异值分解的数字水印算法[J];计算机安全;2009年02期
中国重要会议论文全文数据库 前10条
1 张景瑞;;基于奇异值分解的SGCMGs输出误差分析及操纵律设计[A];第三届全国动力学与控制青年学者研讨会论文摘要集[C];2009年
2 毛树华;;基于奇异值分解的灰色模型参数估计[A];第16届全国灰色系统学术会议论文集[C];2008年
3 张友民;陈洪亮;戴冠中;;基于奇异值分解的固定区间平滑新方法[A];1995年中国控制会议论文集(上)[C];1995年
4 葛照强;王讲书;杨战民;;广义系统结构稳定的状态反馈[A];1995年中国控制会议论文集(上)[C];1995年
5 周友明;孙勇军;;基于小波奇异值分解的颤振飞行试验数据处理方法研究[A];第十届全国空气弹性学术交流会会议论文集[C];2007年
6 朱晓临;李雪艳;陈嫚;朱园珠;;基于小波和奇异值分解的图像边缘检测[A];第六届全国几何设计与计算学术会议论文集[C];2013年
7 吴晓颖;吴俊;董滨江;;TK方法在γ谱分析中的应用[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
8 徐敏;罗连升;程智;段春锋;;MRI-CGCM模式气候预测回报试验在东亚夏季的检验和降尺度订正[A];第35届中国气象学会年会 S2 副热带气象及其生态环境影响[C];2018年
9 张万诚;解明恩;;奇异值方法模型对降水的预测试验[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“气候系统与气候变化”分会论文集[C];2003年
10 徐启圣;李柱国;;油液综合分析特征層陸的选择[A];2006全国摩擦学学术会议论文集(三)[C];2006年
中国博士学位论文全文数据库 前10条
1 王晓康;张量分解的高效计算及其应用研究[D];华中科技大学;2017年
2 胡蓉;增量机器学习算法研究[D];南京理工大学;2013年
3 沈威;基于微分方程模型构建基因调控网络的研究[D];吉林大学;2012年
4 王正英;面向设备管理的机电设备状态监测与故障诊断技术研究[D];天津大学;2007年
5 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
6 李光;分类挖掘中的隐私保护问题研究[D];哈尔滨工业大学;2011年
7 官权学;矩阵变换器的调制方法及稳定性分析[D];华南理工大学;2016年
8 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
9 王金成;基于吸引子理论的同化方法研究[D];兰州大学;2009年
10 刘田;非线性趋势单位根检验研究[D];西南财经大学;2009年
中国硕士学位论文全文数据库 前10条
1 杜应雯;基于奇异值分解和SCAD估计的多位点全基因组关联分析方法[D];华中农业大学;2018年
2 林襄;雷达目标多分量微动信号参数估计与分离技术研究[D];国防科学技术大学;2016年
3 董琳佳;基于奇异值分解的自适应混合阈值去噪算法[D];山东大学;2018年
4 周艳;朴素贝叶斯分类器的研究与改进[D];厦门大学;2017年
5 呼思乐;基于MapReduce的奇异值分解及PCA算法应用研究[D];东北大学;2015年
6 齐静;一种基于信任传播和奇异值分解的个性化推荐方法的研究[D];昆明理工大学;2017年
7 朱青;云计算中安全高阶奇异值分解[D];华中科技大学;2016年
8 于向飞;基于奇异值分解的动态光散射反演算法研究[D];上海理工大学;2013年
9 陈岩;基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究[D];杭州电子科技大学;2009年
10 李慧;奇异值分解在时间序列分析中的应用[D];北京交通大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026