收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于稀疏主成分变系数模型的基因-环境互作分析

萨建  
【摘要】:目的基因与环境因素之间的互作分析(G×E)是当代研究的热点问题。针对此类互作分析,最基础的方法即是采用流行病学中的交互效应的理念来建立交互效应项,采用比较成熟的统计手段来判断交互效应是否存在以及它的大小。但是随着人们发现基因与环境之间的交互并非仅仅是相加模型和相乘模型这么简单,同时也发现环境因素对基因的影响也并非均为线性关系,那么传统的互作分析模型就失去了效果。本次研究就是针对全基因组关联分析中环境因素对基因的非线性影响和基因与SNP的高维特征,提出了采用基于稀疏主成分分析与变系数模型相结合的方法来估计环境因素对基因的非线性影响,为基因与环境互作分析提供新的思路和手段。方法鉴于基因是生物体的功能单位,本研究对基因数据以每个gene为单位,对每个gene中的SNP进行稀疏主成分分析处理,然后利用每个gene的稀疏主成分和环境因素构建基因与环境互作的非线性模型。通过不同的模型假定分别介绍了用于探究是否存在基因效应、存在的基因效应是线性效应还是非线性效应的假设检验原理和方法,然后采用非参数统计中B样条的方法来估计各基因整体效应的回归系数,并且进行假设检验。本研究实例分析选自GENEVA的关于新生儿体重的资料。新生儿体重不仅受到自身遗传基因的影响,同时也与母体的环境有关。该资料包含有1126个新生儿个体自身的全基因组信息,将其母亲的口服葡萄糖耐量试验(OGTT)的血糖水平作为环境因素。通过对个体数据的整理,得到12005个基因,采用主成分分析和稀疏主成分分析的方法,利用每个gene的稀疏主成分和环境因素建立关联性模型,并在模型检验结果的基础上进行模拟研究,进一步验证了该方法的可行性。所有的参数估计和假设检验以及模拟证实研究均采用R软件完成,稀疏主成分分析采用Elastic net包实现。结果1、通过对新生儿体重全基因组数据进行分析,将每个基因的稀疏主成分作为基因效应,将新生儿母亲OGTT血糖检测结果作为环境因素来构建稀疏主成分模型。经Manhattan图分析确定ANGPT1(含有67个SNP)和NCOA5(含有15个SNP)两个有意义的基因,它们分别位于8号染色体和20号染色体。经过稀疏主成分分析后,按主成分筛选所解释的变异超过80%标准,基因ANGPT1提取了7个有意义的稀疏主成分,基因NCOA5提取了4个有统计学意义的稀疏主成分。2、对比研究了每个基因的主成分和稀疏主成分作为基因效应拟合模型的效果,经Manhattan图分析表明,两法所找到的有意义基因完全吻合。3、通过不同的模型验证,本研究不仅发现基因NCOA5和基因ANGPT1的总体效应是有显著性的,同时也发现基因的主效应和基因与环境因素(母亲血糖U)的交互效应具有统计学意义。其中,基因ANGPT1的主效应(P=0.0003)比交互效应(P=0.002)更加显著,而基因NCOA5的主效应(P=0.003)要弱于交互效应(P=0.00015)。4、对每个基因的稀疏主成分分析结果显示,在基因ANGPT1中,7个主成分中有4个是有意义的;而在基因NCOA5中,4个主成分中有3个是有统计学意义的。通过对有显著性的稀疏主成分对应的载荷系数分析,进一步找到了有显著性的SNP,它们与母亲血糖存在交互效应,从而影响新生儿体重。5、利用基因ANGPT1和NCOA5有意义的稀疏主成分与母亲血糖水平拟合新生儿体重模型,可以发现随着母亲血糖水平的增高,新生儿体重也有逐渐增加的趋势,并且呈非线性变化,也进一步表明新生儿遗传基因与母亲孕育环境因素的非线性交互效应存在;6、模拟证实表明,随样本量由200增加到500和1000,总体基因效应和基因-环境交互效应的检验效能越来越高;随着模型误差由32?减小到22?和12?,总体基因效应和基因-环境交互效应的检验效能也是逐步提高;在相同样本量、相同模型误差以及相同的?情况下,模型对交互效应的检验效能要明显高于对整体效应的检验效能,说明该模型更加适合于检验非线性交互作用。结论在基因与环境因素互作的研究中,本文在变系数模型的基础上进一步引入了稀疏主成分方法,将二者联合起来对每个基因进行分析,通过不同的模型检验来寻找与环境因素存在交互效应的功能基因,进一步通过有显著性功能基因的稀疏主成分载荷系数来寻找有显著的SNP,从而确定基因与环境的非线性关系。本文通过实例分析和模拟研究都验证了稀疏主成分变系数模型在基因环境互作研究中的可行性,为复杂疾病的G×E研究提供了新的有力工具。本课题为国家自然科学基金“心脏康复二级预防模式评价及数据缺失机制模型研究(编号:81172774)”和“复杂疾病基因与环境互作模型分析方法研究(编号:31371336)”资助项目。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 姚泽清,王衍波;江苏省国民经济主要指标的主成分分析[J];运筹与管理;2003年03期
2 尉雪波,张辉;灰色主成分分析及其应用[J];山东财政学院学报;2004年05期
3 夏国恩;金炜东;张葛祥;;非线性主成分分析新方法[J];统计与决策;2006年05期
4 马翔宇;陈志华;邹飒枫;赵力;;基于主成分分析的音乐事件相关脑电变化研究[J];现代生物医学进展;2009年03期
5 张维铭;陈文兴;;运用主成分分析制定服装标准的探讨[J];浙江丝绸工学院学报;1986年02期
6 李永福,孙文爽 ,王元平;广义主成分分析[J];云南大学学报(自然科学版);1988年01期
7 王宏健,易柱新;主成分方法用于聚类分析[J];经济数学;1996年01期
8 李汶华;城市综合实力增长的比较[J];数理统计与管理;2000年01期
9 高长元,丁雪伟,綦良群;高新技术产品的主成分分析评价法[J];哈尔滨理工大学学报;2000年01期
10 DelValls T A ,丁海燕;确定海洋沉积物中污染物来源的方法——多变量主成分分析方法[J];海洋地质动态;2003年11期
11 吴海建;主成分分析的基本思想及应用实例[J];河南省情与统计;2003年04期
12 宋涛;唐德善;;基于灰色数列预测和主成分分析的国债风险仿真模型[J];统计与决策;2006年03期
13 张立华;金浩;邢会;张英民;;河北省经济可持续发展的全局主成分分析[J];河北工业大学学报;2006年02期
14 林海明;;主成分分析与初始因子分析的异同——兼与卢纹岱《SPSS for Windows统计分析》商榷[J];统计与决策;2006年08期
15 程海侠;陶桢;;基于财务指标的主成分分析——以部分空调企业为例[J];科技创业月刊;2006年06期
16 黄新建;李若山;;基于主成分分析的房地产业的业绩评价模型[J];统计与决策;2006年10期
17 徐雅静;汪远征;;主成分分析应用方法的改进[J];数学的实践与认识;2006年06期
18 赵晓翠;王来生;;基于主成分分析和支持向量机的商业银行信贷风险评估[J];统计与决策;2006年13期
19 李建华;顾穗珊;藏晶;;基于主成分分析的高新技术成果转化的聚类分析[J];工业技术经济;2006年07期
20 王建民;王传旭;杨力;余忠林;王运祥;;基于主成分分析模型的煤矿企业员工满意度实证研究[J];安徽理工大学学报(社会科学版);2007年02期
中国重要会议论文全文数据库 前10条
1 么彩莲;魏宁;;关于主成分分析的改进方法探讨[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 陈明星;缪柏其;靳韬;;利率影响因素的主成分分析与因子分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 孙晓东;胡劲松;焦玥;;基于主成分分析和灰色关联聚类分析的指标综合方法研究[A];中国优选法统筹法与经济数学研究会第七届全国会员代表大会暨第七届中国管理科学学术年会论文集[C];2005年
4 林海明;杜子芳;;主成分分析评估指数的构造条件和案例[A];21世纪数量经济学(第13卷)[C];2012年
5 盛子宁;;教师课堂教学质量的主成分分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
6 许咏梅;马兴旺;陈署晃;何生丽;郭海峰;李毳;严莉;李平;蒋文;杨红丽;;基于主成分分析乌鲁木齐无公害蔬菜土壤质量评价[A];中国科协2005年学术年会“新疆现代农业论坛”论文专集[C];2005年
7 阎辉;张学工;李衍达;;一种新的主成分分析方法[A];2000年中国地球物理学会年刊——中国地球物理学会第十六届年会论文集[C];2000年
8 薛风平;;基于主成分分析的中国产业自主创新能力测评[A];科学发展观:理论·模式·实践——山东省社会科学界2006年学术年会文集(4)[C];2006年
9 戴磊;孙慧;任巍;;基于主成分分析的西部12省区市对外开放竞争力研究[A];21世纪数量经济学(第13卷)[C];2012年
10 朱军华;余岭;;结构损伤响应时程主成分及其相关性分析[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
中国博士学位论文全文数据库 前8条
1 王凌群;基于统计特性分析的航空电磁数据噪声压制技术研究[D];吉林大学;2016年
2 萨建;基于稀疏主成分变系数模型的基因-环境互作分析[D];山西医科大学;2016年
3 苏时光;谱主成分分析及其在多指标评价体系中的应用[D];中国农业大学;2004年
4 洪营东;基于主成分分析法对损伤血瘀证相关性指标的研究[D];成都中医药大学;2014年
5 郭建校;改进的高维非线性PLS回归方法及应用研究[D];天津大学;2010年
6 贾润林;内蒙古新型农村合作医疗运行效果评价研究[D];内蒙古农业大学;2014年
7 张长林;近海卸载平台结构系统的效能与风险研究[D];天津大学;2003年
8 汪东;基于支持向量机的选时和选股研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 张宁;水泥生产电耗预测与用电负荷优化调度技术研究[D];天津理工大学;2015年
2 段杏宽;高尚堡油田低产低效井的判定及综合治理[D];河北联合大学;2014年
3 杨阳;北京市大气污染与人群健康研究[D];北京协和医学院;2015年
4 滕浩宇;基于常规大气监测数据对PM_(2.5)的评估和预测[D];东北林业大学;2015年
5 邵雅楠;基于主成分分析和BP网络的高层住宅工程造价估算方法[D];燕山大学;2015年
6 盖琴宝;地熊蜂蜂群发育性状评价及其饲料花粉配比优化[D];中国农业科学院;2015年
7 李广正;关于选取主成分个数的探讨[D];兰州财经大学;2015年
8 巩亚文;基于主成分分析-BP神经网络的港口竞争力评价研究[D];长安大学;2015年
9 马雪莲;采后灵武长枣电学特性和生理特性关系的研究[D];宁夏大学;2015年
10 任静;薯芋及淀粉的傅里叶变换红外光谱研究[D];云南师范大学;2015年
中国重要报纸全文数据库 前3条
1 叶东云;统计主成分分析的应用问题[N];延安日报;2009年
2 ;电信业对信息化的贡献有多大[N];人民邮电;2004年
3 ;2011年新闻出版产业快速稳步增长(下)[N];中国新闻出版报;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978