收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

统计建模分析高通量生物数据及其应用

王文惠  
【摘要】:随着现代生物学的发展,从生物分子层面上研究生物问题对发现生命现象的本质尤其是理解疾病的致病原理的重要作用已经得到了广泛认同.高通量试验技术包括生物芯片[78;115;135],酵母菌双层杂交试验[58;130],质谱分析[40;54],染色质免疫沉淀反应[59;109]等等.在这些高通量试验技术快速发展的驱动下,同时获得人类或其他模型生物的数以千计的分子及这些分子之间交互作用的数据成为可能。如此大量的数据信息为我们重新理解细胞生物和疾病提供了宝贵的机会。与此同时,高通量数据的特点是:预测变量的维数远远大于样本个数;数据结构非常复杂;数据噪声很大;观测值缺失或不确定等等。在这种情况下,大多数传统统计方法不能得到正确的预测结果,或者得到的预测结果效用有限。因此,我们面临的重大挑战就是设计新的统计模型来高效的获取,分析,解释这些数据中包含信息。 在这篇论文中,我们主要从如下几个方面出发建立统计模型分析生物数据: 1.利用dK随机图模型预测生物网络中的功能模块。 生物功能的很多方面可以用生物网络建模,例如蛋白质交互网络,新陈代谢网络和基因共表达网络。研究这些网络的统计特征可以帮助我们推测生物功能。复杂的统计网络模型能够更加精确的描述网络,但是复杂模型是否有助于找到有生物意义的子网络还不清楚。 近来的研究表明网络中点的度分布不足以充分刻画网络特征。在第二章中,我们尝试将度分布扩展到二阶和三阶相关度分布。我们设计了一种伪似然的方法来估计参数。我们应用这种方法分析了MIPS和BIOGRID酵母菌蛋白质交互网络和两个酵母菌基因共表达网络。结果表明,不论是在蛋白质交互网络还是在基因共表达网络中,二阶相关度分布模型能够更好的预测基因之间的交互关系。然而,对于预测功能模块,相关度分布模型在蛋白质交互网络的情况下表现比一般度分布模型稍好,对于基因共表达网络,相关度分布模型表现不如一般度分布模型。 我们的计算结果表明:结合度分布交互信息可以在某些方面提高预测准确度,但是,在所有的方面,三阶相关度分布模型的预测精度反而不好。如果我们使用其它的参数估计方法,例如极大似然估计,有可能体现二阶和三阶度分布交互模型在预测功能模块方面的优势。 2.从蛋白质功能域交互网络出发,在蛋白质功能域上定位致病变异 对导致人类复杂疾病的遗传变异的辨识和致病基因的定位是非常重要的。蛋白质分子一般由数个蛋白质功能域组成。我们假设有害的遗传变异会导致蛋白质功能域结构发生变化,影响蛋白质功能,并最终导致疾病。以此为出发点,我们探索利用蛋白质功能域交互网络恢复蛋白质功能域与疾病之间的关联关系。根据非同义单核苷酸多态性与复杂疾病之间的关联关系,我们定义蛋白质功能域与复杂疾病之间的关联关系。以蛋白质功能域交互网络为出发点,我们提出了“guilt-by-proximity”方法:根据候选功能域与种子功能域之间在蛋白质功能域交互网络中的平均距离对候选蛋白质功能域排序。我们用大规模交叉验证试验的方法在模拟连锁区间,随机控制集合和整个基因组三种情况下验证了我们的方法。通过致病蛋白质功能域的AUC值和平均排名比率对方法进行量化验证。结果表明:我们的方法的AUC值为77.9%,平均排名比率为21.82%。我们进一步对整个基因组中蛋白质功能域与疾病之间的关联关系进行了排名,并提供了免费的查询网站。这个网站为定位导致复杂疾病的遗传变异提供了有用的信息。 3.在候选位点存在强连锁不平衡的条件下辨识功能位点 在单个基因区域中,多个生物学标记有可能表现出强烈的连锁不平衡性。某种表现型可能与数个生物学标记之间有强列的统计相关性。邻居位点上变异之间的连锁不平衡,尤其是强连锁不平衡不仅为辨识与特定表现型相关的生物学标记制造了困难,而且阻碍了区分功能相关变异和非功能相关变异。在第四章中,我们考虑了5种不同的方法:助推法,Lasso,岭回归,逐步回归和单位点分析。在变异之间存在连锁不平衡的情况下,我们利用模拟比较这五种方法预测功能变异的表现。我们发现:如果有100个样本,在20位点之间存在强连锁不平衡的条件下,岭回归表现最好;在500或1000个位点之间有退化的连锁不平衡的条件下,助推法表现最好。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 许博;刘鲁;;银行间市场体系的相继违约风险分析与建模[J];系统工程;2011年06期
2 张延林;肖静华;李礼;谢康;;基于社会网络的IT与业务匹配多主体仿真[J];系统工程;2011年06期
3 姜磊;季民河;;技术进步、产业结构、能源消费结构与中国能源效率——基于岭回归的分析[J];当代经济管理;2011年05期
4 贾龙涛;朱陈平;刘小廷;陈昌东;;随机纳米碳管网络及其渗流性质[J];复杂系统与复杂性科学;2011年03期
5 徐钦;;基于遗传算法的复杂网络节点匹配问题[J];黑龙江科技学院学报;2011年03期
6 郑军;周海平;;基于复杂网络理论的大型电路分析与优化[J];计算机工程;2011年15期
7 邓海松;马义中;邵文泽;;基于Jeffreys非信息超先验的贝叶斯变量选择算法[J];系统仿真学报;2011年09期
8 杜方;宣琦;吴铁军;;基于相似度传播的复杂网络间节点匹配算法[J];信息与控制;2011年03期
9 胡树华;王利军;牟仁艳;;分类专利对GDP贡献的回归分析[J];软科学;2011年09期
10 李守伟;陈永泰;司春林;彭本红;;基于KIBS的企业技术创新能力形成与演化[J];系统管理学报;2011年04期
11 郭海鸥;李静;;基于复杂网络理论的互联网病毒传播的控制技术分析[J];河南教育学院学报(自然科学版);2011年02期
12 林枫;贺丹军;江钟立;;教学对社会表征的塑造:对词汇网络的研究[J];复杂系统与复杂性科学;2011年03期
13 张庭发;徐维爽;郭莹;;基于小世界网络模型的知识密集型服务业集群的知识传播分析[J];科技进步与对策;2011年16期
14 李振福;李亚军;孙建平;;北极航道海运网络的国家权益格局复杂特征研究[J];极地研究;2011年02期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 张国强;;数据通信网络设计——回归随机网络的可能性[A];第六届全国网络科学论坛暨第二届全国混沌应用研讨会论文集[C];2010年
2 吴俊;邓宏钟;谭跃进;;基于自然连通度的随机网络抗毁性研究[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
3 杜端甫;修娟;;医院管理中的随机网络仿真模型[A];科学决策与系统工程——中国系统工程学会第六次年会论文集[C];1990年
4 周红;杜晓明;于永利;金伟;;Q-GERT随机网络的面向对象分析、设计及原型系统的实现[A];2001系统仿真技术及其应用学术会议论文集[C];2001年
5 冯允成;邱菀华;杨光;;计算机辅助造船厂年度生产计划及其优化——Q-GERT随机网络的应用[A];发展战略与系统工程——第五届系统工程学会年会论文集[C];1986年
6 张新培;;结构分析的随机网络法[A];工程结构可靠性——中国土木工程学会桥梁及结构工程学会结构可靠度委员会全国第二届学术交流会议论文集[C];1989年
7 杨士准;谢政;陈挚;熊李军;;随机网络仿真模型的研究[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 池丽平;蔡勖;;遭袭随机网络与无标度网络的修复策略比较[A];2006全国复杂网络学术会议论文集[C];2006年
9 陈狮星;徐培德;张干宗;;导弹研制风险分析的VERT仿真方法[A];系统工程与可持续发展战略——中国系统工程学会第十届年会论文集[C];1998年
10 郑方圆;王杰;;基于随机结构的多机电力系统鲁棒控制器设计[A];第十一届全国电工数学学术年会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 杨保华;基于随机网络的非常规突发事件情景推演模型及其应用研究[D];南京航空航天大学;2011年
2 王文惠;统计建模分析高通量生物数据及其应用[D];山东大学;2009年
3 李焕忠;基于随机网络演算的性能分析技术研究[D];国防科学技术大学;2011年
4 张玄;随机活动网络的理论与应用研究[D];中南大学;2012年
5 刘睿;国际大型土木工程承包项目投标风险定量评估[D];天津大学;2003年
6 邬晓光;桥梁施工随机网络仿真及资源优化研究[D];西安建筑科技大学;2005年
7 李佳圆;持久有机氯污染物(PCEs、DDTs和HCHs)的类雌激素效应与人群健康关系的研究[D];四川大学;2006年
8 周东北;物流单元网络基础理论及应用研究[D];中南大学;2007年
9 苏先创;复杂网络的结构刻画与蛋白质作用网络的建模研究[D];浙江大学;2011年
10 何统军;树鞅理论及其应用[D];华中科技大学;2009年
中国硕士学位论文全文数据库 前10条
1 崔晓婷;随机网络中国邮路问题算法研究[D];大连理工大学;2006年
2 王善福;随机网络中的簇系数的研究[D];河北工业大学;2007年
3 张玄;随机网络最短路径的概率分布[D];中南大学;2008年
4 李旭东;随机网络的等差增长模型研究[D];河北工业大学;2007年
5 张英俊;管理决策中多元随机网络的数据采集及多元统计信息的研究[D];北方工业大学;2009年
6 张烁;多模式网络流量生成技术研究[D];解放军信息工程大学;2010年
7 陈尚星;基于分形理论的土体裂隙网络研究[D];河海大学;2006年
8 刘巧霞;随机网络的等比增长模型研究[D];河北工业大学;2007年
9 雷芬;随机网络中的动态最短路研究[D];中央民族大学;2009年
10 陈敏;管理决策中随机网络的多元统计信息表示[D];北方工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978