收藏本站
《江南大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

复杂生物网络聚类分析方法

梅娟  
【摘要】: 基因组学和高通量技术提供了大量生命系统组成元件(如蛋白质)以及它们之间相互关系的数据,由这些关系数据构成的复杂生物网络蕴含着丰富的生命系统运行机制的知识,挖掘这些隐蔽的知识成为后基因组时代的主要任务之一。作为知识发现重要手段的图聚类方法,在复杂生物网络分析上受到了普遍关注。 本文开发了高性能的图聚类算法CD(contraction-dilation),以复杂生物网络为研究对象,研究了基于蛋白质相似性网络的远同源性探测,分析了从蛋白质相互作用网络中探测到的功能模块。为了对图聚类算法进行评价,提出了一种融入研究对象重要特征的接近现实的网络模型。主要研究内容包括: (1)针对模块性(modularity)这个描述复杂网络集团结构强弱的全局指标,提出了一种简单而高效的基于模块性优化的图聚类算法CD。将此算法应用于计算机的生成基准测试网络,生物网络和社会网络,并将性能表现与已有的同是基于模块性优化的聚类算法进行了比较分析,实验结果表明CD算法能在较短的CPU时间内找到较大数值的模块性,探测到稳定且较精确的集团结构,且对内存需求非常低,可用于分析大型网络。该方法是本文后面分析的基础。 (2)远同源蛋白间的序列相似性很低,处于随机涨落区域边缘(twilight zone),很难区分通过比对获得的序列特征是进化过程中功能约束还是随机突变导致的结果。为了从具有高度噪音的比对分数中提取关于同源性的微弱信号,本文将图聚类算法CD应用于蛋白质相似性网络来探测远同源性。将序列间的Smith-Waterman分数通过S型曲线变换作为蛋白质关联图的连接权重,然后使用CD算法对此关联图进行聚类分析。将该方法应用于蛋白质结构分类数据库SCOP超家族层次的几个数据集,且与谱聚类方法和MCL方法进行比较,实验结果表明,该方法能较好地探测到蛋白质远同源性,因为输出的集团在很大程度上对应着蛋白质超家族;该方法输出的集团数目接近数据集中超家族的个数;该方法得到的结果明显优于其他方法。研究结果表明,序列相似性确实携带了关于远同源性的显著信息,使用CD算法挖掘这些信息能够较准确地探测到蛋白质远同源性。 (3)蛋白质相互作用网络是典型的复杂生物网络,它的节点多且连接分布不均匀,不易被划分为有统计意义的集团。为此,我们从文献提供的数据集中挑选具有中度和高度置信度的酵母蛋白质相互作用数据来构建酵母蛋白质相互作用网络,采用CD算法来将此网络划分为集团。对于得到的集团,我们从拓扑结构的角度以及生物学意义的角度进行了分析。实验结果表明,通过CD算法得到的集团是内部连接紧密的子图,且MIPS数据库的ComplexCat中已知的蛋白质复合体很大程度上包含于这些集团中,且有许多蛋白质复合体完全包含于这些集团中。此外,我们使用超几何聚集分布的P值来分析一个集团对某个特定功能的富集程度,将最小的P值对应的功能作为该集团的主要功能。分析集团中成员的功能发现,集团中大部分的蛋白质具有相同的功能,且与集团的主要功能相一致。 (4)在通常情况下,我们缺乏对现实网络背景知识的了解。为了评价图聚类算法在现实网络上的性能表现,本文构建了一种接近现实的网络模型(near-realistic model,简称NR模型),通过算法在模型网络上的性能表现来推断其分析现实网络的能力。为了确保此推断的合理性,构建的模型网络具有与所研究网络完全相同的一阶统计特征,即模型网络中每个节点的度与所研究网络中相应节点的度完全一致。同时,构建的模型网络可具有任意设定的集团结构,这就相当于给定了背景知识,即真实的分类信息是已知的。构建的NR模型为客观评价图聚类算法提供了一条途径。
【学位授予单位】:江南大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:Q78

【引证文献】
中国硕士学位论文全文数据库 前1条
1 陈廷威;基于公共数据库的药物靶点相互作用网络研究[D];山东大学;2012年
【参考文献】
中国期刊全文数据库 前1条
1 Max Perutz;顾燕诒;;分子生物学的产生[J];世界科学;1981年02期
【共引文献】
中国期刊全文数据库 前10条
1 李爱军,罗四维,刘蕴辉,黄华;信息理论框架下的神经网络构建[J];北京交通大学学报;2005年02期
2 王宇晖;业宁;沈丽容;;单翼分解下的纯度函数失效分析[J];北京交通大学学报;2009年06期
3 冯志新;蔡玉俊;黎振;潘鑫;;基于k-均值聚类算法的模具型腔曲面分片加工研究[J];北京工业大学学报;2012年05期
4 王瑜;穆志纯;徐正光;骆佳佳;;基于核典型相关分析的姿态人耳、人脸多模态识别[J];北京科技大学学报;2008年10期
5 裴晓梅;郑崇勋;;基于Adaboost技术的大脑运动意识任务分类[J];北京生物医学工程;2008年05期
6 王兰莎;张国英;沙芸;;复杂矿石图像的特征提取与聚类[J];北京石油化工学院学报;2010年04期
7 张世博;周义明;;一种优化初始化中心的k均值web信息聚类算法[J];北京石油化工学院学报;2011年04期
8 李进;马军海;;交叉持股行为的复杂性研究[J];北京理工大学学报(社会科学版);2009年04期
9 唐玉志;马远良;蔡宗义;吴祖堂;王占江;;地下化学爆炸地运动信号关联探索[J];爆炸与冲击;2009年05期
10 刘茂;;一种基于模糊神经网的超短波信号自动识别算法[J];成都信息工程学院学报;2007年05期
中国重要会议论文全文数据库 前5条
1 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 卫颖奇;彭进业;;一种基于混合模型的特征提取方法[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
3 张星星;黎宁;李文灿;;基于水表自动判读系统的半字识别算法[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 欧阳琰;桑农;;基于面部动作单元组合特征的表情识别[A];第十五届全国图象图形学学术会议论文集[C];2010年
5 刘尊洋;汪作来;王自荣;余大斌;孙晓泉;;基于谱系法改进FCM的仿造迷彩主色提取方法[A];第九届全国光电技术学术交流会论文集(上册)[C];2010年
中国博士学位论文全文数据库 前10条
1 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
2 杨树忠;复杂网络中的社团检测问题研究[D];北京交通大学;2009年
3 李一啸;基于复杂网络和演化博弈理论的社会[D];浙江大学;2010年
4 罗向阳;数字图像隐写检测关键问题研究[D];解放军信息工程大学;2010年
5 彭建芬;P2P流量识别关键技术研究[D];北京邮电大学;2011年
6 朱天;社会网络中节点角色以及群体演化研究[D];北京邮电大学;2011年
7 薛洋;基于单个加速度传感器的人体运动模式识别[D];华南理工大学;2011年
8 蒋胜利;高维数据的特征选择与特征提取研究[D];西安电子科技大学;2011年
9 鱼亮;蛋白质网络模块结构识别算法研究[D];西安电子科技大学;2011年
10 史伟;基于复杂网络的拓扑与信息传输问题研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
2 叶铂;基于统计学方法的水面目标特征提取与识别方法的研究[D];哈尔滨工程大学;2010年
3 张宝华;支持向量机在入侵检测系统中的研究和应用[D];天津理工大学;2010年
4 刘怀愚;静态图像的车辆检测算法研究[D];淮北师范大学;2010年
5 张云鹏;发动机机械故障诊断系统特征提取算法研究[D];长春工业大学;2010年
6 熊超;视频图像中运动车辆检测与跟踪技术的研究[D];南昌大学;2010年
7 兰远鸽;基于SAR影像的变化检测技术研究[D];解放军信息工程大学;2010年
8 杨大海;极化SAR相干斑抑制若干问题研究[D];解放军信息工程大学;2010年
9 苏畅;基于计算机视觉的木材表面缺陷检测研究[D];中南林业科技大学;2008年
10 吴赛;单目摄像机场景深度估计及数字识别算法研究[D];浙江大学;2011年
【同被引文献】
中国期刊全文数据库 前5条
1 韦芳萍;蓝贞雄;;复杂网络的统计机制及生物网络的发展[J];大众科技;2007年04期
2 刘伟;谢红卫;;基于生物信息学方法发现潜在药物靶标[J];生物化学与生物物理进展;2011年01期
3 张嗣瀛;张晓;;生物网络及其一些进展[J];系统仿真学报;2009年17期
4 苏笠;杨劲;王友群;王广基;;化合物脂水分配系数计算软件及比较研究[J];中国药科大学学报;2008年02期
5 赵静;张卫东;;基于系统生物学的多靶点及多组分药物研究的进展[J];中国药学杂志;2010年15期
【相似文献】
中国期刊全文数据库 前10条
1 张航;昝乡镇;刘志伟;;生物网络模体识别算法概述[J];科协论坛(下半月);2010年02期
2 韦芳萍;蓝贞雄;;复杂网络的统计机制及生物网络的发展[J];大众科技;2007年04期
3 谭璐;姜璐;;系统生物学与生物网络研究[J];复杂系统与复杂性科学;2005年04期
4 彭佳扬;杨路明;王建新;刘振;李敏;;一种高效挖掘生物网络闭合频繁子图的算法[J];高技术通讯;2009年02期
5 陈长水;刘少飞;;网络基序:生物网络的最小研究单位[J];科技导报;2011年28期
6 黄海滨;邵平;;基于拓扑结构的生物网络关键节点识别研究进展[J];玉林师范学院学报;2009年03期
7 高蕾;郭进利;;生物网络研究进展述评(英文)[J];生物信息学;2011年02期
8 陈润生;;与生物信息学相关的两个前沿方向——非编码基因和复杂生物网络[J];生物物理学报;2007年04期
9 杨文强;罗强;王学丽;;基于Granger因果检测的蛋白质信号网络建模[J];模糊系统与数学;2009年01期
10 张嗣瀛;张晓;;生物网络及其一些进展[J];系统仿真学报;2009年17期
中国重要会议论文全文数据库 前3条
1 徐筱杰;;计算多靶药理学及其在中药研究中的应用[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
2 陈慧平;陈慧选;;多重分形谱在非线性网络中的应用[A];2006全国复杂网络学术会议论文集[C];2006年
3 许醇穗;刘曾荣;;生物网络抑制度负关联性的一种机制[A];第十二届全国非线性振动暨第九届全国非线性动力学和运动稳定性学术会议论文集[C];2009年
中国博士学位论文全文数据库 前5条
1 王佳伏;时滞微分包含初值问题与稳定性的理论及应用[D];湖南大学;2009年
2 刘宝;基于生物网络的智能控制系统及其应用[D];东华大学;2006年
3 孙宏彬;面向服务突现的整体智能模型及其应用研究[D];东华大学;2007年
4 刘克钦;基于生物信号通路的复杂疾病标志物识别与研究[D];上海大学;2013年
5 顾祖光;基因芯片数据的系统生物学分析方法研究[D];南京大学;2012年
中国硕士学位论文全文数据库 前8条
1 周晓锋;一种基于统计的生物网络模体发现算法[D];西安电子科技大学;2008年
2 李铮;色氨酸和乳糖操纵子表达调控的数学描述与分析[D];大连理工大学;2006年
3 樊振杰;生物网络中与疾病相关的子网络搜索研究[D];兰州大学;2009年
4 邵钏;MyNetworker:一款新型的生物网络处理软件[D];浙江大学;2008年
5 周洪伟;复杂网络理论及其在生物网中的应用[D];南京航空航天大学;2007年
6 黄冬林;MyBioNet:在线生物网络可视化、编辑和整合的Web应用[D];浙江大学;2011年
7 曹俊杰;Network3:基于FORG3D的网络3D可视化R软件[D];浙江大学;2010年
8 张学红;结合蛋白质互作信息构建扩展的人类疾病网络[D];哈尔滨医科大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026