CADgene数据库网站构建及eQTL网络社团结构划分
【摘要】:冠心病(Coronary Artery Disease, CAD)是受多种遗传和环境因素共同影响的复杂疾病,严重威胁人类的健康。以往的研究获得了大量实验数据,找到了许多冠心病相关的候选基因。然而,这些基因和数据散布在数千篇文献中,不利于研究人员对它们进行系统地归纳总结和分析。为此,本项目拟充分整理和搜集已有的冠心病相关基因信息,构建一个信息丰富的数据库资源,并利用所构建的数据库尝试进行一些初步的系统分析和数据挖掘。
首先,本项目基于LAMP (Linux+Apache+MySQL+PHP)平台构建了冠心病相关基因数据库CADgene (http://www.bioguo.org/CADgene)。该数据库在阅读2000多篇文献基础上,收集得到了318个冠心病相关候选基因,并按照功能和过程分成12类。对于每个基因,除保留文献中的相关信息(包括实验人群、病人-对照数目、表型和基因型、P值或OR值、原文结论等)外,还进行了详尽的注释,包括基本信息、GeneOntology注释信息、KEGG信息和蛋白质相互作用信息等。同时,该数据还全面收集了冠心病相关的GWAS研究文献,得到了大量SNP数据,并对这些SNP数据也进行了详尽的注释,包括基本信息、宿主基因信息、邻近基因信息等。该数据库向研究人员提供了美观大方的信息显示界面、人性化的搜索功能和用户友好的动态交互,为系统分析冠心病的发病机理提供了宝贵的数据资源。
另外,为课题组在今后全面分析CADgene收集的GWAS数据,本项目进行了一些初步的生物信息学分析与探索,下载并整理了人类全基因组范围内的表达数量性状位点(eQTL)相关数据,使用三种不同方法尝试进行网络整合和模块划分,以期找出冠心病相关SNP所在的网络模块,进而找出它们的可能作用机制。