DNA微阵列数据分析及蛋白质相互作用网络研究
【摘要】:
DNA微阵列技术是功能基因组研究的有力工具,已广泛用于癌症等重大遗传性疾病的病理、相关基因的识别和临床诊断与分类研究。识别肿瘤相关基因对于研究疾病的致病机制具有重要意义。但由于微阵列数据具有数据维数高,样本数少的特点,在肿瘤分类应用中可能导致过拟合和维数灾难,在癌生物标记基因的识别上容易产生假阳性问题。解决这些问题的关键就是基因选择。利用基因选择的方法来选出与肿瘤分类相关的最优基因子集,在最大程度上删除冗余和噪声基因,然后在这个基因子集上构建分类器,不仅可以提高肿瘤分类的准确率,而且还降低了肿瘤诊断的临床应用成本,仍然是肿瘤分类领域的一大挑战。在本课题中,我们提出了一个新的基于邻域粗糙集的基因排序方法并用于肿瘤分类。通过文献检索和蛋白质相互作用网络分析所选基因的功能,看所选的基因是否与肿瘤的发生有关,基因之间是否有某种调控关系。结果证明所选基因与肿瘤的发生密切相关,同时发现在所选基因编码的蛋白质中,一些核心蛋白有数十甚至数百个相互作用的蛋白质,由于蛋白质分子表面的面积有限,单个蛋白在同一时间不可能与这么多蛋白发生作用,那么:在这些蛋白质中,哪些蛋白可以同时和核心蛋白发生作用,哪些蛋白相互排斥?与许多不同亲和力的蛋白质如何发生相互作用?这是基因调控及蛋白质相互作用网络的一个新的挑战。因此,我们希望通过整合多数据源如蛋白质相互作用网络和基因表达谱来构建一个有时间维的蛋白质相互作用网络来进一步探讨肿瘤基因调控、肿瘤发生机制、肿瘤药物靶点等系统生物学问题,这是目前也是今后工作的一个研究重点。目前已对蛋白质亲和力预测做了部分工作。全文的主要工作概况如下:
1.提出了一种基于邻域粗糙集的启发式宽度优先搜索算法来选择基因子集。先前的研究表明,在正常样本和肿瘤样本或肿瘤亚型之间有强分类能力的基因可能在肿瘤的发生中起着重要作用。我们假设在最后选定的基因子集中基因出现的概率可能在某种程度上反映基因的肿瘤的分类能力和基因的重要性。重要的基因作为特征输入用于肿瘤分类。与其它方法如PAM, ClaNc, KRWRST和Relief-F相比较,我们的方法很少的基因就可以获得比较高的准确率。此外,通过文献搜索和蛋白质相互作用网络分析发现,虽然所选的基因并不是已知的致病基因,但它们在肿瘤的发生过程中起着非常重要的作用。
2.建立了一个简单的在残基水平上基于知识的统计能量函数来定量预测蛋白质相互作用亲和力的模型,它需要一个参考状态。尽管在构建能量函数时并未使用蛋白质或肽的亲和力和结构信息,该模型在测试集82个蛋白质复合物中取得了满意的预测结果,预测值和实验值之间的相关系数达到了0.74。与以往体积校正的原子水平势函数相比,基于残基水平统计势能的能量函数相对比较简单并取得了与原子水平上平均势相当的结果。