基于计算模型对乳腺癌靶基因的研究
【摘要】:癌症是一种世界范围内的疾病,它的发病率和死亡率严重影响着人们的生活和发展。乳腺癌作为女性中最常见的癌症,每年会导致超过4万名女性患者的死亡。不仅如此,乳腺癌的发病率和死亡率还在不断上升。预计到2030年,乳腺癌不仅发病率是所有癌症种类里最高的,而且其死亡率也会排在所有癌症的第五位。中国也是乳腺癌的高发国家。每年,中国的乳腺癌患者的新增和死亡的数量分别占到了全球的12.2%和9.6%。到了 2021年,中国的乳腺癌患者将达到250万人。随着生物数据的不断的积累,生物信息学科让科学家们可以用计算机的方法整理大规模的生物数据,从大量的数据中归纳总结新的知识,加深对乳腺癌机理的理解。为发现跟乳腺癌的诊断或治疗密切相关的生物标志物带来了新的机遇和挑战。第一,识别和乳腺癌预后有关联的调节因子的有效靶基因集合。调节因子控制基因转录,是维持生物体正常运转的重要因子。识别调节因子的靶基因集合对于癌症治疗的靶向选择至关重要。第二,评估乳腺癌患者的同源重组通路活性。同源重组通路是修复双链DNA断裂的核心通路。同源重组通路靶基因的突变或失活会导致该通路活性的变化。不仅如此,同源重组通路是一个重要的跟癌症相关的药物靶向生物通路。因此,计算的评估乳腺癌患者同源重组通路状态对于乳腺癌的个性化诊断和治疗至关重要。第三,在散发性乳腺癌患者中,有一些患者的基因表现型和携带BRCA1或者BRCA2基因突变的遗传性患者的相似性。这种类型的散发性患者被定义为BRCAness。BRCAness是同源重组通路活性的一种测量。因此,计算的发现乳腺癌患者的BRCAness的生物标志物对于乳腺癌的个性化治疗也至关重要。针对以上三个方面的要求和挑战,本文在乳腺癌的生物背景下,用计算机和信息学科的方法在识别调节因子的靶基因,评估患者体内同源重组通路的状态以及评估散发性乳腺癌患者的BRCAness上取得了以下创新成果。首先,提出了乳腺癌调节因子靶基因的识别算法。针对目前调节因子靶基因集合不纯,导致影响下游分析准确性的问题,本文基于乳腺癌患者的真实数据和调节因子靶基因的数据,提出了调节因子靶基因的识别算法。通过利用调节因子的活性和其靶基因的真实表达数据,迭代的识别调节因子的有效靶基因集合。本方法减少了调节因子的靶基因数量,识别有效的靶基因,不会改变调节因子功能和活性,提升下游分析准确性。有效的减少乳腺癌靶向基因研究的时间成本和资金成本。其次,提出了乳腺癌同源重组通路靶基因RNA干扰相似度算法。针对目前使用小部分基因集合,本文基于同源重组通路靶基因敲除实验数据,使用完整基因组的基因表达数据,提出了同源重组通路靶基因RNA干扰相似度计算模型。通过计算乳腺癌患者基因表达数据和同源重组通路靶基因RNA干扰基因表达数据的相似度,来评估患者同源重组通路的状态。本方法可以预测乳腺癌患者的预后,评估患者的新辅助化疗响应,评估基因组不稳定性。相比于使用基因集合的方法,本方法更加全面的捕捉到了同源重组通路变化对细胞的影响,下游的分析更加精准。最后,提出了乳腺癌同源重组通路基因共享表达谱相似度算法,对乳腺癌患者的BRCAness进行了研究。针对目前使用拷贝数变异的方法,本文使用了全基因组基因的表达数据,克服了肿瘤异质性的影响。通过对比遗传性和散发性患者的基因表达数据,定义BRCAness特征权重谱。并通过计算患者基因表达数据和BRCAness特征权重谱的相似性评估患者的BRCAness。本方法可以有效的在区分遗传性性和散发性的患者,预测患者的预后,评估基因组不稳定性和对新辅助化疗的响应。综上所述,本文通过使用计算模型分析乳腺癌患者的基因表达数据,针对发现乳腺癌生物标志物的挑战和机遇,分别提出了识别有效靶基因的算法,同源重组通路靶基因RNA干扰相似度算法和同源重组通路基因共享表达谱相似度算法。本文的结果可以作为乳腺癌有效的预后的生物标志物和治疗的生物标志物,不仅可以帮助人们更加深刻的理解乳腺癌的分子机制,还可以作为辅助信息,在临床病理学以外给乳腺癌的治疗提供帮助。