面向生物数据的关联规则挖掘算法及其应用研究
【摘要】:
随着基因组和蛋白质组研究的进展,以及现代生物技术的快速发展,由高通量技术产生了海量生物数据,这为揭开生命奥秘提供了数据基础。生物数据种类丰富,高通量,维数高,具有异构易变的特性,远远超出传统的分析方法的能力,生物数据的分析成为当今生物学研究的瓶颈,对其处理、挖掘、分析和理解的要求日益迫切。
目前生物数据分析中存在着一些问题,例如,数据分析采用的算法模型有越来越复杂的趋势,被用于数据分析的黑盒算法获得的分析结果难以作出生物解释等。而生物信息学研究的根本目的就是利用生物数据,解释生命现象,发掘生命规律。
关联规则是一种重要的数据挖掘技术,利用该技术从生物数据中挖掘获得的模式即具有生物学上的意义(重要性),又具有数学上的重要性(可发现性),且结构透明,具有良好的可解释性。本文主要对面向生物数据的关联规则挖掘算法及其应用进行了研究,其主要研究内容包括:
(1)多相关关联规则挖掘算法及其应用研究
生物数据中蕴含着丰富的内涵,仅利用传统的关联规则挖掘,一些有意义的模式会被丢失而无法获得,为此,本文提出了一种新形式的关联规则一多相关关联规则,在给出多相关关联规则形式化定义的基础上,对有用多相关关联规则的挖掘准则进行了研究,并给出了一个挖掘算法,并且利用多相关关联规则对蛋白质结构数据进行了分析,从中得到了很多有用的规则,在其它两个数据集上也进行了实验,得到了一些新颖的知识。
(2)利用定量关联规则分析蛋白质结构数据的研究
1961年Anfinsen提出蛋白质分子的一级序列完全决定其空间结构的论断,对于这个假定,我们需要分析如下几个问题:不同的氨基酸对不同的蛋白质空间结构形成是否具有不同的倾向性?蛋白质的氨基酸序列是否是随机的?序列中是否存在着一些氨基酸共生模式?这些模式是否对不同空间结构的形成具有不同的倾向性?目前开展的大部分研究是基于氨基酸序列预测蛋白质各位点的空间结构,主要是定性研究,利用定量方法分析不同氨基酸对形成不同蛋白质结构的倾向性的研究却较少,本文提出利用定量关联规则分析蛋白质的氨基酸构成和蛋白质结构形成间的关联关系,获得了很多有用的规则,这些规则对人工合成蛋白质分子具有参考价值。
(3)聚类和关联规则挖掘在基因表达数据分析中的应用研究
由于基因表达数据具有高维低样本的特点,直接对基因表达数据进行关联规则挖掘,实际上是不可行的。为此,本文将聚类和关联规则挖掘相结合,首先对基因表达数据进行聚类分析,得到若干基因簇,实现了分析数据的降维,然后对每个基因簇中的表达数据进行离散化,将每个基因离散化为7个项目,然后进行关联规则挖掘,得到了大量的关联规则,得到的这些关联规则不仅提供了基因之间的调控方向,而且还提供了基因之间调控强度的信息。
(4)从肿瘤基因表达数据挖掘分类规则的研究
基于关联规则的分类研究是关联规则挖掘研究的一个热点,目前这方面也已经开展了大量的研究工作。由于肿瘤基因表达数据中的样本具有高维低样本的特点,所以很难直接应用传统的关联规则挖掘算法构建分类器,因此本文提出了一种直接从肿瘤基因表达数据挖掘分类规则的方法,这种方法首先从数据中抽取分类特征,然后基于分类特征产生分类规则,基于这些分类规则按照置信度最高的原则进行样本类别预测,实验表明,该方法不仅具有良好的预测精度,并且相对于黑盒算法来说,具有良好的可解释性。