基因数据聚类分析研究
【摘要】:生物学和医学的迅速发展以及基因芯片的逐步实用化都使得同时比较和研究
大量基因的特性成为可能,随之产生了海量的基因数据。通过分析这些数据可以
获得对人类有益的有关生物结构和功能的信息,对基因数据的分析研究已成为生
命科学、数学科学与计算机科学等学科非常活跃的交叉课题之一。聚类分析是基
因数据分析的一种重要手段,本文着重研究基因表达数据和基因序列数据中的聚
类分析算法。
针对目前常用的基因表达数据聚类分析算法中存在的参数依赖性强,并且在
整个聚类过程中类的数目始终保持不变的缺点,本文引入动态调整聚类个数的思
想;针对不能对空间中有部分重叠的点进行有效的分类从而不能得到全局最优的聚类结
果,本文进一步引入伪F统计量,提出了一种基于多维伪F统计量的动态K-均值聚类
算法。根据用户要求的聚类次数,每次开始于基因表达数据中两两基因间在多维表达水
平下的相似度矩阵,动态地选取一定数目的基因作为初始聚类群,根据离差平方和法,
不断精练初始聚类群,从而使得聚类个数不断地变化,且动态地向正确的聚类个数逐渐
收敛。该算法能保证最终聚类结果类内散布矩阵之迹达到最小,把多维空间的数据点有
效划分为具有特定数目的不同的类,给出最佳聚类个数。
基于图BAG的聚类算法是基因序列数据分析中经典的聚类算法,但在该算法中相似
分数阀值初始值和最长公共子串最小长度阀值如何确定没有明确给出,本文提出了一种
基于比对相似度动态矩阵SZDM的聚类算法,利用动态矩阵来表示序列间的匹配
关系,明确给出了确定相似度分数阀值和最长公共子串的最小长度阀值的方法,
使得算法具有较好的聚类正确率。
本文对上述研究进行了验证和分析。实验结果表明:基于多维伪F统计量的
动态K-均值聚类算法可以动态地调整聚类个数,给出了最佳聚类数目;基于比对
相似度的动态矩阵的序列聚类算法可以获得比较好的聚类正确率。
最后,本文在介绍基因序列数据的同时对随机DNA序列加密技术作了初步研
究,设计实现随机DNA序列加密解密模型。