基于神经网络和小波分析技术的基因表达谱数据分析
【摘要】:摘 要
利用基因芯片,可以并行观察某一生命现象中成千上万的基因的动态表达水
平,使得人们能够在基因组水平上以系统的、全局的观念去研究生命现象及其本
质。基因芯片技术已经应用到肿瘤分型、肿瘤分类、基因功能研究、基因之间调
控网络构建以及药物靶位识别等等许多方面。从本质上讲,通过基因芯片技术实
验所直接获得的是一个基因表达谱数据集,任何对基因芯片技术的实际应用都是
通过对基因表达谱数据的生物信息学处理来实现的。本文正是在这样一个背景
下,研究适于基因表达谱数据的信息学数据处理方法,包括对肿瘤分型、分类的
研究以及对基因功能的聚类分析等。
本文首先讨论了基于小波分析的降噪方法,取得了非常有效的预处理效果。
随后,本文提出了将离散小波变换技术与传统的相关系数排序法相结合的特征提
取方案。实验和对比分析表明,该方法可以稳定的提高正确识别率,性能稳定,
对提取的特征个数不敏感,鲁棒性好,并且可以和各种后端分类器配合使用。
在特征提取之后,本文讨论了两个紧密相关的应用领域:肿瘤分类和基因聚
类。在肿瘤分类中,主要研究了加权判决法和基于人工神经网络的方法。在人工
神经网络方法中,对比了径向基函数方法、BP 网络法和概率神经网络方法。实
验结果表明,概率神经网络作为分类器,识别率高,训练时间短,鲁棒性好。可
以得出这样的结论:针对本文的研究对象,基于小波分析的特征提取方法和概率
神经网络分类器相结合的分类系统,总体性能优于大部分传统的方法。该分类系
统在对 Alon 的结肠癌数据集、Bhattacharjee 的腺癌数据集和 Golub 的白血病数
据集进行处理时,分类性能均达到或超过了公开发表的实验结果。
在研究基因的聚类分析过程中,实现并对比了以下几种方法:层次聚类法、
k 均值法、模糊 C 均值法和自组织特征映射神经网络方法。利用聚类方法对三个
公共数据集分别进行处理和分析,实现了对相似功能基因组的聚类,聚类结果可
以辅助病理学家进行进一步的有关基因功能和药物靶基因的研究。