生物信息数据挖掘中的若干方法及其应用研究
【摘要】:许多生物(包括人在内)的基因组测序已经完成或接近完成,在揭示这些巨量数据所蕴涵的信息时,产生了一门新的交叉学科—生物信息学,通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。数据挖掘技术用于在数据库中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文探讨若干生物信息数据挖掘的方法及其应用,主要工作如下:
1.用支持向量机和FDOD两种方法对同源寡聚蛋白质进行了分类研究。Garian R.利用决策树方法从蛋白质一级结构出发对同源二聚体和同源非二聚体进行了分类,证实了蛋白质一级结构即氨基酸序列包含四级结构信息。本文用SVM和FDOD两种方法对同源二聚体和同源非二聚体进行分类,利用原始序列的子序列分布作为特征向量。采用和决策树方法同样的数据集,两种方法均大幅度提高了预测准确率。本文也对同源二聚体、同源三聚体、同源四聚体和同源六聚体进行了分类,取得了好的结果。
2.构造了基于线性规划的ν-SVM分类器。Scholkopf B等提出的基于二次规划的ν-支持向量机(ν-SVM)相比标准的SVM,其优势在于可以控制支持向量的数目和误差,但由于增加了模型的复杂性,限制了其应用。本文构造了一种基于线性规划的ν-SVM分类器,模型简单,参数ν具有明确的意义,同样可以控制支持向量的数目和误差,可以直接利用比较成熟的线性规划算法。数值试验表明,本文提出的基于线性规划的ν-SVM的训练速度要比基于二次规划的ν-SVM快得多,而分类效果两者相当。
3.提出了无参数鲁棒线性规划支持向量机分类的牛顿算法。Mangasarian O L最近提出的无参数鲁棒线性规划支持向量机克服了标准SVM需要选取正则化参数等一些缺点,其模型是一个线性规划。本文给出了这种线性规划的精确的最小2-范数解,在此基础上提出了快速的牛顿算法,此算法只需要一个线性方程组解算器。理论、数值实验以及在癌症基因表达数据分类上的应用都表明了用牛顿算法实现的无参数鲁棒线性规划支持向量机模型合理、简单,算法快速、容易实现。
4.用FDOD方法对DNA序列进行相似性分析。序列的比较是生物信息学中最常用的研究手段之一,其根本任务是发现序列之间的相似性和不相似性。序列比对是序列比较的主要方法,但有其不足之处,所以很多人寻求用其他方法来比较DNA序列。本文
|
|
|
|
1 |
张新光,王建华;数据仓库信息处理技术研究[J];齐齐哈尔大学学报;2000年03期 |
2 |
丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期 |
3 |
任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期 |
4 |
王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期 |
5 |
邵红全,赵茜;用SQL Server2000实现数据挖掘的技术与策略[J];电脑开发与应用;2003年04期 |
6 |
耿庆鹏,卢子芳;利用数据挖掘技术实现对电信行业用户欺诈行为的预测[J];电信快报;2003年10期 |
7 |
蒋良孝,蔡之华;基于数据仓库的数据挖掘研究[J];计算技术与自动化;2003年03期 |
8 |
叶静,蔡之华;遥感图像中的数据挖掘应用概述[J];计算机与现代化;2003年10期 |
9 |
黄解军,万幼川,潘和平;银行客户关系管理与数据挖掘的应用[J];计算机工程与设计;2003年07期 |
10 |
崔强,朱卫东;基于数据挖掘的铁路机务段成本控制系统[J];铁路计算机应用;2003年01期 |
11 |
杨思春;基于数据仓库的数据挖掘技术分析研究[J];微机发展;2003年09期 |
12 |
汤效琴,戴汝源;数据挖掘中聚类分析的技术方法[J];微计算机信息;2003年01期 |
13 |
李月芳,孙俊;数据挖掘及其在电网故障诊断中的应用[J];农机化研究;2003年04期 |
14 |
陈勍;数据挖掘技术及其应用[J];医学信息;2004年04期 |
15 |
;中国科学院数据挖掘与知识管理学术研讨会在京举行[J];管理评论;2004年07期 |
16 |
曾贞;数据挖掘在电子商务中的应用[J];甘肃农业;2004年07期 |
17 |
陈钟;基于DSO的数据挖掘应用[J];广西师范学院学报(自然科学版);2004年S1期 |
18 |
柯文德;一种基于数据挖掘的分布式入侵检测模型[J];计算机测量与控制;2004年08期 |
19 |
徐玲;基于案件综合信息分析挖掘的研究[J];广东公安科技;2004年01期 |
20 |
赵明清;蒋昌俊;陶树平;;基于等价相异度矩阵的聚类[J];计算机科学;2004年07期 |
|