收藏本站
《江苏科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基因表达谱数据特征选择算法研究

朱钦平  
【摘要】:基因芯片技术是一种新型的分子生物学技术,也是一项具有深远影响的重大科学成就。基因芯片技术可以快速准确的生成大量的微阵列基因表达谱数据,使人们从分子水平上了解基因的表达模式和微观层面上研究生命现象。由于基因表达谱数据具有样本小、维数高、噪声大、冗余基因大量存在、分布不平衡等特点。所以,采用合适的方法降低特征维数,选择具有代表性的特征基因就成为一项重要的数据处理的工作。 针对基因表达谱数据样本小,分布不平衡,噪声大,不符合正态模型的特点。提出了两种基于稳健统计思想的估计量,这两种统计量即考虑了样本总体的信息,但同时避免过于依赖对正态模型的假设。实验表明,将这些统计量应用到T统计量算法选择差异表达基因的问题中,获得了较好的分类效果。 支持向量机技术是一种基于结构风险最小化的分类技术,L-J算法是一种通过研究支持向量机分类提出的特征选择算法。根据K-L变换理论,任意向量都可以写成正交空间中投影到各个坐标的分量的和的形式。因此,改进后的L-J算法用分类超平面的梯度向量在各坐标轴的分量取代了梯度向量与各坐标轴的夹角计算,同时能获得与L-J算法相同的效果。 针对基因表达谱数据含有大量冗余基因,冗余基因的存在影响分类效果的问题,提出了一种基于相关系数的方法将基因表达谱数据的每个基因映射成为特征空间的向量,然后在特征空间将映射后的向量按某种规则聚类,聚类完成后,在每一子类中选取一个代表向量组成特征子集。实验表明,该算法降低了特征维数,提高了分类效果。 遗传算法是一种智能化的大规模搜索算法。本文在充分考虑基因表达谱数据的特点的基础上,提出了一种应用于特征选择的改进型遗传算法。该算法将遗传算法,免疫算法,过滤法,启发式方法,支持向量机分类技术相结合,获得了较小的,分类能力较强的特征子集。
【学位授予单位】:

知网文化
【相似文献】
中国博士学位论文全文数据库 前2条
1 张靖;面向高维小样本数据的分类特征选择算法研究[D];合肥工业大学;2014年
2 李云;特征选择算法及其在基于内容图像检索中的应用研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前2条
1 李晓红;中文文本分类技术研究[D];兰州理工大学;2009年
2 张杰慧;特征选择算法研究及其在孤立肺结节诊断中的应用[D];重庆大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978