收藏本站
《湖南大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基因表达缺失数据填充算法研究

杨涛  
【摘要】:DNA微阵列技术使人们可以同时观测成千上万个基因的表达水平,对其数据的分析已成为生物信息学研究的焦点。但是,在基因表达数据产生过程中存在一些因素导致获得的数据中包含有大量的缺失值,为后续的数据分析工作带来了极大的困难,甚至使分析结果出现严重错误。因此,基因表达缺失数据的填充是生物数据挖掘过程中的重要预处理步骤,也是研究重点之一。 基于K个最近邻居的填充算法是基因表达数据中经典的缺失值填充算法。但算法没有考虑基因表达数据间的相关性,本文提出一种基于马氏距离的缺失值填充算法。该算法使用考虑了数据间相关性的马氏距离选择邻居基因,并利用Shannon信息熵确定更为合理的邻居基因权重系数,有效地提高了对缺失数据的填充准确度。 模糊C-均值算法是聚类分析中广泛使用的聚类方法,在基因表达数据分析中也有较多的应用。本文利用模糊C-均值算法能很好地处理数据间的重叠性和相关性的特点,将它应用到基因表达数据的缺失问题处理中,提出了基于模糊C-均值的填充算法。算法针对不同的数据集,给出了动态确定聚类参数的方法,然后对经过初始填充的非完整基因表达数据进行聚类分析,利用聚类结果对缺失数据进行估计和填充。该算法自适应地确定聚类参数,增强了聚类的有效性,从而提高了填充结果的正确率。 模糊C-均值算法受初始条件影响较大,在迭代过程中容易陷入局部极小。因此,论文在上述算法的基础上,利用迭代局部搜索策略来解决局部最优问题,并且使用新的聚类有效性指标优化聚类结果,较大程度上改善了聚类结果,提高了缺失值估计的准确度。实验结果表明填充准确度较原算法有较大的提高。
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP301.6

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 朱娴;马卫;;基于模拟退火的文化混合双聚类优化算法[J];计算机与数字工程;2011年07期
2 陈刚;陆媛;杨慧中;;基于小波去噪和改进的FCM算法的基因表达数据分析[J];计算机与应用化学;2011年07期
3 王修竹;;基于SOM的聚类算法在抑郁症药物药效检测中的应用[J];西南科技大学学报;2011年02期
4 宋艳佩;李一喆;李超;吴万涛;;基于单调邻域粗糙集的特征基因提取[J];电脑知识与技术;2011年19期
5 赵龙山;于小玲;胡国杰;吴发启;魏晓妹;;基于GIS的基因表达图谱模型的建立与应用[J];中国细胞生物学学报;2011年04期
6 周世兵;徐振源;唐旭清;;一种基于近邻传播算法的最佳聚类数确定方法[J];控制与决策;2011年08期
7 金圣华;刘红;;基于概率模型-gMOS的基因芯片数据分析[J];电脑知识与技术;2011年25期
8 宋杰;;线性规划ν-支持向量机的牛顿法[J];计算机工程与应用;2011年26期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 杨昆;李建中;王朝坤;徐继伟;;基因表达数据的基于类别树和SVMs的多类癌症分类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 徐旭东;郑欣;;基于Struts的基因表达数据分析软件的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 陈军;潘艳;唐世星;张吉强;易东;;小脑基因表达数据的模糊多尺度聚类分析[A];重庆市预防医学会2010年论文集[C];2011年
4 李鹏;阮晓钢;;一种预测多骨髓瘤的神经网络方法[A];第二十二届中国控制会议论文集(下)[C];2003年
5 杨波;卢学春;于力;朱宏丽;范辉;姚善谦;楼方定;;靶向上调ID4基因表达药物的生物信息学预测、分析和初步验证[A];第12届全国实验血液学会议论文摘要[C];2009年
6 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
7 齐静;张欣;;三维人体数据统计分析预处理研究[A];2005现代服装纺织高科技发展研讨会论文集[C];2005年
8 王章辉;赵宇海;王国仁;李源;;一种基于投影聚类的无监督表型区分算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 梅桢;申琦;冶保献;;用于基因表达数据模式识别的KNN和SVM集成算法[A];中国化学会第26届学术年会化学信息学与化学计量学分会场论文集[C];2008年
10 张文广;李金泉;菊林花;赖双英;;应用Affymetrix基因芯片数据集开发基因表达的秩分析方法[A];遗传学进步与人口健康高峰论坛论文集[C];2007年
中国重要报纸全文数据库 前7条
1 吴义勤;正在崛起的“新鲁军”[N];文艺报;2002年
2 郭 崧;如何保证市场调研的质量[N];中国信息报;2004年
3 陈文杰 边际;中学生普遍情感贫乏[N];中国妇女报;2004年
4 设计、分析、执笔 施星辉;中国企业家读书状况调查[N];中国图书商报;2001年
5 李开鹏 温德成;SPSS帮你绘制质量控制图[N];中国质量报;2005年
6 刘;《世界优秀统计工具SPSS11.0统计分析教程(高级篇)》[N];中国图书商报;2002年
7 沈崇麟;应用社会学的现状及其发展趋势[N];中国社会科学院院报;2005年
中国博士学位论文全文数据库 前10条
1 张焕萍;面向基因表达数据的致病基因挖掘方法研究[D];南京航空航天大学;2009年
2 蔡瑞初;基因表达数据挖掘若干关键技术研究[D];华南理工大学;2010年
3 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
4 王广云;肿瘤基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2009年
5 蔡立军;基因分类及基因表达数据分析方法的研究[D];湖南大学;2007年
6 邱浪波;基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2007年
7 缪裕青;关联规则挖掘及其在基因表达数据中的应用[D];中国科学技术大学;2007年
8 杨锡南;基于基因芯片表达谱的癌症预后元分析方法研究[D];东南大学;2006年
9 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年
10 马猛;面向生物数据的关联规则挖掘算法及其应用研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 苗成凯;基于HMM的基因表达数据聚类分析算法研究[D];吉林大学;2010年
2 吕阳;生物基因表达数据中局部线性模式的挖掘[D];哈尔滨工业大学;2009年
3 易辉;基因表达数据聚类分析[D];南京航空航天大学;2007年
4 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
5 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
6 陈佳妮;基因表达数据分析中IGA-FCM聚类算法研究与实现[D];东北林业大学;2010年
7 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
8 张礼;寻找差异基因的概率方法研究[D];南京航空航天大学;2010年
9 张彦琦;基因调控网络建立的数学模型研究[D];第三军医大学;2003年
10 张志国;基于生成树基因表达数据聚类方法分析[D];东北大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026