收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基因数据聚类分析研究

张白妮  
【摘要】:生物学和医学的迅速发展以及基因芯片的逐步实用化都使得同时比较和研究 大量基因的特性成为可能,随之产生了海量的基因数据。通过分析这些数据可以 获得对人类有益的有关生物结构和功能的信息,对基因数据的分析研究已成为生 命科学、数学科学与计算机科学等学科非常活跃的交叉课题之一。聚类分析是基 因数据分析的一种重要手段,本文着重研究基因表达数据和基因序列数据中的聚 类分析算法。 针对目前常用的基因表达数据聚类分析算法中存在的参数依赖性强,并且在 整个聚类过程中类的数目始终保持不变的缺点,本文引入动态调整聚类个数的思 想;针对不能对空间中有部分重叠的点进行有效的分类从而不能得到全局最优的聚类结 果,本文进一步引入伪F统计量,提出了一种基于多维伪F统计量的动态K-均值聚类 算法。根据用户要求的聚类次数,每次开始于基因表达数据中两两基因间在多维表达水 平下的相似度矩阵,动态地选取一定数目的基因作为初始聚类群,根据离差平方和法, 不断精练初始聚类群,从而使得聚类个数不断地变化,且动态地向正确的聚类个数逐渐 收敛。该算法能保证最终聚类结果类内散布矩阵之迹达到最小,把多维空间的数据点有 效划分为具有特定数目的不同的类,给出最佳聚类个数。 基于图BAG的聚类算法是基因序列数据分析中经典的聚类算法,但在该算法中相似 分数阀值初始值和最长公共子串最小长度阀值如何确定没有明确给出,本文提出了一种 基于比对相似度动态矩阵SZDM的聚类算法,利用动态矩阵来表示序列间的匹配 关系,明确给出了确定相似度分数阀值和最长公共子串的最小长度阀值的方法, 使得算法具有较好的聚类正确率。 本文对上述研究进行了验证和分析。实验结果表明:基于多维伪F统计量的 动态K-均值聚类算法可以动态地调整聚类个数,给出了最佳聚类数目;基于比对 相似度的动态矩阵的序列聚类算法可以获得比较好的聚类正确率。 最后,本文在介绍基因序列数据的同时对随机DNA序列加密技术作了初步研 究,设计实现随机DNA序列加密解密模型。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
2 骆嘉伟;李仁发;张白妮;;基于多维伪F统计量的基因表达动态聚类分析方法研究[J];系统仿真学报;2006年03期
3 王文俊;张军英;杨利英;;基于类别保留投影的基因表达数据降维方法[J];四川大学学报(工程科学版);2009年06期
4 季瑞瑞;刘丁;;支持向量数据描述的基因表达数据聚类方法[J];智能系统学报;2009年06期
5 孙亮;赵芳;王永吉;;DENGENE:一种高精度的基于密度的适用于基因表达数据的聚类算法[J];计算机应用研究;2007年04期
6 王开军;李健;张军英;过立新;;聚类分析中类数估计方法的实验比较[J];计算机工程;2008年09期
7 唐世星;陈军;柯凤琴;;基于FCM算法的小脑基因模糊聚类分析[J];数学的实践与认识;2010年12期
8 毛韶阳;李肯立;;一种基因数据的聚类并行算法研究[J];微电子学与计算机;2007年09期
9 齐志;李季;赵晓丹;;基于NLPCA的聚类可视化方法[J];吉林大学学报(信息科学版);2010年05期
10 徐旭东;郑欣;;基于Struts的基因表达数据分析软件的设计与实现[J];微电子学与计算机;2006年S1期
11 张国印;程慧杰;刘咏梅;姚爱红;;一种新算法在基因表达谱聚类中的应用[J];计算机工程与应用;2009年36期
12 周世兵;徐振源;唐旭清;;基于近邻传播算法的最佳聚类数确定方法比较研究[J];计算机科学;2011年02期
13 周世兵;徐振源;唐旭清;;一种基于近邻传播算法的最佳聚类数确定方法[J];控制与决策;2011年08期
14 曹晖;席斌;米红;;一种新聚类算法在基因表达数据分析中的应用[J];计算机工程与应用;2007年18期
15 朱娴;马卫;;一种基于层次聚类的双聚类算法[J];微计算机应用;2009年05期
16 李巧;孔薇;;改进的非负矩阵分解在基因表达数据中的应用[J];信息技术;2010年12期
17 常程,李铮,周荫清;半导体激光器光谱的聚类分析[J];光子学报;1999年12期
18 ;上海建成国内首家基因数据库[J];中国兽医学报;2000年04期
19 邓庆山;;聚类分析在基因表达数据上的应用研究[J];计算机工程与应用;2005年35期
20 李冬;谢宗宝;郑秋燕;;基于聚类分析的协作学习分组方法的讨论[J];软件导刊;2005年06期
中国重要会议论文全文数据库 前10条
1 毛韶阳;李肯立;;一种基因数据的聚类并行算法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
2 崔光照;曹祥红;张华;;基于小波变换的基因表达数据去噪聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
3 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
4 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
5 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
6 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
7 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
8 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
9 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
10 曾志锋;张玉霞;韦群;;鳄蜥的生境选择[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
2 骆嘉伟;基因数据相似性分析方法研究[D];湖南大学;2008年
3 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
4 曹锋;数据流聚类分析算法[D];复旦大学;2006年
5 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
6 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
7 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
8 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
9 黄德生;基因表达数据在肿瘤诊断、基因功能预测中的应用研究[D];中国医科大学;2009年
10 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 张白妮;基因数据聚类分析研究[D];湖南大学;2005年
2 高倩倩;基因表达数据的聚类算法研究及其实现[D];江南大学;2009年
3 马煜;微阵列数据的聚类算法研究[D];西北大学;2006年
4 刘天飞;基于遗传算法的基因芯片数据聚类研究[D];四川农业大学;2008年
5 王晗;整合变化量与变化趋势的共调控基因相似性度量[D];吉林大学;2008年
6 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
7 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
8 朱婵;聚类算法在基因表达数据分析中的应用研究[D];暨南大学;2005年
9 李建飞;基因表达数据的聚类算法研究[D];燕山大学;2009年
10 陈佳妮;基因表达数据分析中IGA-FCM聚类算法研究与实现[D];东北林业大学;2010年
中国重要报纸全文数据库 前10条
1 李响;Google“潜入”人类DNA[N];计算机世界;2008年
2 王海滨;我国科学家发布羊驼细胞色素b基因数据[N];中国高新技术产业导报;2005年
3 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
4 安吉;生命探索新引擎[N];科技日报;2009年
5 吴洣麓 唐逸;科学家用电脑预测生老病死[N];北京科技报;2006年
6 董欢霁;借助基因检测手段NSCLC迈向个体化治疗[N];医药经济报;2006年
7 倪红梅;日本:DNA检测,除了亲子鉴定,还能用来美容[N];新华每日电讯;2006年
8 陈勇;爬行动物“进化家族树”可能根据基因分析改写[N];新华每日电讯;2005年
9 李雅云;知识产权的新拓展[N];学习时报;2007年
10 毛永照;国家人口计生委在江口采集土家族男性基因数据[N];铜仁日报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978