收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基因数据相似性分析方法研究

骆嘉伟  
【摘要】: 随着人类基因组计划的开展,以及各种生物基因序列的研究,产生了越来越多的庞大的分子序列数据,对这些序列数据进行科学的分析和处理推动了生物信息学的发展。序列相似性分析是生物信息学的基础,通过相似性分析获得的大量序列信息可以用来推断基因的结构、功能和进化关系,因此基因数据的相似性分析方法研究已成为生物信息学领域中一个非常重要的研究课题。 论文在综述基因数据表示以及相似性分析方法研究现状的基础上,对聚类分析方法、序列相似度度量方法、基因数据的空间表示和基于空间表示的相似性分析方法进行了系统研究。本文取得的研究成果主要有: 1.提出了一种基于多维伪F统计量的基因表达动态聚类分析方法。该算法可动态地调整聚类个数,根据多维伪F统计量获得最佳聚类数目,实验结果表明该算法聚类质量较好。针对基因微阵列数据缺失值严重影响聚类结果,本文利用模糊C-均值算法能很好地处理数据间的重叠性和相关性的特点,将它应用到基因表达数据的缺失问题处理中,提出了基于模糊C-均值的填充算法FCMimpute,实验结果表明,FCMimpute填充在处理缺失值问题上是可行的、有效的,并且其填充性能表现尤为优越。 2.提出了一种基于比对相似度动态矩阵的聚类算法。在DNA基因序列方面,本文研究分析了基于图BAG聚类算法,给出了一种cutoff初始值、最小长度阀值和分割/合并类的确定方法,提出基于比对相似度动态矩阵的聚类算法。实验结果表明该算法具有较好的聚类正确率。 3.提出一种基于双重核苷酸出现频率的序列相似度度量方法。针对大量DNA多序列比对计算复杂问题,给出了DNA序列的相邻双重核苷的分类,通过序列的数字特征描述序列,给出了一种基于双重核苷酸出现频率的序列相似度度量方法,可有效地表示序列的相似度,且计算简单。 4.提出了一种DNA序列图形表示,定义了一个序列特征参数,给出了可凝聚层次聚类的进化树构建算法。针对DNA序列的图形表示存在退化现象,本文提出一种3D曲线表示法—N曲线,证明了N曲线中不存在环和退化现象,且符合DNA序列的对称性;定义了一个新的序列特征参数Z_inv,该特征参数计算简单且非常接近于特征值λ;根据DNA序列三维图形表示,提出一种基于可凝聚层次聚类的进化树构建算法,实验结果表明了该算法的有效性。 5.提出了RNA二级结构的2D、3D、4D空间表示方法,对RNA二级结构进行了相似性分析。针对RNA二级结构表示法中主要的高复杂性和退化问题,本文提出了RNA二级结构的2D、3D、4D空间表示方法,并证明了该表示法的有效性,采用矩阵不变量对RNA二级结构进行了相似性分析,通过不同物种的RNA二级结构的相似性/相异性比较实验,表明了该方法的有效性。 6.提出了一种蛋白质序列的6D表示,定义了一种蛋白质组的相似性度量方法。根据氨基酸的分类提出蛋白质序列的6维表示方法,并获得了一些数值特征,给出了蛋白质序列的特征构造方法,并根据提取的特征参数定义蛋白质组的相似性度量方法并构建系统发育树,与现有的构建进化树方法不同的是,该方法不需要多序列比对,实验结果表明了该方法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴晓菊;马继英;陈学林;;崆峒山种子植物区系与其他植物区系相似性分析[J];甘肃科学学报;2009年01期
2 杨少荣;高欣;马宝珊;孔焰;刘焕章;;三峡库区木洞江段鱼类群落结构的季节变化[J];应用与环境生物学报;2010年04期
3 ;《物探化探计算机技术》一九八八年第一~四期总要目[J];物探化探计算技术;1988年04期
4 江野;丁艳;马桂祥;;灰色聚类方法在植物栽培气候区划上的应用[J];北京交通大学学报;1988年02期
5 栗淑媛,郑连斌,陆舜华,李咏兰;内蒙古18个人群13项遗传指标的聚类分析与主成分分析[J];天津师范大学学报(自然科学版);2004年03期
6 陈栋;;省会经济的分类分析[J];交通科技与经济;2006年06期
7 刘云;廉李章;;关于甘肃经济增长的产业集聚的实证分析[J];天津市经理学院学报;2006年06期
8 李雅楠;孟昆;杨培龙;王亚茹;姚斌;柏映国;罗会颖;;芽胞杆菌β-甘露聚糖酶基因部分序列的克隆及相似性分析[J];微生物学通报;2007年01期
9 房海灵;李维林;梁呈元;任冰如;王小敏;;薄荷属植物的数量分类[J];安徽农业科学;2007年26期
10 苏飞;胡超美;;苏北沭阳县与苏南、苏中产业结构相似性研究[J];科技信息;2008年30期
11 王盛;曲鑫;;甘肃金川南延地球化学偏相关组合异常信息提取与分析[J];硅谷;2010年09期
12 罗文兵;吴润秀;王明文;朱莹婷;熊超;;基于结果聚类分析的个性化推荐模型[J];广西师范大学学报(自然科学版);2010年01期
13 郝艳霞;韩峰林;徐践;董春艳;黄凤茹;;城市热岛效应及对锡林浩特气候变化的影响[J];内蒙古气象;2010年06期
14 田建国;;聚类分析的代数法[J];山东师范大学学报(自然科学版);1983年02期
15 谢维辉;聚类分析在划分农业区域上的应用[J];数理统计与管理;1986年05期
16 王伯荪,余世孝,张宏达,胡玉佳,陆阳,毕培曦,钟(舀焱)兴;香港岛森林群落的聚类与排序[J];植物生态学报;1988年01期
17 黄乘明;胡锦矗;;野外大熊猫调查方法的研究[J];西华师范大学学报(自然科学版);1989年01期
18 秦作栋;赵修齐;解美良;;运城七县典型褐土肥力类型的数值分析[J];山西师范大学学报(自然科学版);1989年02期
19 钟兴水,张超谟;单曲线逻辑分层方法[J];测井技术;1990年02期
20 王俊;赵士鹏;姜建祥;王宁;;吉林省河流水质分析[J];东北师大学报(自然科学版);1991年04期
中国重要会议论文全文数据库 前10条
1 忻雅;王伟科;阮松林;王世恒;马华升;;基于RAPD和EST-SSR标记的秀珍菇菌株聚类分析[A];中国菌物学会第四届会员代表大会暨全国第七届菌物学学术讨论会论文集[C];2008年
2 鲁振华;宋银花;牛良;刘淑娥;王志强;;PermutMatrix软件及其在观赏桃形态性状聚类分析中的应用[A];中国园艺学会桃分会第二届学术年会论文集[C];2009年
3 马汉武;郭沛尧;;基于供应链的供应商分类模型及其管理策略研究[A];现代工业工程与管理研讨会会议论文集[C];2006年
4 张凤兰;郝丽珍;王萍;杨忠仁;王六英;张进文;;蒙古高原特有属——沙芥属蔬菜植物果实和种子形态指标聚类分析[A];中国园艺学会第七届青年学术讨论会论文集[C];2006年
5 李国良;李忠富;;基于聚类的企业绩效熵值评价方法研究[A];第十一届中国管理科学学术年会论文集[C];2009年
6 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
7 杨欣斌;黄道;;一种新的聚类算法[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 曾志锋;张玉霞;韦群;;鳄蜥的生境选择[A];中国动物学会两栖爬行动物学分会2005年学术研讨会暨会员代表大会论文集[C];2005年
9 房海灵;李维林;于盱;梁呈元;;薄荷属植物的数量分类[A];中国植物学会植物结构与生殖生物学专业委员会、江苏省植物学会2007年学术年会学术报告及研究论文集[C];2007年
10 金友玉;;湖北省区域经济差异综合评价及分类分析[A];2007中国科协年会专题论坛暨第四届湖北科技论坛优秀论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 赵宁;理中丸和四君子汤与脾虚证方证相关性的实验研究[D];中国中医科学院;2006年
2 曹锋;数据流聚类分析算法[D];复旦大学;2006年
3 吕崇山;代谢综合征中医辨证分型及其与临床检测指标的相关性研究[D];福建中医学院;2008年
4 袁军宝;我国农业现代化进程中的农户兼业经营问题研究[D];兰州大学;2009年
5 邵伟钰;地方政府债务风险预警体系研究[D];苏州大学;2008年
6 吴飞珍;基因芯片数据的聚类功能评价算法和判别分析算法研究[D];上海大学;2009年
7 骆嘉伟;基因数据相似性分析方法研究[D];湖南大学;2008年
8 管河山;金融多元时间序列挖掘方法研究与应用[D];厦门大学;2008年
9 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
10 李海民;遗传算法性能及其在聚类分析中应用的研究[D];西安电子科技大学;1999年
中国硕士学位论文全文数据库 前10条
1 卜凡艳;鸡肉香气特征指纹图谱研究[D];浙江工商大学;2008年
2 刘小俊;中国南瓜属(Cucurbita spp)部分栽培种遗传多样性研究[D];四川大学;2005年
3 李文慧;江西省人口空间动态特征研究[D];江西师范大学;2006年
4 邹琼;中小学生自我表露特点的发展研究[D];华东师范大学;2007年
5 王文平;聚类分析及其在图像分割中的应用[D];山东师范大学;2007年
6 陈弘;基于因子分析对信用评级方法的研究[D];吉林大学;2007年
7 马晓晴;中国经济增长质量的区域差异研究[D];西北大学;2008年
8 张白妮;基因数据聚类分析研究[D];湖南大学;2005年
9 于泓漪;道路交通事故原因的聚类分析[D];吉林大学;2005年
10 曲华;一种双聚类算法的实现与改进[D];吉林大学;2005年
中国重要报纸全文数据库 前10条
1 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
2 中谷期货 杨静;期货公司客户信用风险评级体系研究[N];期货日报;2007年
3 YMG记者 孙长波;烟台经济增速全球第三[N];烟台日报;2008年
4 符信;30个指标评价社会发展水平[N];南方日报;2005年
5 雨文;全国专家聚云财大研讨区域经济学[N];云南日报;2006年
6 中国社会科学院研究生院人文学院 王昌燧 朱剑 朱铁权;原始瓷产地研究之启示[N];中国文物报;2006年
7 王式跃;对宁波区域经济发展差异的分析[N];中国信息报;2007年
8 蒋志华 杨诚 陈晓卫 从日玉 李瑞娟;中国公众统计素养调查研究[N];中国信息报;2009年
9 记者 王宝琳;我首次采用基因组学技术研究中药[N];科技日报;2009年
10 江洪波;我国封闭式基金绩效评价实证研究[N];中国证券报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978