收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

不平衡数据的模糊聚类算法研究及在宏基因组重叠群分类中的应用

刘云  
【摘要】:不平衡数据集是指类与类之间的尺寸、样本个数以及样本密度等参数差别很大,这种数据类型存在于很多实际的问题中,例如医学疾病数据、网络异常数据、宏基因组数据等。对这些不平衡数据集,利用传统的无监督分类方法,如模糊c均值算法进行聚类,效果并不理想。到目前为止,绝大部分关于不平衡数据的分类研究都集中在有监督分类领域。因此,研究并改善传统的无监督分类方法对不平衡数据的聚类性能,对进一步完善不平衡数据的分类研究、扩大传统无监督分类方法的适用范围,具有十分重要的意义。本文以模糊c均值算法(fuzzy c-means method,FCM)为基础,重点研究利用该方法对不平衡数据进行聚类分析时所涉及的几个关键问题,并将研究成果应用于宏基因组DNA重叠群的无监督分类,具体研究内容如下:(1)提出一种基于聚类体量约束的模糊c均值算法传统FCM算法对不平衡数据聚类效果不理想的根本原因是其使用了一种平方和形式的代价函数,最小化该代价函数将使得聚类结果中各类间的样本数量相近。因此,在不平衡数据的聚类结果中,一部分来自多数类的样本会被误分到其相邻的少数类中。为了解决此问题,本文提出一种基于聚类体量约束的模糊c均值算法,该算法在考虑各个类的体量(类的体量是指所有样本对于某一类的隶属度值之和,可用来衡量类的大小)的基础上构造了一个新的代价函数,该代价函数在聚类结果中允许少数类的存在,从而改善了传统的FCM算法对不平衡数据的聚类性能。同时,对平衡数据,该算法具有与传统FCM算法相同的聚类性能。(2)提出一种基于聚类体量约束的模糊c-harmonic均值算法针对传统FCM算法因对初值敏感而易陷入局部最优的缺陷,在(1)中所提算法的基础上,结合c-harmonic均值算法,提出了一种基于聚类体量约束的模糊c-harmonic均值算法,该算法对初值不敏感,同时对不平衡数据具有良好的聚类性能。(3)提出一种新的适用于不平衡数据的聚类准则函数在无监督分类中,确定聚类个数十分重要。利用FCM算法进行聚类分析时,需要预先设定聚类个数。确定聚类个数的一般方法为:分别以不同的聚类个数运行若干次FCM算法,再用一个事先定义的函数从中确定最优的聚类结果,该函数一般称为聚类准则函数(clustering validity index,CVI)。现有的CVI一般是通过计算各个类内的聚合度以及类间的分离度来评价聚类结果。然而,在不平衡数据中,类间的尺寸会影响聚合度的评价效果。基于此,本文通过考虑聚类体量定义了一个新的类内聚合度,并结合传统类间分离度,提出一种新的聚类准则函数。该函数不仅可以有效地评价不平衡数据的聚类结果,而且对于平衡数据也具有良好的评价性能。(4)研究基于不平衡数据分析的宏基因组重叠群分类宏基因组学利用新一代测序技术在不经过实验室培养的情况下,能够获取环境中绝大部分的遗传物质。与传统的测序方法不同,宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重叠关系可以将这些零碎的短片段组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重叠群(contigs)。将这些重叠群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。然而,受宏基因组中不同物种间的丰度比、基因组长度等因素的影响,组装后属于不同物种的重叠群数量往往相差很多,因此,宏基因组重叠群数据是一种典型的不平衡数据集。如何对其进行有效地分类,是目前的一个研究难点。为了提高宏基因组重叠群的分类精度,本文利用上述研究成果对宏基因组重叠群进行基于不平衡数据的聚类分析。首先,根据已有细菌的全基因组长度以及宏基因组的平均覆盖率来估计宏基因组中的物种个数区间;其次,提取DNA重叠群的数字特征向量;最后,利用基于聚类体量约束的模糊c-harmonic均值算法和适用于不平衡数据的聚类准则函数完成重叠群的分类。与现有的重叠群无监督分类方法相比,该方法具有更好的分类效果。综上,本文进行了系统的面向不平衡数据的无监督分类研究,提出了从初值选取、无监督分类到聚类准则函数的完整的、适用于不平衡数据的算法体系,并将以上算法应用到宏基因组重叠群分类中,取得了比现有方法更好的分类效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 赵蓉;胡永峰;金奇;;宏基因组学及其在医学微生物学领域的应用[J];病毒学报;2009年03期
2 宋培勇;马莉莉;王庆容;李黛;魏志琴;;宏基因组技术及其应用研究进展[J];贵州农业科学;2009年10期
3 孟飞;俞春娜;王秋岩;谢恬;;宏基因组与宏基因组学[J];中国生物化学与分子生物学报;2010年02期
4 刘海燕;常玉梅;;宏基因组学及在人体微生物研究上的应用[J];中国现代医学杂志;2012年08期
5 阎冰,洪葵,许云,马超;宏基因组克隆——微生物活性物质筛选的新途径[J];微生物学通报;2005年01期
6 欧敏功;崔晓龙;李一青;李铭刚;彭谦;文孟良;;宏基因组学在未培养微生物研究中的应用[J];微生物学杂志;2007年02期
7 艾芳芳;杨桦;曲媛媛;周集体;李昂;关晓燕;苟敏;;宏基因组研究及其应用研究进展[J];环境科学与技术;2007年12期
8 楚雍烈;杨娥;;宏基因组学及其技术的研究进展[J];西安交通大学学报(医学版);2008年06期
9 冯美琴;;宏基因组学的研究进展[J];安徽农业科学;2008年02期
10 李慧;何晶晶;张颖;徐慧;陈冠雄;;宏基因组技术在开发未培养环境微生物基因资源中的应用[J];生态学报;2008年04期
11 强慧妮;田宝玉;江贤章;黄钦耿;柯崇榕;杨欣伟;黄建忠;;宏基因组学在发现新基因方面的应用[J];生物技术;2009年04期
12 张辉;崔焕忠;;宏基因组学及其研究进展[J];中国畜牧兽医;2010年03期
13 丁贤;殷波;李慧贤;杜纪坤;周世宁;;宏基因组学在微生物活性物质筛选中的应用[J];中国微生态学杂志;2010年06期
14 姜海琴;范彩云;李吕木;程建波;;宏基因组技术在筛选未培养微生物中新型酶的研究进展[J];湖北农业科学;2011年18期
15 印蕾;高向东;顾觉奋;;宏基因组技术研究进展[J];中国医药生物技术;2012年03期
16 何彪;涂长春;;病毒宏基因组学的研究现状及应用[J];畜牧兽医学报;2012年12期
17 苏定江;杨世辉;;宏基因组技术在污染治理中的研究进展[J];三峡环境与生态;2013年01期
18 于雷;于丽;张薇;陆丽丽;;宏基因组技术及其在酶制剂中的应用[J];食品科学;2013年09期
19 刘如运;黄毅梅;;宏基因组学及其在海洋微生物领域的应用[J];广东轻工职业技术学院学报;2013年01期
20 张倩倩;曹唱唱;丁啸;孙啸;;关联性特征在宏基因组分装中的应用[J];电子器件;2013年04期
中国重要会议论文全文数据库 前10条
1 阎冰;许云;马超;洪葵;;宏基因组克隆——微生物活性物质筛选的新途径[A];中国海洋生化学术会议论文荟萃集[C];2005年
2 张桂敏;王裔雄;胡勇;马立新;;一种简便快速构建宏基因组文库的方法[A];2008年中国微生物学会学术年会论文摘要集[C];2008年
3 黄雅丽;陆勇军;赖心田;张炯;林永成;周世宁;;南海微生物宏基因组文库的构建及功能基因初步筛选[A];微生物实用技术生态环境应用学术研讨会论文集[C];2008年
4 黄雅丽;李慧贤;张炯;杜纪坤;谭红铭;陆勇军;周世宁;;深海宏基因组文库筛选及新的功能基因[A];2010年第四届全国微生物遗传学学术研讨会论文摘要集[C];2010年
5 彭晴;张雪;关国华;李颖;;一个克隆自海洋底泥宏基因组文库的脂酶新基因[A];2008年中国微生物学会学术年会论文摘要集[C];2008年
6 代俊;江帆;彭方;方呈祥;;深海沉积物宏基因组文库中产甲壳素酶克隆的筛选[A];基因开启未来:新时代的遗传学与科技进步——湖北省遗传学会第八次代表大会暨学术讨论会论文摘要汇编[C];2009年
7 沈月毛;;通过构建宏基因组文库探讨植物美登木素生物合成起源[A];2008年中国微生物学会学术年会论文摘要集[C];2008年
8 谢福莉;陈大松;程国军;魏力;李友国;;通过宏基因组学途径研究参与氮素循环主要过程的相关功能新基因[A];2006年度学术研讨会论文摘要汇编[C];2006年
9 何彪;涂长春;;病毒宏基因组学的研究现状及应用[A];中国畜牧兽医学会兽医公共卫生学分会第三次学术研讨会论文集[C];2012年
10 牛泽;曾艳;王敏;杨慧;马荣才;高俊莲;;北京地区重金属污染土壤DNA提取及宏基因组文库构建[A];第十次全国环境微生物学术研讨会论文摘要集[C];2007年
中国博士学位论文全文数据库 前10条
1 高文渊;宏基因组来源酯酶基因的挖掘及其在非水相中催化性能的研究[D];华东理工大学;2016年
2 温燕;特发性间质性肺炎患者下呼吸道菌群结构研究[D];北京协和医学院;2016年
3 曹洋;人体宏基因组整合代谢网络的构建与分析[D];中国人民解放军军事医学科学院;2016年
4 邹晓辉;不明原因肺炎病例病原宏基因组学研究[D];中国疾病预防控制中心;2016年
5 丁啸;基于序列特征的宏基因组数据分析方法研究[D];东南大学;2016年
6 刘云;不平衡数据的模糊聚类算法研究及在宏基因组重叠群分类中的应用[D];吉林大学;2016年
7 苟敏;基于宏基因组的芳烃加氧酶获取及特性研究[D];大连理工大学;2011年
8 贺蕊;式根岛海绵宏基因组文库活性物质研究[D];重庆大学;2013年
9 常秦;宏基因组数据分析中的统计方法研究[D];山东大学;2012年
10 彭帅;应用宏基因组方法检测猪致病微生物及分析牛胃菌群组成[D];吉林大学;2015年
中国硕士学位论文全文数据库 前10条
1 覃千山;基于宏基因组的未培养互营烃降解菌‘Candidatus Smithella cisternae’的生物信息学研究[D];中国农业科学院;2015年
2 王伟;宏基因组学技术在病原体检测中的应用[D];安徽医科大学;2015年
3 周俊雄;天然木质纤维素降解机制的宏基因组学和宏蛋白质组学分析[D];福建师范大学;2015年
4 王兴兴;西藏开菲尔粒中优势菌的鉴定、分布与稳定性研究[D];上海海洋大学;2015年
5 邓云金;厌氧降解纤维素菌群的鉴定与发酵条件分析及其宏基因组文库构建[D];福建农林大学;2012年
6 赵文静;肠上皮特异性敲除自噬基因Atg5/Atg7小鼠肠道微生物宏基因组测序分析[D];上海交通大学;2015年
7 许悦;宏基因组读段组装融合与基因标注算法研究[D];湖南师范大学;2015年
8 胡资鹏;基于De Bruijn图的宏基因组序列组装算法研究[D];广西师范大学;2015年
9 汪俭;北黄海浮游病毒群落的宏基因组学研究[D];中国海洋大学;2015年
10 罗幸;宏基因组分类分析方法的研究和应用[D];东南大学;2015年
中国重要报纸全文数据库 前6条
1 记者 谭大跃 第五燕燕 实习生 栗洋洋;200余国际顶尖科学家聚深探讨宏基因组学[N];深圳特区报;2010年
2 记者 刘传书;我国科学家完成肠道微生物与Ⅱ型糖尿病的宏基因组关联分析[N];科技日报;2012年
3 王庆;宏基因组学:慧眼巧识微生物[N];工人日报;2014年
4 记者 熊燕;国际首例共生菌宏基因组文库在昆建成[N];云南日报;2009年
5 记者 杨婧如 通讯员 胡雯 刘佳;全球基因专家汇聚深圳话前沿[N];深圳特区报;2013年
6 通讯员 梁淡丽 记者 刘传书;中外科学家全方位分析全球微生物群落[N];科技日报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978