收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

高通量数据特征选择算法研究

耿耀君  
【摘要】:随着高通量检测技术的不断进步,在生命科学领域,人们获得了各种各样的高通量数据,如:基因表达数据,单核苷酸多态性数据等。这些数据为我们从多种层面去认识疾病发生的机理,同一物种不同种群间的差异等问题提供了详细的资料。但通常这些数据均是小样本高维数据,即:数据中样本个数远小于特征个数,直接用传统的模式分类方法处理它们时往往发生“维数灾难”现象。目前避免“维数灾难”现象的有效手段之一是:在模式分类之前,先用特征选择方法移除数据中的无关特征。本文以基因表达数据和单核苷酸多态性数据为例从如何考虑多个特征间的相互影响和如何定义揭示多个特征间相互影响的相关性测度两个角度对高通量数据的特征选择做了研究,主要工作如下: 1.由主分量分析与形状分析相结合的基因选择方法没有有效利用样本的类别信息。针对这一缺点,提出了一种新的基因选择方法,该方法将间隔最大化判别分析和形状分析相结合,在选择基因过程中不仅整体上考虑了基因与基因之间的相互作用,也考虑了基因与类之间的相互关系,提高了所选基因集的分类性能。在四组微阵列基因表达数据上的实验结果表明,所提方法的性能优于主分量分析与形状分析相结合的方法,与当前两个流行的多变量Filter方法相比,所提方法也具有一定的优势。 2.提出了一种基于最大条件相关最小冗余准则的特征选择方法:CMRMR。该方法可以看作是最大相关最小冗余方法的扩展,其主要特点是:在特征选择过程中,不仅考虑了已选特征与新选特征的相关性,也考虑了已选特征对新选特征与类标相关性的影响。我们分析了最大条件相关最小冗余准则与现有其它基于条件互信息的特征选择准则的异同,结果表明:现有基于条件互信息的方法均希望新选特征尽可能多的带来已选特征集中不含有的类标的信息,它们的不同之处在于实现这一目标的策略不一样。在模拟数据和基因表达数据上的实验结果表明CMRMR选择的特征集的分类性能在大多数数据上高于最大相关最小冗余方法,与其它基于条件互信息的方法性能相近。 3.目前常用的特征相关性测度可有效评估两个特征之间、单个特征与类标之间的相关性,但却是将特征孤立看待,没有考虑其它特征对它们相关性的影响。针对这一问题,在整体考虑特征之间关系思想的指导下,将稀疏表示技术应用于特征选择,提出一种基于稀疏表示系数的特征相关性测度,它与现有特征相关性测度的不同之处在于:可以揭示特征在数据中其它所有特征影响下与目标的相关性,反映特征间的相互影响。 4.为了验证稀疏表示系数作为一种特征相关性测度的有效性,我们首先在基因表达数据上考察了稀疏表示系数评估的前q个最相关的特征的分类性能,然后用稀疏表示系数分别替换最大相关最小冗余准则和经典方法FCBF中所用的相关性测度,构成新的特征选择准则和新的特征选择方法,并在基因表达数据上考察了新的准则和方法的性能。我们也将基于稀疏表示系数的上述方法和准则与现有的方法和准则进行了比较,相关实验结果表明:基于稀疏表示系数的方法和准则是有效的,它们在大多数数据上的性能高于现有方法和准则。 5.由于稀疏表示系数测度特征的相关性时,考虑了特征间的相互影响,因此稀疏表示系数可以在一定程度上揭示特征间的交互作用。为了清晰的认识稀疏表示系数这一特点的优势,重点考察了稀疏表示系数选择的单核苷酸多态性集合区分相近人群的能力。我们首先基于国际人类单体型图计划第三阶段的单体型数据构造了四个分类问题:美国人分类问题、亚洲人分类问题、非洲人分类问题和欧洲人分类问题,其中第一个分类问题中各人群差异比较大,后三个分类问题中的人群均比较相似。然后比较了基于稀疏表示系数和基于Symmetrical Uncertainty、修正的T-检验和Fst的特征选择方法选择的单核苷酸多态性集合的差异及分类能力。实验结果表明:基于稀疏表示系数选择的单核苷酸多态性集合的分类能力明显高于其它方法,尤其是在相近人群的区分问题上;基于稀疏表示系数选择的单核苷酸多态性集合与基于其它三个测度选择的单核苷酸多态性集合的差异比较大,所选单核苷酸多态性在染色体上的分布特点也不同。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王士同;修宇;;基于模型的基因表达聚类分析技术研究进展[J];江南大学学报(自然科学版);2006年03期
2 张黎;逄涣利;王小虎;王佳;;一种共调控基因C均值模糊聚类算法[J];计算机工程与应用;2010年07期
3 高倩倩;须文波;孙俊;;量子行为粒子群算法在基因聚类中的应用[J];计算机工程与应用;2010年21期
4 刘云如;蔡立军;易叶青;;基于G-ICA的组织样本分类算法[J];计算机工程与应用;2010年31期
5 李巧;孔薇;;改进的非负矩阵分解在基因表达数据中的应用[J];信息技术;2010年12期
6 徐旭东;郑欣;;基于Struts的基因表达数据分析软件的设计与实现[J];微电子学与计算机;2006年S1期
7 王艳;骆嘉伟;杨涛;吴君浩;;基于分段与运算的基因表达数据频繁项集挖掘[J];计算机工程与科学;2006年11期
8 曹晖;席斌;米红;;一种新聚类算法在基因表达数据分析中的应用[J];计算机工程与应用;2007年18期
9 陈春燕;张久彪;;双层结构的基因表达数据聚类算法[J];福建电脑;2009年04期
10 刘维;陈崚;;基因表达数据的并行双向聚类算法[J];小型微型计算机系统;2009年04期
11 寇晨艳;郭红;;基因表达数据的频繁模式挖掘算法[J];福州大学学报(自然科学版);2009年02期
12 朱娴;马卫;;一种基于层次聚类的双聚类算法[J];微计算机应用;2009年05期
13 何宏;谭永红;;基于计算智能的基因表达数据聚类分析研究进展[J];信息与控制;2009年06期
14 蔡莉;郭红;;一种改进的基因表达数据双聚类算法[J];福州大学学报(自然科学版);2010年01期
15 宋东光;;MEDLINE摘要本地下载与更新及癌基因表达数据的文本挖掘(英文)[J];生物信息学;2010年03期
16 郭红;蔡莉;;采用多目标微分进化算法的基因表达数据双向聚类[J];小型微型计算机系统;2010年10期
17 罗万春;易东;;胎儿小脑基因表达多尺度降噪的y~n曲线模型[J];计算机工程与应用;2011年07期
18 邓庆山;;聚类分析在基因表达数据上的应用研究[J];计算机工程与应用;2005年35期
19 孙喜晨;贺仁亚;封举富;;一种新的分类方法——属性均值聚类属性支持向量机(AMC-ASVM)[J];北京大学学报(自然科学版);2007年01期
20 孙丽君;苗夺谦;;基于粗糙集的基因表达数据分类研究[J];计算机工程;2007年16期
中国重要会议论文全文数据库 前10条
1 武淑兰;李渊;;DNMT3B基因启动子-149位单核苷酸多态性与急性白血病的关系[A];第九届全国实验血液学会议论文摘要汇编[C];2003年
2 高英堂;刘娟娟;杜智;王伟丽;刘彤;王毅军;杨斌;;IL-10、ALDH2单核苷酸多态性与肝病的相关性研究[A];天津市生物医学工程学会第29届学术年会暨首届生物医学工程前沿科学研讨会论文集[C];2009年
3 郑涓;;SIRT1单核苷酸多态性与中国武汉地区汉族人群超重的相关性研究[A];中华医学会第十次全国内分泌学学术会议论文汇编[C];2011年
4 周庆辉;王金花;黄秀峰;林朝文;杨园园;吴联滔;吴玉梅;;MMP14基因单核苷酸多态性在广西百色地区壮族人群中的分布[A];中国解剖学会2011年年会论文文摘汇编[C];2011年
5 刘娟娟;高英堂;杜智;杨斌;经翔;王毅军;王凤梅;刘彤;;IL-10基因启动子区单核苷酸多态性与HBV感染后疾病转归的研究[A];天津市生物医学工程学会第30次学术年会暨生物医学工程前沿科学研讨会论文集[C];2010年
6 郝萍;金艳花;杨康鹃;;KCNJ11基因单核苷酸多态性与胰岛素分泌异常(英文)[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
7 王金花;黄秀峰;周庆辉;林朝文;杨园园;韦叶生;黄昌盛;吴联滔;吴玉梅;何兰凤;;广西百色地区壮族妇女脂联素基因单核苷酸多态性与骨密度的关系研究[A];中国解剖学会2011年年会论文文摘汇编[C];2011年
8 克丙申;张胜兰;邢万佳;黄象艳;周仲玲;徐军;齐发莲;;中国人(山东地区)HLA-DPB1基因单核苷酸多态性的初步研究[A];山东免疫学会、山东微生物学会医学微生物学专业委员会、山东省医学会微生物学和免疫学专业委员会、山东省医药生物技术学会2001年学术年会论文汇编[C];2001年
9 王海振;郝萍;李迪;王伟杰;咸哲民;朴禹;金雄吉;崔正伟;杨康鹃;;KCNJ11基因单核苷酸多态性与2型糖尿病关系的研究[A];中国的遗传学研究——遗传学进步推动中国西部经济与社会发展——2011年中国遗传学会大会论文摘要汇编[C];2011年
10 彭霞;陈海炎;雷明明;张细权;;鸡IGF-Ⅰ基因单核苷酸多态性与生产性能的相关分析[A];第十次全国畜禽遗传标记研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 耿耀君;高通量数据特征选择算法研究[D];西安电子科技大学;2013年
2 史丽;人类CYP2A13基因SNPs及其与喉、咽、鼻恶性肿瘤危险性的相关性研究[D];山东大学;2005年
3 余自强;抗血小板胶原受体糖蛋白VI单克隆抗体的制备和功能研究[D];苏州大学;2005年
4 刘丽波;精神分裂症相关基因的遗传学研究[D];吉林大学;2006年
5 汪颖;单体型和基因型问题的优化模型和算法[D];大连理工大学;2007年
6 刘洋;ACSL基因家族与精神分裂症的相关研究[D];吉林大学;2008年
7 富强;胆囊收缩素A受体基因的多态性与偏执型精神分裂症的关系[D];中国协和医科大学;2008年
8 罗培芬;多巴胺D2受体基因多态性与偏执型精神分裂症的关联研究[D];中国协和医科大学;2008年
9 季从亮;鸡肉IMP含量相关候选基因SNP筛查及其用于地方鸡种群体遗传结构分析的研究[D];扬州大学;2005年
10 李会晨;遗传性非息肉病性结直肠癌的分子遗传及临床病理研究[D];第二军医大学;2005年
中国硕士学位论文全文数据库 前10条
1 邓庆山;聚类分析及其在基因表达数据中的应用研究[D];华中科技大学;2004年
2 刘月明;基因表达聚类分析方法研究[D];第三军医大学;2001年
3 陈佳妮;基因表达数据分析中IGA-FCM聚类算法研究与实现[D];东北林业大学;2010年
4 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
5 张礼;寻找差异基因的概率方法研究[D];南京航空航天大学;2010年
6 张彦琦;基因调控网络建立的数学模型研究[D];第三军医大学;2003年
7 张志国;基于生成树基因表达数据聚类方法分析[D];东北大学;2006年
8 沈小乔;基因表达数据分类算法及其应用研究[D];湖南大学;2005年
9 朱婵;聚类算法在基因表达数据分析中的应用研究[D];暨南大学;2005年
10 杨小涛;支持向量机算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
中国重要报纸全文数据库 前10条
1 记者 张荔子;我国启动人类单核苷酸多态性研究[N];健康报;2000年
2 记者 游雪靖;我国启动人类单核苷酸多态性研究计划[N];科技日报;2000年
3 吴志军;单核苷酸多态性影响乙肝慢性化[N];健康报;2004年
4 麦国荣;单核苷酸多态性与个体化用药[N];中国医药报;2003年
5 ;儿童系统性红斑狼疮中白细胞介素-10启动子区单核苷酸多态性对自身表达水平的影响[N];中国医药报;2003年
6 李山;三个与冠心病有关的基因得到确认[N];科技日报;2009年
7 张田勘;非洲人其实比亚欧人更强健长寿[N];大众科技报;2010年
8 白云;生物和信息技术“手牵手”[N];中国社会科学院院报;2003年
9 ;基因变异图谱:生命科学又一次进军[N];云南科技报;2001年
10 张田勘;美洲人起源问题新发现[N];南方周末;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978