收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于多目标进化学习的生物数据分析方法研究

王云鹤  
【摘要】:生物信息学是以计算机为辅助工具,采用数学和统计学方法对生物学领域问题进行建模、分析或仿真的一门交叉学科。随着生物技术的突破性发展,生物数据得到海量积累。单细胞RNA测序(sc RNA-Seq)数据和癌症基因表达数据作为两种典型的生物数据,为挖掘蕴含于其中的深层生物学规律提供了基础,同时也为生物数据分析带来了维度和噪声挑战。在对sc RNA-Seq数据和癌症基因表达数据进行分析时,准确分组和识别数据尤为关键。对sc RNA-Seq数据进行准确识别是一种聚类问题,是深入生物分析的基础;对癌症基因表达数据集的正确分组是一种分类问题,即对患者进行准确癌症诊断,有助于确定针对患者的个性化癌症治疗方案。因此研究高效学习方法分析以上两种生物数据已然成为生物信息学领域的重要方向。本文围绕sc RNA-Seq数据和癌症基因表达数据开展一系列研究工作,着重建立sc RNA-Seq数据聚类分析方法以及癌症诊断方法。针对生物数据特点,打破传统学习算法的局限性,在进化过程中采用多个学习有效性指标作为目标函数优化诊断结果,捕获不同数据集的多个属性,以提高算法的识别和诊断能力。根据上述思路,本文基于多目标进化学习提出四种生物数据分析方法,具体而言,主要研究内容为:(1)提出基于多目标进化深度学习的sc RNA-Seq数据聚类分析模型。首先采用差异基因表达分析技术去除高维原始数据中冗余和不相关基因,识别出不同生物学条件下差异表达基因。基于此数据,通过深度自动编码器将自识别的基因数据投影到不同低维非线性嵌入子空间中。然后将基本聚类算法应用于各种非线性嵌入子空间中,产生多个基本聚类结果。算法初始化种群时,对个体进行特殊编码以生成包含不同基本聚类结果的多个聚类集成。为指导种群进化,算法采用两个聚类有效性指标和基础簇数目作为目标函数。基于以上三个目标建立多目标聚类问题模型后,利用基于超体积的多目标优化框架优化模型得出最终聚类结果。为验证所提分析方法有效性,采用六个真实sc RNASeq数据集进行多次实验,并与八种聚类算法和三种多目标优化算法相比较,实验结果表明所提模型在聚类sc RNA-Seq数据方面具有显著优势。除此之外,针对模型每个策略进行实验分析,从多个角度验证了模型的有效性。(2)提出基于多目标稳健连续聚类的sc RNA-Seq数据聚类分析方法。针对稳健连续聚类算法中连接权值不稳定问题,本文所提分析方法采用两个聚类有效性指标作为目标函数建立多目标聚类模型,并使用基于分解的多目标方法动态优化连接权值。此外,为选择适合不同sc RNA-Seq数据集的收缩参数,所提方法将其加入连接权值向量同时进行动态优化。在优化过程中使用档案集保留非支配解集并使用产生的子个体更新档案集,最终输出档案集中最优聚类结果。为评估所提算法的聚类能力,计算六个真实sc RNA-Seq数据集的两个评价指标值。实验结果表明,与其它算法相比所提算法具有高效聚类能力。同时可视化分析和生物可解释性分析也体现出算法所挖掘的生物学意义。(3)提出基于多目标分解集成布谷鸟搜索算法的癌症诊断模型。首先基于四个目标函数建立多目标分类模型,目标包括两个基于熵的度量:相关性和冗余度以及特征数量和准确率。然后,算法初始化种群并计算种群适应度,采用基于分解的多目标框架对种群进行优化,得出最终分类结果。在算法中,为计算种群中个体目标函数值,提出一种二进制编码方式编码每个个体并选择出基因子集。此外,提出两种改进搜索策略,并将其与多个遗弃概率值放入候选池中,设计一种可以根据之前迭代成功概率从候选池中选择搜索策略以及遗弃概率的集成机制,它可以增进高质量候选解的概率。为验证所提分析方法的分类有效性,选取三十五个癌症基因表达数据集和一个结肠腺癌数据集从多目标角度和分类角度对模型进行评价。实验结果表明该分析模型可以有效解决癌症诊断问题,其它分析结果也验证了所提模型框架的有效性。(4)提出基于多目标粒子群混合算法的癌症诊断方法。首先对种群进行初始化,然后基于四个目标函数优化种群,根据支配关系将非支配解集存储在档案集中,最终输出最优分类结果。在种群进化过程中,利用二进制编码策略计算个体目标函数值;为平衡算法的收敛能力和全局能力,算法提出变异算子和局部搜索算子。其中变异算子可以增强粒子群的探索能力;局部搜索算子基于差分进化算法中“best/1”算子,根据个体最优粒子和两个随机粒子生成,以发现邻域中高质量潜在解。为验证所提方法性能,选取七种多目标算法、六种分类算法以及五种特征选择方法进行比较,在三十五个癌症基因表达数据集和六个真实疾病数据集上计算多个评价指标值。不同角度的实验结果以及主要操作算子等分析全面验证了所提方法的癌症诊断有效性。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 郝晓芳;冯俊青;;一种用于中小学书法评价的机器学习数据集的实践研究[J];江苏教育;2021年30期
2 张晓东;陈汉涛;;基于双神经气体的聚类集成算法应用于癌症基因数据集[J];生物医学工程学杂志;2015年01期
3 沈怡秀;马福民;曹杰;;基于模糊优势关系的粗糙聚类定性组合算法[J];计算机工程;2019年08期
4 王妍;王凤桐;王俊陆;宋宝燕;石展;;基于泛化中心聚类的不完备数据集填补方法[J];小型微型计算机系统;2017年09期
5 张朝鑫;;大规模数据集聚类方法及其应用研究[J];电子世界;2014年14期
6 邢春燕;;大规模数据集聚类算法的研究进展分析[J];花炮科技与市场;2020年02期
7 于本成;鲍宇;曹天杰;朱作付;;面向大型数据集的聚类算法的优化与融合[J];计算机工程与设计;2014年05期
8 申彦;宋顺林;朱玉全;;一种基于半监督的大规模数据集聚类算法[J];南京大学学报(自然科学版);2011年04期
9 陈新泉;;面向混合属性数据集的双重聚类方法[J];计算机工程与科学;2013年02期
10 李晓庆;唐昊;司加胜;苗刚中;;面向混合属性数据集的改进半监督FCM聚类方法[J];自动化学报;2018年12期
11 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
12 周欣;;“无师自通”机器学习方法的核心算法分析[J];电脑知识与技术;2011年10期
13 谷瑞军;汪加才;陈耿;陈圣磊;;面向大规模数据集的近邻传播聚类[J];计算机工程;2010年23期
14 王俊;程显生;王寿东;;基于机器学习的数据库小数据集并行集成方法[J];科学技术与工程;2019年16期
15 李璐明;蒋新华;廖律超;;基于弹性分布数据集的海量空间数据密度聚类[J];湖南大学学报(自然科学版);2015年08期
16 金慧珍;赵辽英;;大规模数据集的多层聚类算法[J];杭州电子科技大学学报;2008年03期
17 代明;钟才明;庞永明;程凯;;基于数据集属性相似性的聚类算法推荐[J];南京大学学报(自然科学);2016年05期
中国重要会议论文全文数据库 前20条
1 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 卢功林;葛俏;王玉娟;谈世磊;曹红伟;卢志鹏;;基于深度学习的不停车自动超载检测方法[A];2020中国自动化大会(CAC2020)论文集[C];2020年
3 王羽;姜晓夏;陆辰;王振宇;王珩;吴振锋;;军事机器阅读理解数据集构建与评估[A];2019第七届中国指挥控制大会论文集[C];2019年
4 刘通;张宇献;;基于加权平均数的模糊聚类有效性函数[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
5 缪国宇;刘洪鹏;苏文学;刘荣生;赵相东;;基于数据仓库的企业指标分析系统[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年
6 王子恒;齐勇刚;刘军;;路面交通标志检测调研:数据集及算法[A];2018中国汽车工程学会年会论文集[C];2018年
7 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年
8 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年
9 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年
10 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
11 曹露燕;蒋晓云;孟凡荣;;基于数值型和分类型混合属性数据集的聚类算法研究[A];2006“数学技术应用科学”[C];2006年
12 林荔;林铖;;福建省小时风速数据集研制及应用[A];第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展[C];2018年
13 于爱荣;刘晓明;曹雷;王俊;;NET Web Services数据集在Delphi中的处理与研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
14 冷传良;;基于CATIA V6的三维制造数据集的设计与管理[A];探索 创新 交流——第六届中国航空学会青年科技论坛文集(上册)[C];2014年
15 赵秀宽;阳建宏;黎敏;徐金梧;;一种改进的不平衡数据集分类方法[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
16 李健伟;曲长文;邵嘉琦;彭书娟;;基于深度学习的SAR图像舰船检测数据集及性能分析[A];第五届高分辨率对地观测学术年会论文集[C];2018年
17 苏力德;;基于PDM系统实现民机数据的管理[A];第十届沈阳科学学术年会论文集(经济管理与人文科学分册)[C];2013年
18 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
19 刘斐;樊华;金松昌;贾焰;;一种新型k匿名隐私保护算法[A];第27次全国计算机安全学术交流会论文集[C];2012年
20 赵宇海;印莹;王国仁;许光宇;;挖掘微阵列数据集中的最大局部保守基因聚类[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前20条
1 王云鹤;基于多目标进化学习的生物数据分析方法研究[D];东北师范大学;2021年
2 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年
3 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
4 皇群博;晴空条件FY-3C大气微波垂直探测资料变分同化研究[D];国防科技大学;2018年
5 马飞;复杂场景下的行人重识别关键技术研究[D];武汉大学;2019年
6 孙秀宝;基于CMA-LSAT v1.0数据集的近百年全球陆表气温变化研究[D];南京信息工程大学;2018年
7 陈迪;耕地数量与质量时空变化遥感监测研究[D];中国农业科学院;2019年
8 李星达;钢琴多音估计问题和音乐生成问题的深度学习方法[D];吉林大学;2019年
9 刘皓;基于深度学习的行人再识别问题研究[D];合肥工业大学;2017年
10 王建培;聚类有效性分析及其在电学层析成像中的应用[D];天津大学;2017年
11 杨勋;跨视域行人再识别若干问题研究[D];合肥工业大学;2017年
12 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
13 李超;高阶多数据集建模新方法与应用研究[D];哈尔滨工程大学;2017年
14 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年
15 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
16 吴国清;科学计算时变数据集的数据挖掘算法研究[D];中国工程物理研究院;2009年
17 黄昭权;小数据集差分干涉雷达地表形变监测[D];浙江大学;2010年
18 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
19 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年
20 吴昊;基于合成数据集的图像处理深度学习方法研究[D];兰州大学;2021年
中国硕士学位论文全文数据库 前20条
1 纪丽敏;基于机器学习的蛋白质相互作用预测精度与数据集关系的研究[D];华南理工大学;2013年
2 汪梦龙;基于集成学习的不平衡数据集的分类问题研究[D];安徽大学;2020年
3 李阳;基于协同进化和谱聚类的大规模数据集快速聚类方法研究[D];西安电子科技大学;2014年
4 徐丽丽;面向不平衡数据集的分类算法研究[D];辽宁师范大学;2016年
5 邵珠全;高维类别数据集的粗糙聚类算法的研究与应用[D];大连海事大学;2017年
6 李会云;基于Geotagged Photo数据集的行为识别研究与应用[D];东北大学;2015年
7 张丁文;基于云计算的取证数据集聚类方法的分析与实现[D];吉林大学;2015年
8 邴兆虹;区间估计的不完整数据集混杂聚类算法研究[D];辽宁大学;2013年
9 李乐;混合聚类集成研究[D];华南理工大学;2014年
10 王兴;大规模数据集的数据域描述及样本约减研究[D];武汉科技大学;2013年
11 丁瑶;基于融合机制的航拍目标检测与识别[D];厦门大学;2019年
12 肖娜;基于密度和方向的聚类算法研究[D];湖南大学;2019年
13 乐雨泉;基于句法和语义的句子表示方法[D];湖南大学;2019年
14 徐慧;社交商务中客户画像的研究[D];西南财经大学;2019年
15 周张萍;面向课堂教学的字幕生成关键技术研究[D];厦门大学;2019年
16 邓利平;基于数据集相似性的分类算法自动选择研究[D];深圳大学;2019年
17 陈康;超限学习机拓展研究及其脑电分类应用[D];杭州电子科技大学;2019年
18 刘文斌;中式菜肴食材数据集的构建及其分类算法研究[D];武汉轻工大学;2019年
19 余冠华;基于多属性铁路事故数据集的聚类和关联规则分析方法研究[D];北京交通大学;2019年
20 陈磊阳;基于改进VGGNet的不透水面信息提取应用研究[D];河南大学;2019年
中国重要报纸全文数据库 前20条
1 记者 张梦然;最大规模婴儿微生物组数据集建立[N];科技日报;2018年
2 记者 张梦然;癌症学研究公布最新数据集[N];科技日报;2018年
3 记者 季张颖;上海已累计开放2100项公共数据集[N];上海法治报;2019年
4 记者 王莉英;行政审批网上全流程办理率年底超80%[N];深圳特区报;2017年
5 记者 金昶 通讯员 陈斯音;我国发布首款全球海洋Argo网格数据集产品[N];中国海洋报;2017年
6 中国青年报·中青在线记者 谢宛霏;为AI领域“造血”[N];中国青年报;2017年
7 记者 罗旭;全球人工智能挑战赛开赛[N];光明日报;2017年
8 记者 刘钊 通讯员 徐文慧 杨溯;自主研发数据集显示今年上半年最热[N];中国气象报;2015年
9 冉瑞奎 刘晓林 戴艳萍;均一化历史气温数据集问世[N];中国气象报;2006年
10 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年
11 记者 张梦然;科学家以图片数据集揭秘“生命奥秘”[N];科技日报;2015年
12 王素琴刘晓林 通讯员 王新华;宇如聪强调用好16个新数据集产品[N];中国气象报;2008年
13 金水高 刘丽华 陶庄;基本数据集标准新进展[N];计算机世界;2006年
14 本报记者 牛秋鹏;《生态环境信息基本数据集编制规范》印发[N];中国环境报;2018年
15 记者 刘钊;自研数据集显示今年将成最热一年[N];中国气象报;2015年
16 游雪晴;我国均一化气温数据集建成[N];科技日报;2006年
17 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
18 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
19 本报记者 刘霞;AI助力抗“疫” 美发布新冠病毒数据集[N];科技日报;2020年
20 地学系;地学系阳坤课题组发布中国区域高分辨率气象驱动数据集[N];新清华;2020年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978