收藏本站
收藏 | 论文排版

面向序列分类问题的机器学习算法集成及其应用

孟凡祥  
【摘要】:分类问题是统计学、管理学研究的重要问题。科学分类是进行数据挖掘、统计预测和科学决策的重要基础。在分类问题中,序列数据是重要的研究对象。在当今信息社会和大数据时代,人类在生产、生活和科学研究中,不断产生并积累着海量的序列数据资源。充分挖掘序列数据背后的信息,对科学认识自然世界和经济社会发展规律、更好地指导和管理经济社会活动、更好地进行统计预测和管理决策都具有重要的意义。由于机器学习具备强大的数据处理和自学习能力,能够处理传统方法难以应对的海量、高维、复杂序列数据挖掘问题,因此近年来针对机器学习的相关研究成为管理科学与工程、计算机等学科的重要研究方向。随着新一代高通量基因测序技术的发展,基因序列数据出现了爆炸性增长。过去主要依靠生物学的方法对其进行研究具有很大的局限性,造成目前人类对许多基因问题还缺乏准确的科学认知。今年春节前后,一种未知的新型冠状病毒(COVID-19)引发了重大肺炎疫情,对全球经济社会发展造成了重大影响,使得基因问题成为近期跨学科研究的热点。今年1月,国家自然科学基金委员会紧急发布“新型冠状病毒(2019-n Co V)~((1))溯源、致病及防治的基础研究”专项项目指南,鼓励学科交叉,用新的科研范式理念系统解决科学问题。在基因问题研究中,对基因序列进行准确分类是重要基础和前提。为此,本文基于机器学习的理论和方法研究序列分类问题,所要解决的关键科学问题主要有三个:一是非数值型序列数据映射转换及其频谱信息挖掘的算法优化问题;二是面向序列分类的机器学习算法集成创新问题;三是不同分类算法模型的性能评价和分类结果的可信度评价问题。在应用研究层面,全文聚焦基因序列分类问题,给出了几类基因序列分类判别方法和机器学习算法集成模型,并通过构建AAA综合模糊评价模型,对各类算法模型的分类性能进行了对比评价。本文从序列分类问题、机器学习理论和生物信息理论入手,系统梳理了当前机器学习算法在数据挖掘和生物信息领域的研究进展,从现有研究存在的不足角度思考,找到了从机器学习算法集成的角度研究序列分类问题的这个切口。通过对研究问题和研究方法的进一步梳理分析,明确了本文的研究目标、研究内容和研究思路。本文从理论和应用两个层面开展研究。理论层面,本文聚焦机器学习算法的集成优化和建模问题,采用层层递进、逐步深入的研究方法,系统研究了序列数据特征表示与频谱信息挖掘算法的优化问题、靴带抽样与SVR的集成学习问题、隐马尔科夫模型与离散时间动态贝叶斯网络的集成及其预测概率的可信度评价问题、BP神经网络与遗传算法的集成问题。应用层面,本文聚焦基因序列外显子分类判别这一基础问题,通过理论研究层面构建的模型和优化的算法,针对不同基因序列进行分类判别,并对不同模型的分类性能进行对比评价分析。本文的创新点主要体现在以下四个方面:一是针对非实值型序列的映射转换方法及其频谱信息的挖掘问题,首先对3种“域变换”的映射转换方法进行了对比分析和理论证明。通过域变换,可以更好地挖掘序列数据的频谱信息,从而更直观地利用频谱信号研究序列数据的规律。在此基础上提出了一种基于稀疏优化思想的基因序列频谱信息挖掘快速算法。该算法在基因序列数据存储和频谱信息计算两个方面的性能都有较为显著的改进。在数据存储方面,理论上最高可压缩50%的计算机存储单元。在频谱信息挖掘运算方面,降低了算法的复杂度,提高了运算效率。仿真结果显示功率谱和信噪比的运算时间分别压缩了83.18%和61.33%。二是针对具有显著周期性规律的序列数据分类问题,研究了基于阈值判别的序列分类集成算法模型。构建了基于靴带抽样与SVR交互式集成学习算法模型。通过交互式集成学习,不仅可以降低对样本数量的要求,而且能够避免或改善由于训练集的选择不当而导致的支持向量机回归模型训练不佳的问题,从而实现在样本较少的情况下仍然能够得到较好的训练模型和分类预测结果。为了论证该算法模型的性能,本文将其应用到不同物种基因外显子最优频谱阈值的求解中,为此建立了多目标最优阈值判别模型。通过仿真实验,结果表明该算法模型可行有效,测试结果的平均准确率达到90%以上。三是针对不具备显著周期性规律的序列数据分类问题,研究了基于预测概率的序列分类集成算法模型。构建了动态贝叶斯网络与隐马尔可夫模型集成算法模型。该算法模型考虑了隐马尔可夫模型预测概率和分类结果的可信度评价问题。首先,借鉴事件树和故障树风险重要度指标,设计了预测概率的综合可信度评估模型。其次,构建了一种三状态基因外显子隐马尔科夫模型。最后,通过将离散时间贝叶斯网络与隐马尔可夫模型的集成,实现对基因序列分类性能的进一步提升。在模型求解和仿真中,设计了前向算法与Em算法的混合算法,进行了仿真实验。结果表明,通过该算法模型,能够得到较为准确的基因外显子起止点位置,实现了对基因外显子单个碱基的定位和判别,使得分类结果的准确性更高。四是针对特征指标多的复杂序列数据分类问题,研究了基于全局搜索优化的集成算法模型。与基于阈值判别和预测概率的方法相比,该算法模型无需精确的逻辑推理即可进行全局搜索求解优化。基于BP网络初始参数选择不当容易陷入局部最优陷阱问题,构建了基于BP神经网络与遗传算法集成学习的算法模型。通过遗传算法的优化,改进了BP神经网络最为关键的连接权值和阈值参数的取值方法和取值优化问题,从而提高了学习效率,规避了BP神经网络容易陷入局部最优解陷阱的问题,真正实现了全局搜索求解,使得分类结果准确性更高。通过仿真实验,证明通过该算法模型得到的分类结果更优。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 何允钦;梁国柱;;新的适于计算机辅助工程的算法集成模型[J];北京航空航天大学学报;2009年12期
2 肖泽勇;;一种新的算法集成模型的分析[J];湘潮(下半月);2010年12期
3 王子腾;;一种多机器学习算法集成的恶意代码检测系统[J];网络安全技术与应用;2018年04期
4 梁颖红;张有承;张文静;;粗糙集和遗传算法集成的故障诊断知识获取[J];苏州市职业大学学报;2009年02期
5 李健;邱宏茂;张波;王娟;许进;卢远镭;崔甲甲;;DFX软件环境中算法集成方法[J];核电子学与探测技术;2010年12期
6 殷晓芳;;序列诗[J];外国文学;2020年02期
7 黄李勇;;《无时序列》[J];装饰;2017年12期
8 朱成;;《席》——中国图典序列之十八[J];文化月刊;2015年36期
9 陈剑;;关于广义延迟更新序列的一些结果[J];海南师范大学学报(自然科学版);2008年01期
10 郑维行;序列的作用[J];高等数学研究;2004年05期
11 徐成兵;GenBank的序列提交软件[J];医学情报工作;2002年05期
12 万成高,戴想元;B值拟终鞅型序列的大数定律[J];纯粹数学与应用数学;1998年02期
13 侯振挺;;更新序列对于圈乘运算的封闭性(Ⅲ)[J];长沙铁道学院学报;1981年01期
14 宋书华;;一个字母序列问题的源与流[J];数学通讯;2007年15期
15 Γ.М.卡爾班科;白方;;中等學校裹序列的學習[J];数学通报;1955年06期
16 常志文;李洪霞;林彤;;关于近完美序列的编码[J];东北电力大学学报(社会科学版);2009年04期
17 毛飞;吴宁;周正;;最佳三元序列偶理论研究[J];电子与信息学报;2008年11期
18 程金镇;李阳东;;(广义)正延迟更新序列的幂的一点注记[J];海南师范大学学报(自然科学版);2008年01期
19 丁有伟;胡孔法;陈崚;;一种RFID位置序列挖掘方法[J];微电子学与计算机;2008年09期
20 张茹;郭希维;赵琦;;装备管理评分标准规范化的序列型评分模式[J];兵工自动化;2006年01期
中国重要会议论文全文数据库 前20条
1 李文泽;刘云龙;刘佳;石玥;胡丽红;;杂化集成机器学习在化学数据库中的应用[A];第十三届全国量子化学会议论文集——第四分会:生命、药物和材料量子化学[C];2017年
2 冉令华;阮晓钢;;非显著序列元件对大肠杆菌启动子识别的影响[A];第二十二届中国控制会议论文集(下)[C];2003年
3 马松成;毛华明;陈静;邓卫东;和天宝;;大额牛瘤胃细菌16S rRNA基因序列的分析[A];第四届中国畜牧科技论坛论文集[C];2009年
4 姜吉锋;;GRASE序列在3D-MRCP中的应用[A];中国中西医结合学会医学影像专业委员会第十七次全国学术大会暨甘肃省中西医结合学会医学影像专业委员会第六届学术年会资料汇编[C];2019年
5 丁有伟;胡孔法;陈崚;;一种RFID位置序列挖掘方法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 黎威;龙连春;;基于机器学习的无机晶体材料剪切模量预测[A];北京力学会第二十七届学术年会论文集[C];2021年
7 洪垚;符策基;;基于HPC和机器学习的巷道火灾快速模拟与预测[A];北京力学会第二十七届学术年会论文集[C];2021年
8 Jonny Bentwood;;营销中的AI应用与未来发展[A];清研智库系列研究报告(2020年第5期)[C];2020年
9 夏振华;郭先文;陈十一;;关于机器学习RANS建模的一些思考[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
10 王子敬;吴晓妍;宋诚谦;秦丰华;罗喜胜;;基于GPU并行和机器学习的气固相互作用研究[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
11 彭俊;胡宗民;姜宗林;;基于机器学习预测激波相互作用位置的研究[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
12 赖力鹏;;机器学习与计算化学方法在小分子药物筛选与开发中的应用实践(英文)[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
13 沈超;侯廷军;;基于人工智能技术的蛋白-小分子打分方法研究[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
14 张伟;;一种用于流动模拟及建模的机器学习方法[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
15 无奇;尹杰茜;余晨;王海明;洪伟;;机器学习辅助的多目标天线优化方法[A];2019年全国天线年会论文集(下册)[C];2019年
16 倪欢欢;韩益亮;段晓巍;李喆;;机器学习中的安全和隐私问题研究进展[A];2020中国系统仿真与虚拟现实技术高层论坛论文集[C];2020年
17 周信哲;陈永娟;蒲文鹏;;机器学习在水质预测中的应用[A];2020中国环境科学学会科学技术年会论文集(第四卷)[C];2020年
18 柏晓东;张伟;;基于机器学习的湍流涡激运动[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
19 陈一;吴笛;段俐;康琦;;机器学习在BM对流研究中的应用[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
20 骆新斗;郭昊;刘沛清;;基于机器学习对低雷诺数下平板转捩模拟修正[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
中国博士学位论文全文数据库 前20条
1 孟凡祥;面向序列分类问题的机器学习算法集成及其应用[D];上海财经大学;2020年
2 殷曦;基于机器学习及统计计算模型的膜蛋白结构预测[D];上海交通大学;2017年
3 杨静;蛋白质残基相互作用预测及其在结构建模中的应用研究[D];上海交通大学;2018年
4 韩启迪;基于非线性成矿动力系统的机器学习方法应用研究[D];中国地质大学(北京);2019年
5 薛红新;基于机器学习方法的分类与预测问题研究[D];中北大学;2019年
6 刘浏;基于机器学习的恶意代码检测与分类技术研究[D];国防科技大学;2017年
7 陈旭展;基于机器学习的智能机器人环境视觉感知方法研究[D];华中科技大学;2019年
8 吴念;CO_2电还原的理论计算研究[D];武汉大学;2019年
9 胡胜山;面向机器学习的安全外包计算研究[D];武汉大学;2019年
10 王磊;基于机器学习的药物—靶标相互作用预测研究[D];中国矿业大学;2018年
11 张庆;钙钛矿型功能材料的基因组工程研究[D];上海大学;2018年
12 管月;医学肿瘤影像分类算法研究及其在肝癌上的应用[D];南京大学;2018年
13 郝小可;基于机器学习的影像遗传学分析及其应用研究[D];南京航空航天大学;2017年
14 施建明;基于机器学习的产品剩余寿命预测方法研究[D];中国科学院大学(中国科学院遥感与数字地球研究所);2018年
15 陈再毅;机器学习中的一阶优化算法收敛性研究[D];中国科学技术大学;2018年
16 陆海进;Zr合金热动力学研究及机器学习[D];上海大学;2018年
17 戴望州;一阶逻辑领域知识与机器学习的结合研究[D];南京大学;2019年
18 符丹卉;基于MRI结构成像与静息态功能成像影像特征的机器学习法在AIDS患者中的应用研究[D];广西医科大学;2019年
19 Kashif Sultan(克希夫);5G移动通信网络中的呼叫记录分析[D];北京科技大学;2019年
20 梁霄;机器学习在量子物理学中的应用[D];中国科学技术大学;2019年
中国硕士学位论文全文数据库 前20条
1 向征;多优化算法集成及其在天线设计中的应用[D];西南交通大学;2014年
2 乔嘉雨;视觉测量软件系统中的算法集成及测试技术研究[D];北京化工大学;2019年
3 代笃伟;具有低互相关性的序列的分析和设计[D];西安电子科技大学;2017年
4 曾中铭;基于机器学习的金属有机框架合成信息提取及形貌测量[D];厦门大学;2019年
5 林兵;机器学习在辐射源个体识别上的应用[D];厦门大学;2019年
6 万晓玥;基于机器学习的水域通信网安全技术研究[D];厦门大学;2019年
7 万露;强PUF抗机器学习攻击方法研究[D];湖南大学;2019年
8 徐英杰;基于机器学习的个人信用风险评估研究[D];西南财经大学;2019年
9 刘航;如何运用金融周期和经济周期改进大类资产配置?[D];厦门大学;2019年
10 李凌宇;基于机器学习方法的量化多因子选股研究[D];厦门大学;2019年
11 关松林;机器学习在疾病诊断中的应用[D];重庆大学;2019年
12 曹甜;基于机器学习的浏览器指纹异常检测模型研究[D];中南财经政法大学;2019年
13 Tahiry ANDRIAMANANTENA;机器学习和”克强指数”预测中国GDP增长[D];厦门大学;2019年
14 邱佳;量子力学辅助的机器学习算法对AIE效应的预测和理解[D];华南理工大学;2019年
15 孟圣然;基于机器学习的机械产品结构建模技术研究[D];杭州电子科技大学;2019年
16 牟多铎;基于机器学习方法的高光谱数据分类对比研究[D];长安大学;2019年
17 谭文杰;基于机器学习混凝土路面裂缝检测算法研究[D];广州大学;2019年
18 徐冠奇;基于机器学习的汽车出厂物流在线调度模型与算法研究[D];上海交通大学;2018年
19 郭志峰;基于机器学习的居民电力消费特征研究[D];合肥工业大学;2019年
20 鲁俊良;基于机器学习的智能电网虚假数据攻击检测研究[D];华北电力大学(北京);2019年
中国重要报纸全文数据库 前20条
1 微纳电子系;微纳电子系任天令团队在机器学习器件上取得突破[N];新清华;2018年
2 本报记者 王玲;攻坚克难 回归一流名酒序列[N];宝鸡日报;2020年
3 石耘辉 记者 范亚旭;河南3个县退出贫困县序列[N];农民日报;2018年
4 华安期货 王力纬;机器学习在期货投资中的应用研究[N];期货日报;2021年
5 记者 张梦然;机器学习成功模拟并预报流感传播[N];科技日报;2021年
6 熊一舟 编译;当机器学习误入歧途[N];社会科学报;2021年
7 采访人 本报记者 卢健;“中间三天”问题 最对机器学习“胃口”[N];中国气象报;2020年
8 ;你也可以体验的机器学习[N];电脑报;2020年
9 骆无意;机器学习可改变人类探测太空方式[N];中国航天报;2020年
10 记者 张梦然;机器学习诞生新型“研究员”[N];科技日报;2020年
11 记者 刘霞;机器学习发现数百种潜在新冠药物[N];科技日报;2020年
12 InfoWorld网站特约编辑兼评论员 Martin Heller 编译 陈琳华;如何选择云机器学习平台[N];计算机世界;2020年
13 CIO.com一名资深撰稿人 Clint Boulton 编译 沈建苗;机器学习的5个成功案例[N];计算机世界;2020年
14 CIO.com资深作家 Clint Boulton 编译 Charles;领先一步:机器学习的10个成功案例[N];计算机世界;2018年
15 Bob Violino 编译 Charles;盲目冒进:机器学习的5个失败案例[N];计算机世界;2018年
16 本报驻波士顿记者 侯丽;深入挖掘机器学习潜力[N];中国社会科学报;2019年
17 王方 编译;菌自何方 机器学习早知道[N];中国科学报;2019年
18 Matt Asay 编译 Monkey King;为什么机器学习没有捷径可循?[N];计算机世界;2019年
19 本报记者 操秀英;当量子计算遇到机器学习会碰撞出什么火花?[N];科技日报;2019年
20 彭博企业数据业务全球负责人 Gerard Francis;金融数据质量决定机器学习时代的投资回报[N];计算机世界;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978