收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向缺失数据的机器学习算法研究

高航  
【摘要】:缺失数据普遍存在于医疗诊断、环境监测、社会调查等各个领域。随着机器学习技术在这些领域的广泛使用,对含有缺失的数据进行学习、推断成为经常遇到的问题。大多传统机器学习算法并未考虑对缺失的处理,默认数据是完整规则的。实际上,这种默认主要是由缺失预处理技术保证的。然而,传统缺失预处理是借鉴的统计学方法,其目标是保证统计指标在缺失条件下的误差尽可能小;而机器学习的目标是从数据中学习或推断模型或对数据进行预测,两者并不一致。统计学预处理方法虽然能够消除缺失,但是改变了数据原貌,可能导致在机器学习的过程中引入偏差信息或损失正确信息,继而影响学习、推断的准确性。近些年,研究者们开始关注这一问题,提出了一系列针对机器学习中处理缺失数据的方法。然而,这些研究在准确性上还存在不足。本文围绕这一问题,分别针对三种机器学习方法——超限学习机学习方法、类间隔最大化的特征选择算法以及多视图聚类方法,研究如何基于学习算法本身的机制处理缺失,避免在学习、预测中偏差的引入和信息的损失,实现尽可能准确的学习。针对缺失数据处理导致超限学习机学习不准确的问题,本文在分析常用缺失预处理方法对学习造成影响的基础上,提出一种样本自适应超限学习机学习方法,以实现无需缺失预处理直接对数据进行学习的目标。该方法的基本思想是:将数据集中的缺失样本看作处于特征子空间的样本,在子空间度量缺失样本的经验误差,并以全空间、子空间的权重范数比近似估计真实经验误差。基于此思想,构造了3个监督学习算法的优化方程及其求解方法:S-ELM线性分类算法、S-ELMK非线性分类算法和S-ELMR回归。实验表明:对于缺失随机分布的数据,S-ELM的计算效率较A-ELM更高;S-ELMK的分类准确率较传统填充方法以及V-ELMI、NR-SVM、A-ELM算法更高;S-ELMR较多版本填充ELM算法,准确率相近且计算效率更高。针对缺失处理方法导致类间隔最大化特征选择不准确的问题,本文提出一种期望k近邻类间隔最大化特征选择算法KMFS,实现直接对含有缺失的数据进行特征选择的目标。该方法的基本思想是:对于缺失导致距离无法计算的问题,以距离期望度量样本近邻关系;对于最近邻特征缺失导致的类间隔无法计算问题,以k近邻均值类间隔的方法计算类间隔。实验表明:相比基于填充预处理的方法和SID算法,KMFS能够筛除更多无关特征,以KMFS算法选择的特征建立的分类模型,分类准确率更高。针对已有不完整多视图聚类算法的局限性问题,本文提出一种不完整多视图谱聚类算法IVSC,以实现在“视图数目大于2且所有视图均不完整”情况下的有效聚类。其基本思想是:首先,对不完整视图的相似度矩阵进行形式上的补全;然后,以IFV和RIFV算法提取并修正视图的隐式特征矩阵;之后,以最小化中心差异的方法迭代地更新并融合隐式特征矩阵;最后,得到包含所有视图一致聚类信息的中心隐式矩阵,在其上应用单视图聚类算法k-means即得到最终聚类结果。实验表明:IVSC能够处理多个不完整视图的聚类问题;与KL+CCA相比,在具有一个完整视图的情况下,IVSC在准确性上有较大优势;与PVC和Co KL+KCCA相比,当视图数目为2且均不完整时,IVSC与PVC准确性相近,较Co KL+KCCA准确率更高;对于视图数目大于2且视图均不完整的情况,IVSC较MIC准确率更高。


知网文化
【相似文献】
中国期刊全文数据库 前17条
1 康春花;孙金玲;孙小坚;曾平飞;;缺失数据比率和处理方法对非随机缺失数据能力参数估计准确性的影响[J];江西师范大学学报(自然科学版);2017年03期
2 董学思;林丽娟;赵杨;魏永越;戴俊程;陈峰;;多组学联合缺失数据填补方法的评价[J];中国卫生统计;2017年04期
3 杨金英;崔朝杰;;图模型方法用于二值变量相关性分析中缺失数据的估计[J];中国卫生统计;2012年05期
4 许凯;何道江;;有缺失数据的条件独立正态母体中参数的最优同变估计[J];数学学报(中文版);2016年06期
5 王军;李建勋;韩山;王兴;;一种效能评估中缺失数据的填充方法[J];上海交通大学学报;2017年02期
6 吴洁琼;吕小纳;党志军;;网络高并发信息的缺失数据修复方法仿真[J];信息通信;2017年11期
7 喻成林;黄强;李钢;;观测站缺失数据修复的神经网络模型研究[J];矿山测量;2014年01期
8 帅平;李晓松;周晓华;刘玉萍;;缺失数据统计处理方法的研究进展[J];中国卫生统计;2013年01期
9 张伟;冯萍;赵永红;袁佳英;李梅;;加权估计方程用于缺失数据的处理[J];中国卫生统计;2013年03期
10 詹棠森;;缺失数据调整修正优化磨光法研究及陶瓷中的应用[J];中国陶瓷;2012年06期
11 刘海军;柳征;姜文利;周一宇;;基于缺失数据填补的辐射源识别方法[J];宇航学报;2010年05期
12 庞新生;;缺失数据处理方法的比较[J];统计与决策;2010年24期
13 李开灿;黄学维;;有缺失数据的正态母体参数的后验分布及其抽样算法[J];应用数学学报;2009年02期
14 苏毅娟;钟智;;代价敏感的缺失数据有序填充算法[J];计算机工程;2009年17期
15 金勇进;处理缺失数据中辅助信息的利用[J];统计研究;1998年01期
16 肖庆宪,李俊德;市场预测中的缺失数据问题[J];河南师范大学学报(自然科学版);1994年03期
17 李保东;亢金轩;;结构方程建模缺失数据填补方法研究[J];统计与咨询;2011年01期
中国重要会议论文全文数据库 前10条
1 印明辉;秦婷婷;伏振;严明明;尹平;;贝叶斯累加回归树模型处理缺失数据研究[A];2017年中国卫生统计学学术年会论文集[C];2017年
2 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 刘红云;;追踪研究中非随机缺失数据的处理:基于模型的方法及其应用[A];第十五届全国心理学学术会议论文摘要集[C];2012年
4 管河山;姜青山;Steven X.Wei;;一种处理缺失数据的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 肖悦;刘红云;;密集型追踪数据中数据的缺失机制及缺失比例对时变效应模型估计精度的影响[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
6 孙金玲;;混合测验中非随机缺失数据的缺失比率与处理方法对IRT参数估计的影响[A];第十八届全国心理学学术会议摘要集——心理学与社会发展[C];2015年
7 李晓煦;侯杰泰;;结构方程中缺失数据的处理:FIML,EM与MI[A];全国教育与心理统计测量学术年会论文摘要集[C];2006年
8 周晓东;汤银才;费鹤良;;定数转换步加试验缺失数据场合下的参数估计[A];中国现场统计研究会第十三届学术年会论文集[C];2007年
9 叶素静;唐文清;张敏强;;追踪研究中缺失数据的处理方法述评[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
10 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 高航;面向缺失数据的机器学习算法研究[D];国防科学技术大学;2016年
2 龚奇源;面向数据发布的数据匿名技术研究[D];东南大学;2016年
3 陆福忠;数据缺失下的分布函数估计问题[D];复旦大学;2007年
4 骆汝九;多指标综合评价的非参数方法和缺失数据的聚类方法研究[D];扬州大学;2011年
5 郭东林;缺失数据下几类回归模型的估计方法与理论[D];北京工业大学;2017年
6 马友;基于QoS缺失数据预测的个性化Web服务推荐方法研究[D];北京邮电大学;2015年
7 罗显贵;带缺失数据列联表与半参数非线性动态因子模型的统计推断[D];云南大学;2015年
8 祝丽萍;几种缺失数据和高维数据模型的统计分析[D];山东大学;2012年
9 闫富荣;语者识别鲁棒性技术的研究[D];北京邮电大学;2017年
10 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杜丽媛;含有缺失和不可适用数据的古生物谱系树构建方法研究[D];西北大学;2018年
2 李佳妮;缺失数据统计方法及其敏感性的研究[D];哈尔滨工业大学;2018年
3 孙梦娇;客运数据质量检测与缺失数据修补研究[D];重庆交通大学;2018年
4 孙金玲;心理问卷调查中随机缺失数据处理方法研究[D];浙江师范大学;2017年
5 董学思;多组学缺失数据联合填补方法评价及其应用[D];南京医科大学;2017年
6 周巾裕;基于Bayes估计和Rasch模型拟合的考试缺失数据分析[D];贵州师范大学;2017年
7 雷伟;带有不可忽略缺失数据的混合线性模型的贝叶斯统计推断[D];云南大学;2016年
8 金成美;缺失数据填补方法研究[D];辽宁工业大学;2011年
9 朱建斐;数据集缺失数据恢复算法研究[D];西安电子科技大学;2015年
10 王玲;混合型缺失数据的填补方法研究[D];辽宁大学;2017年
中国重要报纸全文数据库 前1条
1 刘若帆宋林;诗邦金A6+1:凭借其质提高其量[N];农资导报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978