收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于半监督学习的随机森林算法研究与应用

刘孝良  
【摘要】:机器学习是人工智能的核心研究内容之一,它包含三个重要的研究领域:监督学习,半监督学习和无监督学习。监督学习需要利用带标签样本进行训练,以保证其泛化能力。而无监督学习不需要利用带标签数据,但不能保证其模型准确率。随着计算机应用技术的发展,企业信息化建设水平日益提高,传统的质量控制手段难以满足实际生产的需要。随着新检测技术的引进,容易获取的是大量无标记数据,而对数据进行人工标记的代价很高。因此,将少量带标记数据和大量无标记数据结合的半监督学习成为研究热点。 传统的分类算法在少量标记数据上难以得到精确的分类模型,因此,难以在实际应用中发挥作用。本文将半监督学习引入到传统的分类算法中,尝试利用无标签数据具有的额外信息指导分类模型的建立,提高分类性能。通过实验验证将半监督学习应用到近红外光谱数据的分类中具有重要的理论和实际应用价值。不仅减少了人工标注样本的成本和时间,而且有效提高分类精度。 本文的研究成果包括: (1)提出了一种基于数据剪辑的半监督随机森林算法。将半监督学习和数据剪辑方法引入到传统的随机森林算法中,利用决策树的对等分类器集合对无标签样本进行预测,选取置信度大于默认阈值的样本加入到训练集合中。为了防止错误标记的样本影响分类器性能,对新标记样本进行收敛性分析和数据剪辑操作。收敛性分析判断新标记的样本能够使分类器性能逐渐提升。数据剪辑方法使用RemoveOnly方法进一步移除错误标记样本。通过实验证明,基于数据剪辑的半监督随机森林具有较好的泛化性能,解决了标记样本不足时建模困难的问题。 (2)将本文提出的算法用于使用近红外光谱进行卷烟产品感官评估的实际应用中。通过对比实验,验证了该算法在近红外数据上能够建立性能较好且稳健的分类模型。证明了该算法具有实际的工程应用价值,在实际生产中具有很好的指导意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李妍妍;李媛媛;叶世伟;;基于流形正则化的支持向量回归及应用[J];计算机应用;2007年08期
2 李永忠;王汝山;张念贵;王玉雷;;基于半监督模糊聚类的入侵检测技术[J];江苏科技大学学报(自然科学版);2010年04期
3 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
4 丁磊,钱云涛;不同程度的监督机制在自动文本分类中的应用[J];计算机应用与软件;2004年06期
5 张晨光;李玉鑑;;基于半监督学习的眉毛图像分割方法[J];计算机工程与应用;2009年21期
6 刘叶青;刘三阳;谷明涛;;一种多项式光滑的半监督支持向量机分类算法[J];计算机科学;2009年07期
7 杨绪兵;潘志松;陈松灿;;半监督型广义特征值最接近支持向量机[J];模式识别与人工智能;2009年03期
8 鲁珂,赵继东,叶娅兰,曾家智;一种用于图像检索的新型半监督学习算法[J];电子科技大学学报;2005年05期
9 罗进;周学君;;半监督学习中非标记数据的利用[J];湖北大学学报(自然科学版);2008年01期
10 曹慧;刘玉峰;;未标记样本在半监督学习中的应用方法研究[J];广西轻工业;2008年12期
11 王汝山;李永忠;张念贵;王玉雷;;半监督学习在入侵检测系统中的应用[J];广西师范大学学报(自然科学版);2009年03期
12 梁吉业;高嘉伟;常瑜;;半监督学习研究进展[J];山西大学学报(自然科学版);2009年04期
13 张念贵;李永忠;王汝山;;半监督聚类算法及其在入侵检测中的应用[J];科学技术与工程;2010年01期
14 赵莹;张健沛;杨静;王冠军;;一种改进的分枝定界半监督支持向量机学习算法[J];电子学报;2010年02期
15 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
16 常志勇;刘叶青;谷明涛;;用于在线数据分类的半监督最接近支持向量机[J];计算机工程与应用;2010年29期
17 杨伟;方涛;许刚;;基于朴素贝叶斯的半监督学习遥感影像分类[J];计算机工程;2010年20期
18 梁军;陈龙;周卫琪;陶文倩;姚明;胥正川;;基于马尔科夫随机场和鲁棒误差函数的半监督分类研究[J];山东大学学报(理学版);2010年11期
19 王永;程灿;戴明军;孙永;;一种半监督支持向量机优化方法[J];工矿自动化;2010年12期
20 李妍妍;李媛媛;叶世伟;;基于流形正则化的分类与回归算法及应用[J];计算机仿真;2007年10期
中国重要会议论文全文数据库 前10条
1 谷方明;刘大有;王新颖;;基于半监督学习的加权支持向量域数据描述方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 杨源;马云龙;林鸿飞;;基于权重标准化SimRank与半监督学习的产品属性归类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 朱松豪;梁志伟;;用半监督学习方法实现图像检索[A];第二十九届中国控制会议论文集[C];2010年
4 邱慧宁;黄剑;陈羽;赖剑煌;;基于UDP的半监督学习及其在人脸识别的应用[A];第十四届全国图象图形学学术会议论文集[C];2008年
5 毕锦烟;李巍华;;基于半监督模糊核聚类的齿轮箱早期故障检测方法[A];第九届全国振动理论及应用学术会议论文摘要集[C];2007年
6 柳斌;李之棠;涂浩;;一种基于半监督学习的应用层流量分类方法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
7 张召;业宁;业巧林;;基于配对约束的核半监督非线性降维算法[A];第五届全国信息检索学术会议论文集[C];2009年
8 王倩影;冯国灿;汤鑫;;δ-距离及其在半监督增强中的应用[A];第十五届全国图象图形学学术会议论文集[C];2010年
9 冯瑞;宋春林;;一种基于局部学习的复杂系统建模方法[A];2007中国控制与决策学术年会论文集[C];2007年
10 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
2 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
3 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
4 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
5 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
6 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
7 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
8 余国先;高维数据上的半监督学习研究[D];华南理工大学;2013年
9 赵志凯;半监督学习及其在煤矿瓦斯安全信息处理中的应用研究[D];中国矿业大学;2012年
10 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘孝良;基于半监督学习的随机森林算法研究与应用[D];中国海洋大学;2013年
2 陈新勇;基于核策略的半监督学习方法研究[D];河北大学;2010年
3 黄明明;半监督学习方法研究及在警用平台中的应用[D];大连理工大学;2010年
4 冯元佶;基于图的半监督学习的改进研究[D];湘潭大学;2010年
5 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
6 刘伟涛;半监督学习方法及应用研究[D];山东大学;2011年
7 杨伟;半监督学习方法研究[D];国防科学技术大学;2011年
8 魏征丽;基于图半监督学习算法的研究及应用[D];西安电子科技大学;2012年
9 惠成峰;基于半监督学习的电子商务推荐方法[D];南京大学;2013年
10 杨伟;基于半监督学习的遥感影像分类[D];上海交通大学;2010年
中国重要报纸全文数据库 前10条
1 特约记者 张鸣 通讯员 马瑞勤;“高效体外预应力结构锚固成套技术研究与应用”通过技术鉴定[N];北京科技报;2001年
2 ;列车交会空气压力波研究与应用[N];湖南日报;2004年
3 李乾文;做好需求管理的研究与应用[N];经济日报;2002年
4 林润泉;厨卫行业“十一五”发展重点[N];中国建材报;2006年
5 李杰;交流传动系统及高性能控制技术研究与应用 项目列入2005年度国家科技进步二等奖[N];科技日报;2006年
6 徐杰;阳煤集团五矿“高瓦斯矿井陷落柱密集区松散煤顶板条件下 开采技术的研究与应用技术”荣获2006年煤炭工业十大科技成果[N];科技日报;2007年
7 本报记者 刘苏华;亚洲最大控释肥基地建成投产[N];农资导报;2006年
8 李南;攀钢《国产1450热连轧关键技术及设备研究与应用》项目获国家科技进步奖[N];世界金属导报;2007年
9 刘耀明;韶钢3项技术成果通过省级鉴定[N];世界金属导报;2008年
10 本报记者 操秀英通讯员 马康 王丹;信息化铺就小康路[N];科技日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978