收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

随机森林算法的优化研究及在文本并行分类上的应用

张鑫  
【摘要】:随机森林是一种典型的组合分类器,通过引入随机性构造出决策树的集合,克服了决策树容易过拟合、局部收敛的问题。由于随机森林算法很好的解决了单分类器在性能上的瓶颈,因此逐渐被广泛应用。但是随机森林算法也存在不足,某些方面有待完善,本文就特征选择和处理非平衡数据集两个方面对其进行优化,还在Hadoop平台上实现了随机森林算法对文本的并行分类,主要研究成果包括以下几个方面:(1)在特征选择方面,本文在随机森林内置的特征选择方法上做出改进,提出了一种新的特征选择算法。该算法首先在分布式平台上使用MapReduce构建随机森林,其次通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,然后运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性。最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性。实验结果表明:相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好。(2)在数据预处理方面,对数据集类不平衡问题进行研究,并描述了几种解决方法,根据典型的SMOTE算法进行改进,提出了一种新的M3C-SMOTE算法,该方法首先结合K-means聚类算法找出样本集的三大簇心,进而求得重心,然后以该重心为中心“人造”新样本,很好的解决了SMOTE算法存在的盲目性、边缘化问题。最后对该方法和前面这些SMOTE算法做了对比实验,实验结果表明该方法对数据集预处理之后,随机森林算法的分类性能得到改善。(3)文本分类过程中的文本预处理、文本特征选择、文本向量化、训练、分类等需要进行大量的统计与计算,对此本文使用Mapreduce分布式计算框架对这些过程均进行了详细具体的并行计算与实现,然后经过加速比对比实验,验证了分布式模式下海量文本并行分类的高效性。最后在文本分类过程中引入了前面关于随机森林的特征选择算法,进一步提升了文本分类的准确性。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 吕莉;夏志红;;基于随机森林的大学生学业预警成因分析及对策[J];南昌工程学院学报;2020年06期
2 王粮山;侯晓彤;王红;邵涓涓;邵程程;杨峰;贾明;;体外膜氧合患者住院死亡的风险因素随机森林模型分析[J];心肺血管病杂志;2020年11期
3 王明宇;潘巧波;曹力;马东;;基于改进随机森林算法的风电机组齿轮箱故障预警方法研究[J];黑龙江电力;2020年06期
4 李发陵;彭娟;;基于增强可伸缩随机森林的高维大数据预测分析系统[J];西南师范大学学报(自然科学版);2021年01期
5 王勃;崔洋;董丽欣;;基于随机森林算法的高层建筑机械拆除方法判断[J];低温建筑技术;2020年12期
6 刘翌;潘小辉;胡浔惠;;基于随机森林的代码路径分支混淆技术研究[J];计算机与数字工程;2021年02期
7 邱少明;杨雯升;杜秀丽;王雪珂;;优化随机森林模型的网络故障预测[J];计算机应用与软件;2021年02期
8 刘文博;梁盛楠;秦喜文;董小刚;王纯杰;;基于迭代随机森林算法的糖尿病预测[J];长春工业大学学报;2019年06期
9 贾璐;李辉;陈大雷;;基于改进随机森林的城市河流水生态健康评价研究[J];海河水利;2019年06期
10 盛晓欣;田翔华;周毅;;基于随机森林癫痫患者脑电数据的分析研究[J];中国数字医学;2020年01期
11 秦喜文;郭宇;董小刚;郭佳静;袁迪;;基于局部均值分解和迭代随机森林的脑电分类[J];吉林大学学报(信息科学版);2020年01期
12 滕文骏;;随机森林数据情感挖掘方法分析[J];通讯世界;2020年01期
13 张劳模;罗鹏;庞丽峰;唐小明;;运用最大熵模型和随机森林模型对东北红松分布的模拟[J];东北林业大学学报;2020年03期
14 左晓庆;李潇雨;刘怀鹏;;基于随机森林算法的城区土地覆盖分类研究[J];河北省科学院学报;2020年01期
15 卢婧;冯仲科;;运用随机森林模型对北京市林分蓄积生长量的预测[J];东北林业大学学报;2020年05期
16 卢巍;朱业安;徐唯祎;;融合人工鱼群和随机森林算法的膝关节接触力预测[J];中国医学物理学杂志;2020年04期
中国重要会议论文全文数据库 前20条
1 王晓佳;王雨容;;基于模型融合的妊娠糖尿病预测研究[A];第十五届(2020)中国管理学年会论文集[C];2020年
2 汤健;夏恒;乔俊飞;郭子豪;;基于随机森林和梯度提升树混合集成的二噁英排放浓度预测[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
3 廖奇;张育炜;奕天飞;;基于多组学特征对蛋白编码基因和长非编码RNA调节关系的预测[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
4 仝晓哲;赵黎晨;王佳明;;随机森林回归在大坝变形预测中的应用研究[A];2019年江苏省测绘地理信息学会学术年会论文集[C];2019年
5 李玉洲;唐守伟;刘清亮;徐雷;王立峰;潘爱兵;于秋红;;基于随机森林的脱硫优化系统入口SO2浓度预测研究[A];全国第四届“智能电网”会议论文集[C];2019年
6 万成浩;郭彪;郭芝宏;张楠;;基于随机森林模型的系统级试验数据分析[A];2019中国系统仿真与虚拟现实技术高层论坛论文集[C];2019年
7 刘洪栓;杜文凤;;利用随机森林从地震属性中进行岩性预测的特征重要性测度研究[A];2019年中国地球科学联合学术年会论文集(二十三)——专题58:深地资源地震波勘探理论、方法进展、专题59:煤炭资源与矿山地球物理 、专题60:智能仪器技术及其在地学探测中的应用[C];2019年
8 尤东方;赵杨;;存在混杂时高维数据的随机森林分析[A];2017年中国卫生统计学学术年会论文集[C];2017年
9 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
10 吕洁;;基于随机森林算法对内蒙古地区地面逐日平均温度的估算[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
11 张炜;;天津市人才吸引力影响要素评价——基于随机森林法的检验分析[A];发挥社会科学作用 促进天津改革发展——天津市社会科学界第十二届学术年会优秀论文集(中)[C];2017年
12 谢忠局;王琳璘;王琦;陈永权;;基于随机森林的电力企业现金流预测模型研究[A];第二届智能电网会议论文集[C];2018年
13 高洪利;;基于随机森林算法的卷烟销量预测及分析[A];中国烟草学会学术年会优秀论文集[C];2017年
14 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
15 杨学良;陶晓峰;黄福兴;熊霞;;基于随机森林及时间序列模型的电能量异常数据检测及修复方法[A];第三届智能电网会议论文集[C];2018年
16 柯智元;刘怡飞;樊冀闽;张华平;苏焕章;胡安可;曾奕明;陈晓阳;;基于随机森林算法的阻塞型睡眠呼吸暂停低通气综合征的睡眠呼吸暂停低通气指数预报[A];中国睡眠研究会第十届全国学术年会汇编[C];2018年
17 高磊;秦慧杰;许康;;基于随机森林的资源三号影像地表覆盖信息提取[A];地理信息与人工智能论坛暨江苏省测绘地理信息学会2017年学术年会论文集[C];2017年
18 许允之;王舒萍;;基于随机森林算法的徐州雾霾回归预测模型[A];《环境工程》2019年全国学术年会论文集[C];2019年
19 陈晋贤;;基于迭代随机森林和支持向量机的晶圆缺陷预测方法[A];中国自动化学会华东六省一市学术年会论文摘要集[C];2018年
20 许允之;王舒萍;边宁;李鹏程;;基于随机森林算法的雾霾物质在沿面放电下分解特征研究[A];《环境工程》2018年全国学术年会论文集(下册)[C];2018年
中国博士学位论文全文数据库 前20条
1 王晓军;基于大数据的风洞马赫数集成建模方法的研究[D];东北大学;2016年
2 王鑫;基于随机森林的认知网络频谱感知算法研究[D];东北大学;2016年
3 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年
4 黄玥;VANET信息安全问题及异常检测技术研究[D];吉林大学;2017年
5 倪强;基于随机前沿和随机森林法的沿海开发区发展效率研究[D];天津大学;2011年
6 夏静;基于有限数据的临床预测模型研究[D];浙江大学;2019年
7 季斌;内蒙古浩布高地区多金属矿综合信息找矿预测研究[D];合肥工业大学;2017年
8 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
9 金超;基于随机森林的医学影像分割算法研究及应用[D];苏州大学;2017年
10 李宝富;巨厚砾岩层下回采巷道底板冲击地压诱发机理研究[D];河南理工大学;2014年
11 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
12 孙超;糖尿病肾病中医证候分类预测模型的构建及其识别性能的评估[D];北京中医药大学;2015年
13 张云桥;基于外周血表达谱数据探索精神分裂症诊疗性生物标志物[D];昆明医科大学;2020年
14 韩烨;基于机器学习的siRNA沉默效率预测方法研究[D];吉林大学;2017年
15 张瑞;内蒙古高新区创新能力机器学习评价及指标预测[D];天津大学;2013年
16 许跃如;主动安全系统对营运车辆驾驶员行为影响辨析及预测研究[D];东南大学;2019年
17 张乾;基于随机森林的视觉数据分类关键技术研究[D];华南理工大学;2016年
18 白晓东;基于图像的水稻关键发育期自动观测技术研究[D];华中科技大学;2014年
19 李海生;基于证据理论的分类方法研究[D];华南理工大学;2013年
20 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
中国硕士学位论文全文数据库 前20条
1 延昭;基于随机森林方法进行量化投资交易的实证研究[D];西南财经大学;2019年
2 王锋;基于随机森林回归的国债期货价格预测[D];华南农业大学;2018年
3 蔡艳丽;校园互联网借贷用户行为特征分析[D];中南财经政法大学;2019年
4 侯美君;“租购并举”下90后租购房意愿分析[D];中南财经政法大学;2019年
5 邵聪聪;购房者偏好视角下的北京二手房源分类研究[D];中南财经政法大学;2019年
6 许东;基于随机森林的创业板公司财务危机预警研究[D];中南财经政法大学;2019年
7 彭伟;基于随机森林-Logistic回归组合模型的小额贷款用户逾期预测[D];重庆大学;2019年
8 尉佳媛;在线新闻受欢迎程度预测[D];苏州大学;2018年
9 瞿珊;基于机器学习的网络游戏收益预测实证研究[D];重庆大学;2019年
10 李欣芮;基于组合模型的销售量预测及优化[D];华北电力大学(北京);2019年
11 盛成;基于随机森林算法的我国期权市场交易策略研究[D];上海交通大学;2018年
12 路晨;基于随机森林和时间序列分析的财务危机预警算法研究[D];重庆邮电大学;2019年
13 马慧娟;基于随机森林的湟水流域土地利用/土地覆被变化检测[D];青海师范大学;2019年
14 张大力;基于多光谱CCD影像和LiDAR数据的单木树种分类研究[D];东北林业大学;2019年
15 吴瑞;基于网页数据挖掘的高铁出游影响因素研究[D];长安大学;2019年
16 李晨;基于驾驶模拟试验的货车驾驶人分心驾驶识别研究[D];北京交通大学;2019年
17 陈庄宏;出行链活动类型识别研究[D];上海交通大学;2016年
18 王淑丹;基于机器学习的道路标志检测与识别技术[D];杭州电子科技大学;2016年
19 宁霄;基于随机森林和卷积神经网络的年轮分割与参数测量研究[D];东北林业大学;2019年
20 段仕;利用机器学习算法预测绵羊全基因组蛋白质互作关系[D];内蒙古农业大学;2019年
中国重要报纸全文数据库 前4条
1 本报记者 田新元;人工智能助力保险业智慧化转型[N];中国改革报;2017年
2 张阳;5G时代,AI能走多远?[N];人民邮电;2019年
3 李晨;小麦产量估测有了新算法[N];河南科技报;2021年
4 本报记者 李晨 通讯员 王一凡;小麦产量估测有了新算法[N];中国科学报;2021年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978