收藏本站
收藏 | 论文排版

随机森林在文本分类上的应用研究

张思捷  
【摘要】:随着互联网的普及,计算机技术正在飞速的发展,我们在网络上制造了大量的信息数据,正在进入大数据的时代,信息呈现爆炸式增长。对于海量复杂的信息数据,需要有效地组织梳理进而挖掘其关联,文本分类就是解决这些问题的一个关键部分。随机森林是一种非常典型的组合分类器,通过引入随机性来构造出决策树的一种集合,具有较高分类准确率、克服了过拟合的问题,对异常值和噪声有良好的容忍性等特点,随机森林得到了十分广泛的应用,而且在文本分类领域取得了不错的效果。由于随机森林算法也存在很多的不足,某些方面还有待更加的完善。本文首先通过对文本分类的流程进行系统化的梳理,介绍了文本分类的预处理、特征抽取和特征选择等。其中,文本预处理主要是对分词、去停用词、词干提取进行了简单介绍,特征抽取和特征选择部分着重介绍了特征选择的一些方法。并且本文对文本分类领域常用的几种分类器模型:朴素贝叶斯、支持向量机、K近邻等算法进行了简要的介绍,介绍了分类器的性能评价指标。随后本文简述了随机森林的相关理论部分,并将文本分类和随机森林算法理论运用到实例中,以CNBC网站的金融新闻资讯作为数据源进行文本分类工作。


知网文化
【相似文献】
中国期刊全文数据库 前15条
1 刘文博;梁盛楠;秦喜文;董小刚;王纯杰;;基于迭代随机森林算法的糖尿病预测[J];长春工业大学学报;2019年06期
2 贾璐;李辉;陈大雷;;基于改进随机森林的城市河流水生态健康评价研究[J];海河水利;2019年06期
3 盛晓欣;田翔华;周毅;;基于随机森林癫痫患者脑电数据的分析研究[J];中国数字医学;2020年01期
4 秦喜文;郭宇;董小刚;郭佳静;袁迪;;基于局部均值分解和迭代随机森林的脑电分类[J];吉林大学学报(信息科学版);2020年01期
5 滕文骏;;随机森林数据情感挖掘方法分析[J];通讯世界;2020年01期
6 张劳模;罗鹏;庞丽峰;唐小明;;运用最大熵模型和随机森林模型对东北红松分布的模拟[J];东北林业大学学报;2020年03期
7 沈智勇;苏翀;周扬;沈智威;;一种面向非均衡分类的随机森林算法[J];计算机与现代化;2018年12期
8 于大海;李金;罗艳虹;刘近春;张岩波;;随机森林模型和决策树模型在肝硬化上消化道出血预后中的应用[J];中国卫生统计;2019年02期
9 胡蝶;;基于随机森林的债券违约分析[J];当代经济;2018年03期
10 赵艺淞;杨昆;王保云;黎晓路;;随机森林在城市不透水面提取中的应用研究[J];云南师范大学学报(自然科学版);2017年03期
11 吴辰文;梁靖涵;王伟;李长生;;一种顺序响应的随机森林:变量预测和选择[J];小型微型计算机系统;2017年08期
12 顾娟;林敏;鞠桂玲;;基于随机森林回归的军械器材需求预测[J];自动化应用;2017年09期
13 刘迎春;陈梅玲;;流式大数据下随机森林方法及应用[J];西北工业大学学报;2015年06期
14 罗超;;面向高维数据的随机森林算法优化探讨[J];商;2016年04期
15 杨晓峰;严建峰;刘晓升;杨璐;;深度随机森林在离网预测中的应用[J];计算机科学;2016年06期
中国重要会议论文全文数据库 前10条
1 李玉洲;唐守伟;刘清亮;徐雷;王立峰;潘爱兵;于秋红;;基于随机森林的脱硫优化系统入口SO2浓度预测研究[A];全国第四届“智能电网”会议论文集[C];2019年
2 仝晓哲;赵黎晨;王佳明;;随机森林回归在大坝变形预测中的应用研究[A];2019年江苏省测绘地理信息学会学术年会论文集[C];2019年
3 尤东方;赵杨;;存在混杂时高维数据的随机森林分析[A];2017年中国卫生统计学学术年会论文集[C];2017年
4 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年
5 吕洁;;基于随机森林算法对内蒙古地区地面逐日平均温度的估算[A];第34届中国气象学会年会 S20 气象数据:深度应用和标准化论文集[C];2017年
6 张炜;;天津市人才吸引力影响要素评价——基于随机森林法的检验分析[A];发挥社会科学作用 促进天津改革发展——天津市社会科学界第十二届学术年会优秀论文集(中)[C];2017年
7 谢忠局;王琳璘;王琦;陈永权;;基于随机森林的电力企业现金流预测模型研究[A];第二届智能电网会议论文集[C];2018年
8 高洪利;;基于随机森林算法的卷烟销量预测及分析[A];中国烟草学会学术年会优秀论文集[C];2017年
9 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年
10 杨学良;陶晓峰;黄福兴;熊霞;;基于随机森林及时间序列模型的电能量异常数据检测及修复方法[A];第三届智能电网会议论文集[C];2018年
中国博士学位论文全文数据库 前10条
1 王晓军;基于大数据的风洞马赫数集成建模方法的研究[D];东北大学;2016年
2 王鑫;基于随机森林的认知网络频谱感知算法研究[D];东北大学;2016年
3 姚登举;面向医学数据的随机森林特征选择及分类方法研究[D];哈尔滨工程大学;2016年
4 黄玥;VANET信息安全问题及异常检测技术研究[D];吉林大学;2017年
5 倪强;基于随机前沿和随机森林法的沿海开发区发展效率研究[D];天津大学;2011年
6 季斌;内蒙古浩布高地区多金属矿综合信息找矿预测研究[D];合肥工业大学;2017年
7 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年
8 金超;基于随机森林的医学影像分割算法研究及应用[D];苏州大学;2017年
9 李宝富;巨厚砾岩层下回采巷道底板冲击地压诱发机理研究[D];河南理工大学;2014年
10 赵东;基于群智能优化的机器学习方法研究及应用[D];吉林大学;2017年
中国硕士学位论文全文数据库 前10条
1 何伦茜;基于随机森林的热轧带钢产品缺陷预测方法及系统开发[D];东北大学;2017年
2 张思捷;随机森林在文本分类上的应用研究[D];武汉大学;2019年
3 李欣芮;基于组合模型的销售量预测及优化[D];华北电力大学(北京);2019年
4 盛成;基于随机森林算法的我国期权市场交易策略研究[D];上海交通大学;2018年
5 路晨;基于随机森林和时间序列分析的财务危机预警算法研究[D];重庆邮电大学;2019年
6 马慧娟;基于随机森林的湟水流域土地利用/土地覆被变化检测[D];青海师范大学;2019年
7 张大力;基于多光谱CCD影像和LiDAR数据的单木树种分类研究[D];东北林业大学;2019年
8 吴瑞;基于网页数据挖掘的高铁出游影响因素研究[D];长安大学;2019年
9 李晨;基于驾驶模拟试验的货车驾驶人分心驾驶识别研究[D];北京交通大学;2019年
10 陈庄宏;出行链活动类型识别研究[D];上海交通大学;2016年
中国重要报纸全文数据库 前2条
1 本报记者 田新元;人工智能助力保险业智慧化转型[N];中国改革报;2017年
2 张阳;5G时代,AI能走多远?[N];人民邮电;2019年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978