收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop平台的随机森林算法研究及图像分类系统实现

梁世磊  
【摘要】:随着互联网和多媒体技术的不断发展,海量的图像资源和数据涌入互联网,它们深刻地影响着我们的日常生活,此时对于图像内容准确地理解显得尤为重要。图像分类技术融合了机器学习、人工智能等学科的先进思想和理论,旨在将原本无序分布的大批量的图像数据进行有序地归类,是解决图像理解问题的基础。随机森林算法建立在决策树模型基础之上,它是多棵决策树的组合,在分类场景中得到广泛应用。作为一种优秀的分类器模型,也为图像分类提供了新的思路。但当图像资源的数据量特别大时,分类将是一个十分耗时的过程。为了解决以上问题,本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率。 首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架;接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法;随后,重点介绍随机森林算法,并在此基础之上,结合MapReduce计算框架,对随机森林模型构建过程进行双重并行化的改进,以提高随机森林算法的运行效率;然后,基于以上研究成果,本文构建了基于Hadoop平台的图像分类原型系统,包括Hadoop平台下处理图像接口的实现、基于DenseSift算法的特征采样过程、基于BoVW模型表示图像、构建图像的空间金字塔模型和利用改进后的随机森林算法进行分类器的训练共五个部分。最后,通过实验验证了基于Hadoop平台的图像并行化处理地有效性,同时证明并行化的随机森林算法相比较于单机版的随机森林,处理过程所消耗的时间大为缩短,并取得了不错的分类效果。 基于Hadoop平台的图像并行化处理过程,大大提高了海量图像处理过程的速度,同时针对于图像分类,改进后的随机森林算法在效率上有了明显的提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 胡锋;邢洁清;;一种基于小波变换与随机森林的人脸识别方法[J];电脑知识与技术;2011年16期
2 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期
3 魏松;;随机森林及其改进模型在浅层句法分析中的应用[J];计算机工程与应用;2008年09期
4 杨明旭;洪文财;米红;;基于量子粒子群和随机森林的特征选择方法[J];福建电脑;2010年05期
5 邱一卉;林成德;;基于随机森林方法的异常样本检测方法[J];福建工程学院学报;2007年04期
6 邱一卉;米红;;基于随机森林和转导推理的特征提取方法[J];厦门大学学报(自然科学版);2010年03期
7 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期
8 庄进发;罗键;彭彦卿;黄春庆;吴长庆;;基于改进随机森林的故障诊断方法研究[J];计算机集成制造系统;2009年04期
9 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期
10 李文彬;史豪斌;李伟华;齐勇;;机器人足球进攻策略的仿真研究[J];计算机仿真;2011年02期
11 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版)网络.预览;2009年04期
12 韩敏;朱新荣;;不平衡数据分类的混合算法[J];控制理论与应用;2011年10期
13 李建更;高志坤;;随机森林:一种重要的肿瘤特征基因选择法[J];生物物理学报;2009年01期
14 周绮凤;洪文财;杨帆;罗林开;;基于随机森林相似度矩阵差异性的特征选择[J];华中科技大学学报(自然科学版);2010年04期
15 张建兵;戴新宇;陈家骏;;文档分类之特征选择方法的实验比较[J];广西师范大学学报(自然科学版);2008年03期
16 张春霞;郭高;;Out-of-bag样本的应用研究[J];软件;2011年03期
17 庞宝川;卢益民;徐端全;;定量细胞分析中特征向量降维方法研究[J];华中科技大学学报(自然科学版);2009年07期
18 田宝明;戴新宇;陈家骏;;一种基于随机森林的多视角文本分类方法[J];中文信息学报;2009年04期
19 王华珍;胡雪琴;;中医“内生五邪”的智能证型分类[J];计算机工程与应用;2011年06期
20 ;[J];;年期
中国重要会议论文全文数据库 前6条
1 陈珊;李晓宁;梁逸曾;张志敏;;拉曼光谱的荧光背景扣除及其用于药物聚类分析[A];中国化学会第27届学术年会第09分会场摘要集[C];2010年
2 饶国强;冯辅周;江鹏程;靳莹;范结绪;;模糊识别在变速箱状态识别中的应用研究[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
3 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
4 刘雯;郭延芝;李梦龙;;随机森林用于激酶与底物蛋白的相互作用预测[A];中国化学会第28届学术年会第14分会场摘要集[C];2012年
5 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
6 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年
2 魏松;人机对话系统中若干关键问题研究[D];北京邮电大学;2007年
3 庄进发;基于模式识别的流程工业生产在线故障诊断若干问题研究[D];厦门大学;2009年
4 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
5 方文轩;非线性经济周期模型的随机稳定性与分岔研究[D];天津大学;2007年
6 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年
7 郝明;基于化学信息学方法的药物分子计算研究[D];大连理工大学;2012年
8 高碧霞;代谢综合征早期肾损害尿液多肽生物标志物的研究[D];北京协和医学院;2011年
9 张文彤;甲型流感病毒H3抗原进化及变异规律研究[D];复旦大学;2005年
10 马广立;口服药物吸收属性与人体药时曲线预测方法研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 李贞贵;随机森林改进的若干研究[D];厦门大学;2013年
2 梁世磊;基于Hadoop平台的随机森林算法研究及图像分类系统实现[D];厦门大学;2014年
3 陈为宜;基于CUDA的霍夫森林目标跟踪算法研究[D];厦门大学;2014年
4 彭国兰;随机森林在企业信用评估中的应用[D];厦门大学;2007年
5 王驰;基于单目视觉的道路检测算法的研究[D];长春理工大学;2008年
6 邱一卉;随机森林在电信行业客户流失预测中的应用[D];厦门大学;2008年
7 孙烈;随机森林及其在色谱指纹中的应用研究[D];大连理工大学;2009年
8 徐欢欢;基于能量函数的图像分割方法的研究[D];中国科学技术大学;2009年
9 张青松;基于连续帧差的车牌定位识别技术研究[D];西南交通大学;2007年
10 李波霞;红外光谱技术及化学计量学在党参、当归定性定量模型研究中的应用[D];兰州大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978