收藏本站
《电子科技大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于云平台的数据挖掘算法的研究与实现

颜巍  
【摘要】:随着信息社会的发展,每天产生的数据量成指数级增长。如何从海量数据中挖掘有用信息成为公司面对的一大难题。数据挖掘算法对数据进行处理,挖掘隐藏有用信息,有利于公司作出发展决定,但目前的挖掘算法处理海量数据需要耗费很长的时间或无法处理海量数据。将传统算法迁移到云平台进行并行化改进可以有效的解决该问题。 Hadoop是Apache开发的一种分布式系统框架,底层的HDFS提供了具有高容错、高吞吐率的文件存储读写;MapReduce提供了一种并行化编程框架,用户无需了解分布式并行化编程细节,只需编写Map和Reduce类就能实现分布式程序。Hadoop的海量数据存储平台和简单的并行化计算平台,为传统数据挖掘算法能够处理海量数据提供了基础。 本文研究Hadoop平台技术和常见的数据挖掘算法,利用Hadoop集群并行处理数据的能力对K-Means算法、协同过滤算法进行并行化改进。主要工作如下: (1) K-Means算法是一种常见的聚类算法,按照元素之间的相似性将原始数据划分为多个簇。在本文中,针对聚类算法K-Means依赖于k值和初始中心点的缺陷,提出了基于采样和密度的改进K-Means算法。通过采样和密度来确定K-Means算法初始k值和初始中心点,并且基于Hadoop平台进行并行化改进。通过实验验证,改进后的K-Means算法具有很好的并行性。 (2)协同过滤算法是目前用的最多的一种项目推荐算法,通过计算用户之间的相似性找到具有最高相似度的k个邻居,然后通过邻居对项目的评分为用户推荐项目。在本文中,针对用户评分的稀疏性,提出了一种基于用户相似度和属性权值的混合推荐算法。通过对用户评分记录的学习,求出项目属性的权值,通过属性的权值并结合用户相似度来推荐项目,最后将算法移植到Hadoop平台。通过实验验证,改进后的协同过滤算法比原始算法具有更好的精准度和并行性。 (3)目前,Hadoop平台主要通过命令行进行操作,这对普通用户具有一定的难度。本文设计实现了基于Hadoop平台的数据挖掘系统。该系统将数据挖掘算法和Hadoop平台细节进行封装,对外提供Rest接口,用户通过Rest接口调用并行化的数据挖掘算法进行数据分析,无需了解底层的具体实现。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP311.13;TP391.3

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
2 李改;李磊;;基于矩阵分解的协同过滤算法[J];计算机工程与应用;2011年30期
3 赖玉霞;刘建平;杨国兴;;基于遗传算法的K均值聚类分析[J];计算机工程;2008年20期
4 吕奕清;林锦贤;;基于MPI的并行PSO混合K均值聚类算法[J];计算机应用;2011年02期
5 王辉;张望;范明;;基于集群环境的K-Means聚类算法的并行化[J];河南科技大学学报(自然科学版);2008年04期
6 陈恩红;王上飞;宁岩;王煦法;;一种利用代表点的有效聚类算法设计与实现[J];模式识别与人工智能;2001年04期
7 钱峰;;国内数据挖掘工具研究综述[J];情报杂志;2008年10期
8 田森平;吴文亮;;自动获取k-means聚类参数k值的算法[J];计算机工程与设计;2011年01期
9 杨善林;李永森;胡笑旋;潘若愚;;K-MEANS算法中的K值优化问题研究[J];系统工程理论与实践;2006年02期
10 李涛;王建东;叶飞跃;冯新宇;张有东;;一种基于用户聚类的协同过滤推荐算法[J];系统工程与电子技术;2007年07期
中国博士学位论文全文数据库 前1条
1 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前3条
1 邓自立;云计算中的网络拓扑设计和Hadoop平台研究[D];中国科学技术大学;2009年
2 杨波;基于REST架构风格的Web服务的研究和设计[D];江苏大学;2010年
3 曾小波;基于协同过滤的推荐系统的研究[D];电子科技大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 高灵渲;张巍;霍颖翔;滕少华;;改进的聚类模式过滤推荐算法[J];江西师范大学学报(自然科学版);2012年01期
2 顾洪博;赵万平;;数据挖掘算法性能优化的研究与应用[J];长春理工大学学报(自然科学版);2010年01期
3 谢锦男;;港口物流行业的数据挖掘与辅助决策系统设计[J];中国储运;2011年08期
4 郭海湘;诸克军;李玥;王得运;;软计算与硬计算融合的中国石油需求预测[J];中国地质大学学报(社会科学版);2007年06期
5 孙薇;张省;;基于半监督支持向量机的供电企业安全性评价[J];电气应用;2008年01期
6 李桃迎;陈燕;;一种改进FCM的快速优化算法及其应用[J];大连海事大学学报;2006年04期
7 李桃迎;陈燕;杨明;牟向伟;;基于改进模糊k均值算法和神经网络算法的数据挖掘模型[J];大连海事大学学报;2008年04期
8 刘卫华;廖瑞金;杨丽君;;基于点密度加权核模糊聚类的变压器故障诊断方法[J];电力自动化设备;2012年06期
9 冯利利;王华奎;韩应征;贾若思;;基于K-means算法改进的SOM神经网络调制识别分类器[J];电脑开发与应用;2011年01期
10 刘晓庆;;浅析数据挖掘的研究现状及其应用[J];电脑知识与技术;2006年26期
中国重要会议论文全文数据库 前9条
1 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 李友元;寇纲;施宇;陆晨;石勇;;基于组合熵权TOPSIS方法的山东省外商直接投资区位选择分析[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
3 张勇;寇纲;李友元;;一种新的农业气象灾害评估模型[A];经济全球化与系统工程——中国系统工程学会第16届学术年会论文集[C];2010年
4 吴殷;张剑;李安民;;关联规则挖掘技术在运动视觉分析中的应用[A];经济发展方式转变与自主创新——第十二届中国科学技术协会年会(第三卷)[C];2010年
5 李扬;陈超;祁麟;俞能海;;一种基于用户行为相似度的协同推荐算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
6 吕敬堂;吕大明;张浩;;基于SPSS的农业功能聚类分区方法研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
7 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
8 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
9 赵炳;胥光辉;柳旭;李慧冬;;基于Hadoop平台的软件系统的测试研究[A];第十七届全国青年通信学术年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 刘汉霞;我国权力寻租的影响因素研究[D];华南理工大学;2010年
4 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
5 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
6 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
7 方雷;基于云计算的土地资源服务高效处理平台关键技术探索与研究[D];浙江大学;2011年
8 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
9 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
10 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前10条
1 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 方超;木材缺陷的图像检测技术[D];哈尔滨工程大学;2010年
4 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
5 庞军;双聚类算法及其在协同过滤中的应用研究[D];大连理工大学;2010年
6 孙红艳;改进的小生境遗传聚类算法应用研究[D];辽宁工程技术大学;2010年
7 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年
8 吴军;天津港决策支持系统平台的设计与实现[D];大连海事大学;2010年
9 赵荣华;码头堆场预测算法的研究和应用[D];华南理工大学;2010年
10 金亚亚;一种基于改进信任度的协同过滤算法[D];华东理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙多;;基于兴趣度的聚类协同过滤推荐系统的设计[J];安徽大学学报(自然科学版);2007年05期
2 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
3 余正环,过泉生,俞蓓华,陈又申,陈晴;自备电厂的火电厂值长监视与管理平台系统[J];宝钢技术;1997年04期
4 汤海鹏,毛克彪,覃志豪,吴毅;空间数据挖掘工具浅谈[J];测绘与空间地理信息;2005年03期
5 王一锋;;EXTJS2.0客户端调用Rails的REST[J];电脑编程技巧与维护;2008年16期
6 肖利,金远平,徐宏炳,王能斌;一个新的挖掘广义关联规则算法[J];东南大学学报;1997年06期
7 吴吉义;林志洁;龚祥国;;基于协同过滤的移动电子商务个性化推荐系统若干研究[J];电子技术应用;2007年01期
8 陶新民;徐晶;杨立标;刘玉;;一种改进的粒子群和K均值混合聚类算法[J];电子与信息学报;2010年01期
9 张炎;;REST式面向资源架构[J];硅谷;2009年19期
10 叶施仁,史忠植;基于CBR的中心渔场预报[J];高技术通讯;2001年05期
中国博士学位论文全文数据库 前2条
1 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
2 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前1条
1 欧立奇;协同过滤在电子商务推荐系统中的应用研究[D];西北大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 谭德彬;邬润龙;陈藻;;利用数据挖掘技术支持反洗钱系统[J];金融电子化;2003年09期
2 刘晓燕,单晓红;数据挖掘在竞争情报系统中的应用[J];管理学报;2005年S2期
3 伍崇友;陈英武;;数据挖掘在信用风险分析中的运用[J];华南金融电脑;2005年12期
4 张勇;黄金才;张维明;汤大权;;一种遗传模糊神经网络数据挖掘算法[J];模糊系统与数学;2006年05期
5 陈步英;;SQL Server 2000在数据挖掘中的应用[J];电脑知识与技术(学术交流);2006年35期
6 何颖刚;陈剑雄;;基于微软SSAS技术的金融数据分析模块的实现[J];电脑知识与技术;2009年36期
7 张瑞;付松波;;WEKA数据挖掘在糖尿病数据中的应用研究[J];甘肃科技纵横;2010年05期
8 吴全永;;数据挖掘在学习平台中的应用[J];电脑编程技巧与维护;2010年16期
9 那嘉,王伟;数据挖掘方法与工具[J];黑龙江气象;2005年03期
10 戴霄;陈学武;李文勇;;公交IC卡信息处理的数据挖掘技术研究[J];交通与计算机;2006年01期
中国重要会议论文全文数据库 前10条
1 潘国林;杨帆;;数据挖掘算法在保险客户分析中的应用[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
2 刘玲;张兴会;;基于神经网络的数据挖掘算法研究[A];全国第二届信号处理与应用学术会议专刊[C];2008年
3 李怡凌;马亨冰;;一种基于本体的关联规则挖掘算法[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
4 袁磊;张阳;李梅;李雪;王勇;;在数据流管理系统中实现快速决策树算法(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
5 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
6 李久丹;陈剑;覃涛;;数据挖掘技术理论研究[A];广西计算机学会2010年学术年会论文集[C];2010年
7 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王盛;董黎刚;李群;;一种基于逆序编码的关联规则挖掘研究[A];浙江省电子学会2010学术年会论文集[C];2010年
9 韩秀鹏;李晓强;;浅谈炉缸中心点温度波动趋势的重要性[A];2011年全国冶金节能减排与低碳技术发展研讨会文集[C];2011年
10 吴景岚;朱文兴;;基于k中心点的迭代局部搜索聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国重要报纸全文数据库 前10条
1 贵州省移动通信公司 苏思妮;让信息去主动寻找用户[N];通信产业报;2004年
2 胡英;用Ajar平台开发功能手机[N];计算机世界;2004年
3 记者 陶玮 通讯员 盛莉;农房建设率先启动[N];嘉兴日报;2008年
4 鸣人;“液化”瘦身如何不露痕迹[N];中国摄影报;2010年
5 梁静;新太基于朗讯OPENet EXS平台开发增值业务[N];通信产业报;2002年
6 JO;将心爱的墙纸放在桌面的任意位置[N];电脑报;2004年
7 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
8 审改办;网上受理审批量超十万[N];中山日报;2006年
9 徐大亮;药店经营中的点线面[N];中国医药报;2008年
10 周圣霞;PowerPoint中对象旋转更轻松[N];中国电脑教育报;2005年
中国博士学位论文全文数据库 前10条
1 吴佳文;水文时间序列数据挖掘算法研究与应用[D];沈阳农业大学;2011年
2 梁瑾;模糊粗糙单调数据挖掘算法及在污水处理中应用研究[D];华南理工大学;2011年
3 沈悦;基于导航通信多模应用的位置服务技术研究[D];中国科学技术大学;2012年
4 吴珏;隐私保护的数据挖掘算法研究[D];西南石油大学;2012年
5 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年
6 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年
7 徐铭杰;遥感图像数据挖掘体系与实现技术研究[D];中国人民解放军信息工程大学;2003年
8 田旭;互联网流量识别技术研究[D];北京邮电大学;2012年
9 王守强;多中心点聚类问题的随机算法[D];山东大学;2010年
10 白一鸣;基于数据挖掘技术的模糊推理系统设计[D];大连海事大学;2013年
中国硕士学位论文全文数据库 前10条
1 颜巍;基于云平台的数据挖掘算法的研究与实现[D];电子科技大学;2013年
2 董昭;数据挖掘算法在地税行业CRM系统的研究应用[D];西安电子科技大学;2011年
3 曹聪;云计算支持下的数据挖掘算法及其应用[D];广州大学;2012年
4 黄雯;数据挖掘算法及其应用研究[D];南京邮电大学;2013年
5 潘国林;数据挖掘算法在保险客户分析中的应用[D];合肥工业大学;2010年
6 阿斯力别克(Kutlumuratov Assylbek);流数据挖掘算法在金融领域的应用研究[D];华南理工大学;2012年
7 刘娜;基于MapReduce的数据挖掘算法在全国人口系统中的应用[D];首都经济贸易大学;2011年
8 国琳;基于云数据库的几种数据挖掘算法研究与实现[D];吉林大学;2013年
9 路闯;数据挖掘算法的改进及应用研究[D];广西民族大学;2013年
10 谢薇;基于高校图书馆管理的数据挖掘算法应用研究[D];中南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026