收藏本站
《电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于云计算的海量数据挖掘分类算法研究

何元  
【摘要】:随着数据存储量的急剧增加,海量数据处理和海量数据计算成为了数据挖掘领域中一个重要的问题。传统的串行数据挖掘算法往往只能够处理一些小规模的数据,当面对海量数据时,它们的执行速度会降低甚至无法运行,因此这对目前的数据挖掘提出了严峻的挑战和考验。而分类算法作为数据挖掘中极其重要的一个部分,在信息检索、网络搜索以及CRM等方面扮演着重要的角色。目前绝大多数的分类算法都是串行的,在处理大数据集时可行性差、效率低、分类准确率低的问题日益突出,导致了计算资源的不可估量以及执行时间的无限延长。 现代社会所处理的数据是海量的,在云计算出现以前,在做数据挖掘时以往都期望用高性能机或者是更大规模的计算设备来进行处理;另外在海量数据的背景下,挖掘过程当中需要有很好的开发环境和应用环境,在这样的情况下,采用基于云计算的方式来进行数据挖掘是比较合适的。而且由于目前并行分类算法的缺少,大规模数据集日益庞大,传统的数据挖掘系统已经不能对这些海量数据进行高效挖掘和利用,如何提高算法的并行性和效率是目前亟需解决的问题。 本论文以实验室粤港关键领域重点突破项目为基础,分析和研究了舆情分析系统项目中应用到的海量数据挖掘的相关技术。由于舆情分析系统处理的数据都来自因特网,每天需要处理的数据量非常庞大,要对这些海量数据集进行训练和分类,就必须保证舆情分析系统能维持在一个稳定、高效的环境。如何提高舆情分析系统分类的效率和性能,是本论文要解决的问题。 本论文的先进性在于,分类算法在舆情分析系统中是非常重要的一部分,根据舆情分析系统的需求分析和系统设计,为舆情分析系统设计了一种基于Strategy模式的分类算法模块。并且设计了不同的并行分类算法,通过在MapReduce框架下对分类算法的封装,大大提高了算法的运行效率,使得分类算法的加速比接近于线性加速比。舆情分析系统根据这个算法模型,可以动态地调用不同的分类算法对舆情数据进行分类,提高了系统分类算法的性能和效率,从而大大提高了舆情分析系统的稳定性和可靠性。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

手机知网App
【引证文献】
中国期刊全文数据库 前5条
1 马玉玲;;基于数据挖掘的几种关键技术探究[J];福建电脑;2012年09期
2 吴恒;王东勃;;面向航空制造业的海量数据处理研究[J];机械设计与制造工程;2013年04期
3 赵又霖;邓仲华;陆颖隽;;数据挖掘云服务分析研究[J];情报理论与实践;2012年09期
4 于秀慧;李宝山;;基于知识元的知识管理[J];山东图书馆学刊;2013年01期
5 刘建安;;云计算在电力系统不良数据识别中的应用[J];数字技术与应用;2013年07期
中国博士学位论文全文数据库 前1条
1 张利军;大规模机器学习理论研究与应用[D];浙江大学;2012年
中国硕士学位论文全文数据库 前5条
1 冯懿;基于云计算的电力系统不良数据辨识算法研究[D];南京理工大学;2013年
2 冯舸;基于云计算的数据挖掘关联算法研究与实现[D];成都理工大学;2013年
3 何柏英;云计算环境下物流路径数据挖掘研究[D];合肥工业大学;2013年
4 王龙涛;基于云计算的碰撞检测算法研究[D];吉林农业大学;2013年
5 罗启福;基于云计算的DBSCAN算法研究[D];武汉理工大学;2013年
【参考文献】
中国期刊全文数据库 前4条
1 韩松来,张辉,周华平;基于关联度函数的决策树分类算法[J];计算机应用;2005年11期
2 戴元顺;;云计算技术简述[J];信息通信技术;2010年02期
3 刘小虎,李生;决策树的优化算法[J];软件学报;1998年10期
4 肖汉;;基于可重用构件的软件开发模式研究[J];微电子学与计算机;2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 秦洪英;数据挖掘在网络业务流设计中的实现过程[J];阿坝师范高等专科学校学报;2005年03期
2 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
3 孟庆全;金传山;梅灿华;胡学钢;;基于依赖度求解属性约简的方法[J];安徽大学学报(自然科学版);2008年04期
4 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
5 宋平平;;基于数据挖掘的智能入侵检测系统模型及实现[J];安徽工程科技学院学报(自然科学版);2006年03期
6 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
7 梅灿华;孟庆全;祁炯;李明;;分辨矩阵构成与约简同步的方法[J];安徽工程科技学院学报(自然科学版);2008年02期
8 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
9 陈志民;李亭;杨敬锋;彭晓琴;;珠海市斗门区水产品病害网络诊断与防治系统算法设计[J];安徽农业科学;2010年17期
10 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
3 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
4 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
5 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
6 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
7 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
8 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
9 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
10 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
3 李彤岩;基于数据挖掘的通信网告警相关性分析研究[D];电子科技大学;2010年
4 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
5 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
8 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
9 李军;不平衡数据学习的研究[D];吉林大学;2011年
10 夏萍;灾害应急物流中基于需求分析的应急物资分配问题研究[D];北京交通大学;2010年
中国硕士学位论文全文数据库 前10条
1 汤雪;时间序列线性表示方法及其相似性度量算法研究[D];山东科技大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 解保忠;计算机在矽肺病早期诊断及预测中的应用研究[D];哈尔滨工程大学;2010年
4 王颖芳;基于特定内容的敏感图像过滤技术的研究[D];哈尔滨工程大学;2010年
5 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
6 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
7 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
8 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
9 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
10 骆永健;基于聚类的数据流异常检测算法的研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 姜永常;;基于知识元的知识仓库构建[J];图书与情报;2005年06期
2 杜海宁;;基于云计算的图书馆海量数据存储研究[J];图书与情报;2010年03期
3 王景燕;;基于云计算的电力调度信息化研究[J];电工技术;2011年12期
4 段刚,余贻鑫;电力系统NP难问题全局优化算法的研究[J];电力系统自动化;2001年05期
5 于之虹,郭志忠;基于数据挖掘理论的电力系统暂态稳定评估[J];电力系统自动化;2003年08期
6 束洪春,孙向飞,于继来;粗糙集理论在电力系统中的应用[J];电力系统自动化;2004年03期
7 肖世杰;;构建中国智能电网技术思考[J];电力系统自动化;2009年09期
8 赵俊华;文福拴;薛禹胜;林振智;;云计算:构建未来电力系统的核心计算平台[J];电力系统自动化;2010年15期
9 胡孔法;张长海;陈崚;达庆利;;一种面向物流数据分析的路径序列挖掘算法ImGSP[J];东南大学学报(自然科学版);2008年06期
10 张申勇;蔡培茂;廖继勇;乐小燕;孙细斌;;浅析SQL Server中视图、存储过程和函数的异与同[J];电脑知识与技术;2011年23期
中国博士学位论文全文数据库 前5条
1 魏迎梅;虚拟环境中碰撞检测问题的研究[D];中国人民解放军国防科学技术大学;2000年
2 张丽平;粒子群优化算法的理论及实践[D];浙江大学;2005年
3 祖巧红;基于实例的OLAM技术及其多维可视化研究[D];武汉理工大学;2007年
4 陈浩然;面向移动区域的移动对象数据库研究[D];中国科学技术大学;2008年
5 陈波;电力系统不良数据辨识的研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 白云龙;基于Hadoop的数据挖掘算法研究与实现[D];北京邮电大学;2011年
2 杜雅红;基于云计算平台的图算法研究[D];北京邮电大学;2011年
3 何华;基于云计算平台的电信经营分析系统中元数据管理的研究与实现[D];北京邮电大学;2011年
4 汤欣妍;移动对象路径聚类和异常路径检测算法研究[D];华南理工大学;2011年
5 刘智勇;基于云计算的文本挖掘算法研究[D];电子科技大学;2011年
6 赵虎;云计算环境下的关联数据挖掘算法实现[D];电子科技大学;2011年
7 刘猛;云计算平台下神经网络方法研究[D];电子科技大学;2011年
8 杨新月;云计算环境下关联规则算法的研究[D];电子科技大学;2011年
9 张敏;云计算环境下的并行数据挖掘策略研究[D];南京邮电大学;2011年
10 丛中昌;基于云计算平台的电信经营分析系统中海量数据处理研究[D];南京邮电大学;2011年
【二级引证文献】
中国期刊全文数据库 前3条
1 胡海东;;物联网中的海量数据处理技术[J];科技创新导报;2013年03期
2 杜维;刘阳;;制造企业物流服务创新知识获取方式研究[J];现代商贸工业;2014年02期
3 王春利;;护理学理论和实践知识的组织与映射研究[J];中国农村卫生事业管理;2014年08期
【二级参考文献】
中国期刊全文数据库 前4条
1 曲开社,成文丽,王俊红;ID3算法的一种改进算法[J];计算机工程与应用;2003年25期
2 冯刚,边根庆,侯义斌,卢三元;基于同态的软件重用技术度量[J];微电子学与计算机;2004年09期
3 龚永罡,石峰;虚拟软件企业开发支撑与管理平台研究与实现[J];微电子学与计算机;2004年12期
4 白涛;一种基于软件总线可重用构件框架的设计与实现[J];微电子学与计算机;2005年01期
中国硕士学位论文全文数据库 前3条
1 葛斌;基于构件的软件复用技术研究[D];合肥工业大学;2002年
2 冯朝刚;基于构件的软件复用研究[D];重庆大学;2003年
3 孙弢;数据挖掘中的决策树方法及其在客户分类中的应用[D];大连理工大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 刘桂霞,崔永铎,高平和;关于数据挖掘的研究[J];工业技术经济;2000年03期
2 李业丽,常桂然,徐茜;神经网络在数据挖掘中的应用研究[J];计算机工程与应用;2000年08期
3 陈国萍,李巍,刘仲英;数据挖掘中概念树的标准、生成和实现[J];计算机工程;2000年12期
4 朱天翔,李力;相关案件的数据挖掘[J];计算机应用研究;2000年03期
5 赵丹群;数据挖掘:原理、方法及其应用[J];现代图书情报技术;2000年06期
6 余英泽,廖里,吴渝;一种新型数据分析技术——数据挖掘[J];计算机与现代化;2000年01期
7 邵华 ,万家华 ,金翔义;数据挖掘在证券行业中的应用[J];软件工程师;2000年11期
8 王宏;数据挖掘在网络营销中的应用[J];计算机应用与软件;2000年06期
9 何东峰;数据挖掘要适当[J];互联网周刊;2000年Z1期
10 康松林,费洪晓;数据挖掘的软分类方法[J];长沙铁道学院学报;2001年03期
中国重要会议论文全文数据库 前10条
1 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
2 李久丹;陈剑;覃涛;;数据挖掘技术理论研究[A];广西计算机学会2010年学术年会论文集[C];2010年
3 张秋彤;;数据挖掘与高校图书馆个性化信息服务[A];第九届中国不确定系统年会、第五届中国智能计算大会、第十三届中国青年信息与管理学者大会论文集[C];2011年
4 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
5 毛定祥;;数据挖掘与实证经济学[A];2003中国现场统计研究会第十一届学术年会论文集(上)[C];2003年
6 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
7 雷宇;;论行业信息资源的数据挖掘[A];中国烟草行业信息化研讨会论文集[C];2004年
8 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
9 孙明;康红梅;莫一;;数据挖掘在科技奖励管理系统专家库中的应用[A];2005年十二省区市机械工程学会学术年会论文集(湖北专集)[C];2005年
10 邵红全;杨菊梅;潘建雄;;数据挖掘的策略与实现技术[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者褚宁;数据挖掘如“挖金”[N];解放日报;2002年
2 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
3 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
4 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年
5 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年
6 本报记者 连晓东;数据挖掘:金融信息化新热点[N];中国电子报;2002年
7 本报记者 凤小华 朱仁康;“数字挖掘软件”引领中国信息化新浪潮[N];中国电子报;2003年
8 本报记者 史延廷;“成功企业数据挖掘暨数量化管理论坛”在京举办[N];中国旅游报;2002年
9 朱小宁;数据挖掘:信息化战争的基础工程[N];解放军报;2005年
10 本报记者 王小平;从“大集中”走向数据挖掘[N];金融时报;2002年
中国博士学位论文全文数据库 前10条
1 杨虎;序列数据挖掘的模型和算法研究[D];重庆大学;2003年
2 巩建光;面向电信领域的数据挖掘关键技术研究[D];哈尔滨工程大学;2012年
3 李建强;基于数据挖掘的电站运行优化理论研究与应用[D];华北电力大学(河北);2006年
4 余小高;电子商务环境中分布式数据挖掘的研究[D];武汉理工大学;2007年
5 李国旗;本体辅助的先验知识融入生物信息数据挖掘的方法研究[D];上海交通大学;2007年
6 翟坤;基于数据挖掘的成本管理方法研究[D];大连理工大学;2012年
7 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
8 刘洪波;汉语认知脑数据挖掘相关算法及应用研究[D];大连理工大学;2006年
9 朱廷劭;数据挖掘及其在汉语文语转换中应用的研究[D];中国科学院研究生院(计算技术研究所);1999年
10 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
中国硕士学位论文全文数据库 前10条
1 杨毅超;基于Web数据挖掘的作物商务平台分析与研究[D];湖南农业大学;2008年
2 徐进华;基于灰色系统理论的数据挖掘及其模型研究[D];北京交通大学;2009年
3 俞驰;基于网络数据挖掘的客户获取系统研究[D];西安电子科技大学;2009年
4 冯军;数据挖掘在自动外呼系统中的应用[D];北京邮电大学;2009年
5 于宝华;基于数据挖掘的高考数据分析[D];天津大学;2009年
6 王仁彦;数据挖掘与网站运营管理[D];华东师范大学;2010年
7 彭智军;数据挖掘的若干新方法及其在我国证券市场中应用[D];重庆大学;2005年
8 涂继亮;基于数据挖掘的智能客户关系管理系统研究[D];哈尔滨理工大学;2005年
9 贾治国;数据挖掘在高考填报志愿上的应用[D];内蒙古大学;2005年
10 马飞;基于数据挖掘的航运市场预测系统设计及研究[D];大连海事大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026