收藏本站
收藏 | 论文排版

数据流上的分类算法的研究

王鹏  
【摘要】: 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。这些技术使得人们可以接触到大量数据。大量数据在给人们带来方便的同时也带来了另一个问题:“如何才能不被数据淹没,而是从中及时发现有用的信息?”。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。经历了多年的研究,数据挖掘已发展成为一个庞大的学科,主要包含分类、关联规则、聚类等。 最近几年出现了大量新类型的应用,传统的数据库管理系统无法很好的处理这些应用。这些应用的典型特点是数据以序列的形式出现,比如传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等。这种数据形式称为数据流。由于数据流的特殊性:短时间内有大量数据连续到达,这些数据具有随时间动态变化的趋势,怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。 数据流上的分类问题具有广泛的应用背景,包括:信用卡欺诈消费行为的监测、传感器网络数据中的异常监测、网络日志分析等。数据流的数据无限、概念漂移等特点使得数据流上的分类模型不同于传统的分类模型,需要能够快速的处理流入的数据,并且及时对模型进行调整已反映新的分类信息。 本文中,对数据流上的分类问题从两方面进行了研究。一方面,针对数据快速流入,并且存在概念漂移的数据流提出了基于频繁模式和关联规则的分类算法。另一方面,研究了对多个数据流的数据进行分类时的负载均衡问题。 本文主要贡献包括: ●提出了基于频繁模式的数据流分类算法,利用频繁模式概括数据流中的类信息,通过动态的添加删除频繁模式、以及改变频繁模式的支持度和置信度表示概念漂移。使用衰减因子来保持频繁模式的时效性。基于频繁模式的数据流分类算法提高了现有算法的准确性。 ●从效率出发,提出了基于规则的数据流分类算法。使用高效的数据结构压缩训练集和规则集,并且使用基于错误分类记录集学习新规则的方法,从而提高了数据流分类算法的效率。 ●对基于规则的算法进一步进行了扩展,提出了两种扩展算法,用来解决类分布不均衡时的数据流分类问题。 ●对多数据流进行分类时的负载均衡问题进行了研究。针对带宽有限、服务器无法接收所有数据流产生的待分类数据的情况,提出了一种有效的负载均衡算法。算法使用保持分类信息的数据变换方法将分类信息进行压缩,然后使用多步数据获取机制从不同数据流获取数据。并且,使用布尔向量和负信息等技术结合真实数据和变化信息,进一步对需要传输的数据进行了压缩。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陆楠;李晓林;;基于动态窗口的数据流频繁闭合模式挖掘算法[J];信息与电脑(理论版);2009年10期
2 陈文,王诗兵;FP-growth算法的一种优化实现[J];阜阳师范学院学报(自然科学版);2005年02期
3 侯伟;吴晨生;杨炳儒;方炜炜;;一种高效的离线数据流频繁模式挖掘算法[J];计算机科学;2009年07期
4 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
5 徐利军;谢康林;徐虹;;基于数据流的频繁集挖掘[J];上海交通大学学报;2006年03期
6 薛丽霞;冀志敏;王佐成;;图像纹理特征挖掘[J];计算机应用研究;2010年08期
7 胡晓青;王波;;基于数据挖掘的金融时序频繁模式的快速发现[J];上海理工大学学报;2006年04期
8 神鹏飞;王希武;耿志广;王创伟;李国良;;一种无阈值的频繁模式生成算法[J];计算机工程;2011年08期
9 程转流;胡学钢;;数据流中频繁闭合模式的挖掘[J];计算机工程;2008年16期
10 王敏;赵晓雷;;数据流频繁模式挖掘[J];渭南师范学院学报;2010年02期
11 宋晓秋;高建清;;一种基于线性链表的关联规则改进算法[J];福建金融管理干部学院学报;2009年02期
12 任家东,任东英,高伟;分布式多层关联规则挖掘[J];计算机工程;2003年05期
13 潘怡;杜红燕;;概念格在频繁模式挖掘中的应用研究[J];湖南科技大学学报(自然科学版);2010年02期
14 杨华兵,叶新郢,张宁蓉;入侵检测中频繁模式的有效挖掘算法[J];情报指挥控制系统与仿真技术;2005年01期
15 樊征;柏文阳;徐洁磐;;基于反转矩阵的含重复项的关联规则挖掘算法[J];计算机科学;2004年06期
16 陈健;;关于关联规则经典算法的一种改进[J];福建电脑;2006年08期
17 汪洪涛,刘文才;数据挖掘技术关联规划算法在营销策略中的应用[J];工业控制计算机;2003年09期
18 何宏;肖建华;肖伟平;;基于数组的频繁项目集的挖掘算法[J];邵阳学院学报(自然科学版);2005年04期
19 林丽;冯少荣;薛永生;;基于有限个条件FP_树中挖掘频繁模式[J];计算机工程与应用;2007年05期
20 孙志强;;基于FP-Growth的入侵检测研究[J];计算机技术与发展;2006年12期
中国重要会议论文全文数据库 前10条
1 王娜娜;谢炜;李烨;;邳州慢性病与生活习惯等因素的关联规则分析[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年
2 邱勇;兰永杰;刘晓华;;高效FP-TREE创建算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 王寅北;夏庆;孙志挥;;FSETM:一种面向集合关联规则的数据挖掘新算法[A];第十五届全国数据库学术会议论文集[C];1998年
4 王一飞;章勇;;基于条件模式的最大频繁项目集挖掘算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
5 浦磊;潘永湘;;一种自适应快速关联规则挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
6 郭道宁;舒华英;;数据挖掘在电信运营市场决策支持中的应用[A];中国通信发展与经营管理学术研讨会论文集[C];2003年
7 李存荣;张开敏;杨明忠;;关联知识规则在产品质量控制中的应用[A];第二届全国信息获取与处理学术会议论文集[C];2004年
8 程转流;胡为成;胡学钢;;基于DSFCI-tree的分布式数据流频繁闭合模式挖掘[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
9 王翠茹;王少华;;关联规则经典算法的一种改进[A];中国通信学会第五届学术年会论文集[C];2008年
10 付忠广;田志友;靳涛;戈志华;卞双;;关联规则数据挖掘及其在电厂DCS数据分析中的应用[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
2 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
3 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
4 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
5 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
6 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
7 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
8 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年
9 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
10 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 郭兴凯;数据流挖掘技术的研究[D];黑龙江大学;2005年
2 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
3 刘玉锋;数据挖掘中关联规则算法的研究与应用[D];长春理工大学;2010年
4 房琳;基于FP-Tree算法频繁模式挖掘的选课系统设计与实现[D];山东大学;2005年
5 汪洪涛;数据挖掘中关联规则算法研究[D];重庆大学;2003年
6 耿晓中;超市管理系统及数据挖掘技术在其上的应用[D];吉林大学;2004年
7 孙彤;活性炭纤维吸附和解吸中的数据挖掘技术[D];辽宁工程技术大学;2004年
8 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
9 吕文志;基于分类和关联规则的数据挖掘研究及应用[D];大连理工大学;2001年
10 李川;单维关联规则挖掘算法研究[D];郑州大学;2003年
中国重要报纸全文数据库 前10条
1 陈军;承钢信息化水平再上新台阶[N];现代物流报;2007年
2 潘总机;数据挖掘:洞察客户需求[N];人民邮电;2005年
3 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
4 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
5 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
6 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
7 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
8 张立明;数据挖掘之道[N];网络世界;2003年
9 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
10 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978