收藏本站
《复旦大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

数据流上的分类算法的研究

王鹏  
【摘要】: 我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。这些技术使得人们可以接触到大量数据。大量数据在给人们带来方便的同时也带来了另一个问题:“如何才能不被数据淹没,而是从中及时发现有用的信息?”。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。经历了多年的研究,数据挖掘已发展成为一个庞大的学科,主要包含分类、关联规则、聚类等。 最近几年出现了大量新类型的应用,传统的数据库管理系统无法很好的处理这些应用。这些应用的典型特点是数据以序列的形式出现,比如传感器数据、互联网数据、金融数据(股票价格等)、在线拍卖以及事务日志(网站访问日志、电话记录日志)等。这种数据形式称为数据流。由于数据流的特殊性:短时间内有大量数据连续到达,这些数据具有随时间动态变化的趋势,怎样对这些流数据使用有限存储空间进行快速处理以获取有用信息,为数据挖掘及其应用研究带来了新的机遇和挑战。 数据流上的分类问题具有广泛的应用背景,包括:信用卡欺诈消费行为的监测、传感器网络数据中的异常监测、网络日志分析等。数据流的数据无限、概念漂移等特点使得数据流上的分类模型不同于传统的分类模型,需要能够快速的处理流入的数据,并且及时对模型进行调整已反映新的分类信息。 本文中,对数据流上的分类问题从两方面进行了研究。一方面,针对数据快速流入,并且存在概念漂移的数据流提出了基于频繁模式和关联规则的分类算法。另一方面,研究了对多个数据流的数据进行分类时的负载均衡问题。 本文主要贡献包括: ●提出了基于频繁模式的数据流分类算法,利用频繁模式概括数据流中的类信息,通过动态的添加删除频繁模式、以及改变频繁模式的支持度和置信度表示概念漂移。使用衰减因子来保持频繁模式的时效性。基于频繁模式的数据流分类算法提高了现有算法的准确性。 ●从效率出发,提出了基于规则的数据流分类算法。使用高效的数据结构压缩训练集和规则集,并且使用基于错误分类记录集学习新规则的方法,从而提高了数据流分类算法的效率。 ●对基于规则的算法进一步进行了扩展,提出了两种扩展算法,用来解决类分布不均衡时的数据流分类问题。 ●对多数据流进行分类时的负载均衡问题进行了研究。针对带宽有限、服务器无法接收所有数据流产生的待分类数据的情况,提出了一种有效的负载均衡算法。算法使用保持分类信息的数据变换方法将分类信息进行压缩,然后使用多步数据获取机制从不同数据流获取数据。并且,使用布尔向量和负信息等技术结合真实数据和变化信息,进一步对需要传输的数据进行了压缩。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP301.6

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 朱参世;张超;李响;;基于模糊分裂的概念自适应增量决策树分类算法[J];计算机工程与设计;2011年04期
中国博士学位论文全文数据库 前2条
1 闫秋艳;煤矿概率流数据挖掘方法研究[D];中国矿业大学;2010年
2 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
中国硕士学位论文全文数据库 前9条
1 陈鹏;数据流关联规则挖掘研究及其应用[D];浙江大学;2011年
2 屠强;流数据的层次聚类和频繁模式的挖掘算法研究[D];南京理工大学;2011年
3 谭越;一种基于全局频繁模式的数据挖掘算法及系统实现[D];华中科技大学;2011年
4 周丽丽;学习表达式的映射机制研究[D];苏州大学;2011年
5 付会欣;李群机器学习中的辛群分类器研究[D];苏州大学;2008年
6 郑炳祥;基于.NET平台与混合模式的DIMS的设计与实现[D];中南大学;2008年
7 李飞雄;基于数据流的分类算法研究[D];苏州大学;2009年
8 熊天虹;基于任务均衡分配算法的工作流引擎研究[D];中南大学;2010年
9 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 张品;蒲菊华;刘永利;熊璋;;适用于连续数值标签的兴趣漂移增量学习方法[J];北京航空航天大学学报;2009年09期
2 张郴;张捷;;中国入境旅游需求预测的神经网络集成模型研究[J];地理科学;2011年10期
3 孙赜,白志强,樊光明,施彬;决策树方法在遥感地质填图中的应用[J];地球科学;2004年06期
4 马瑞民;邹会文;王浩畅;;一种简单的流式数据动态分类算法[J];大庆石油学院学报;2009年02期
5 杨杰;陈恩红;;面向个性化服务的用户兴趣偏移检测及处理方法[J];电子技术;2009年11期
6 李文斌;刘椿年;陈嶷瑛;;基于混合高斯模型的电子邮件多过滤器融合方法[J];电子学报;2006年02期
7 孙洁;李辉;韩建光;;基于滚动时间窗口支持向量机的财务困境预测动态建模[J];管理工程学报;2010年04期
8 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
9 侯传宇;胡学钢;;基于频度的概念漂移中低频概念的消减[J];合肥工业大学学报(自然科学版);2009年01期
10 周佃民;高琳;管晓宏;高峰;;SVR-Boosting ensemble model for electricity price forecasting in electric power market[J];Journal of Harbin Institute of Technology;2008年01期
中国重要会议论文全文数据库 前6条
1 ;Nave Bayes Ensemble Learning Based on Oracle Selection[A];2009中国控制与决策会议论文集(1)[C];2009年
2 吴月明;王益群;李莉;;基于神经网络集成的可靠性分布模型的智能识别[A];2006年全国机械可靠性学术交流会论文集[C];2006年
3 房一飞;张冬茉;;基于boosting的文本分类在股市领域信息抽取系统中的应用[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 陈崇超;施鸿喜;范明;;集成基于EP的分类器用于分类数据流[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 陈猛;郭华平;范明;;一种基于贝叶斯的多窗口数据流分类模型[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
2 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
5 刘冲;模拟电路故障诊断AdaBoost集成学习方法研究[D];大连海事大学;2011年
6 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
7 罗建宏;粒计算分类知识发现算法及其应用[D];浙江大学;2010年
8 赵楠;基于机器学习的供应链绩效智能分析方法研究[D];天津大学;2010年
9 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
10 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
4 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
5 武云龙;基于线性四叉树的快速邻域查询算法优化研究[D];哈尔滨工程大学;2010年
6 徐瑜;基于主动差异学习神经网络集成的电力变压器故障诊断方法研究[D];湘潭大学;2010年
7 夏超伦;基于社会计算的电子商务协同过滤推荐算法研究[D];浙江大学;2011年
8 殷贤君;基于增量存储的商业数据流分类挖掘算法研究与应用[D];浙江工商大学;2011年
9 许翀寰;面向用户兴趣漂移的Web数据流挖掘算法研究[D];浙江工商大学;2011年
10 张新东;集成学习及其应用研究[D];石家庄经济学院;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王冠,司建辉,杨昌锋;数据挖掘系统研究[J];北京工业大学学报;2005年04期
2 陈伟,丁秋林;一种XML相似重复数据的清理方法研究[J];北京航空航天大学学报;2004年09期
3 郭德勇;王仪斌;卫修君;王新义;;基于地理信息系统和神经网络的煤与瓦斯突出预警[J];北京科技大学学报;2009年01期
4 陈省;NHibernate对象关联映射[J];电脑编程技巧与维护;2004年11期
5 孟凡荣;周勇;夏士雄;;基于语义描述的煤矿安全监测数据聚类分析算法(英文)[J];Journal of Southeast University(English Edition);2008年03期
6 陈鹏;;数据挖掘技术应用初探[J];电脑知识与技术;2010年33期
7 高亮,李幼铭,陈旭荣,杨孔庆;地震射线辛几何算法初探[J];地球物理学报;2000年03期
8 蒋乐乐,吴先良;基于辛算法的二维电磁场散射问题的研究[J];电子学报;2004年12期
9 周殊;潘炜;罗斌;张伟利;丁莹;;一种基于粒子群优化方法的改进量子遗传算法及应用[J];电子学报;2006年05期
10 余勇昌;韦岗;;无线传感器网络中基于PEGASIS协议的改进算法[J];电子学报;2008年07期
中国博士学位论文全文数据库 前10条
1 陈东方;辛几何理论和小波变换方法在波动方程高频近似中的应用[D];安徽大学;2003年
2 邹涛;智能网络入侵检测系统关键技术研究[D];国防科学技术大学;2004年
3 肖辉;时间序列的相似性查询与异常检测[D];复旦大学;2005年
4 郭志懋;XML数据的查询、转换和集成[D];复旦大学;2005年
5 钟将;基于人工免疫的入侵分析技术研究[D];重庆大学;2005年
6 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年
7 王靖;流形学习的理论与方法研究[D];浙江大学;2006年
8 秦杰;Web环境中半结构化数据存储与查询技术研究[D];国防科学技术大学;2005年
9 刘雨;无线传感器网络中的信息处理[D];北京邮电大学;2006年
10 张晓琳;面向对象的XML数据管理技术研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘航;基于XML的电子病历系统的研究[D];吉林大学;2004年
2 殷颀;糖尿病病案数据库系统的设计与实现[D];第一军医大学;2004年
3 赖伏虎;基于数据仓库的医院信息管理综合应用平台设计开发[D];电子科技大学;2003年
4 张垒磊;基于规则的数据分类算法在铁路运输信息中的应用[D];哈尔滨理工大学;2005年
5 金芳勇;基于分形—混沌理论的煤与瓦斯突出预测研究[D];安徽理工大学;2006年
6 温箐笛;训练基于EP的分类器算法[D];郑州大学;2006年
7 张学茂;关联规则挖掘研究[D];长沙理工大学;2006年
8 熊蜀光;图模型XML数据上查询处理方法的研究[D];哈尔滨工业大学;2006年
9 张海龙;表象式语义网络研究[D];吉林大学;2007年
10 孙宏军;灰色数据挖掘技术在商业银行核心竞争力研究中的应用[D];北京邮电大学;2007年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 冉鹏;基于动态数据挖掘的电站热力系统运行优化方法研究[D];华北电力大学;2012年
中国硕士学位论文全文数据库 前7条
1 赵星;基于J2EE的电力企业工作流管理平台的设计与实现[D];华北电力大学(北京);2011年
2 邓光明;分布式工作流引擎的研究和设计[D];太原科技大学;2011年
3 马雪山;一站式审批系统的设计与实现[D];中山大学;2011年
4 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
5 李文龙;基于知识整合的数据流分类算法研究[D];辽宁工程技术大学;2010年
6 周丽丽;学习表达式的映射机制研究[D];苏州大学;2011年
7 何文慧;李群深层结构学习算法研究[D];苏州大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 陆楠;李晓林;;基于动态窗口的数据流频繁闭合模式挖掘算法[J];信息与电脑(理论版);2009年10期
2 陈文,王诗兵;FP-growth算法的一种优化实现[J];阜阳师范学院学报(自然科学版);2005年02期
3 侯伟;吴晨生;杨炳儒;方炜炜;;一种高效的离线数据流频繁模式挖掘算法[J];计算机科学;2009年07期
4 王磊;黄志球;朱小栋;沈国华;程亮;;数据流中基于矩阵的频繁项集挖掘[J];计算机科学与探索;2008年03期
5 徐利军;谢康林;徐虹;;基于数据流的频繁集挖掘[J];上海交通大学学报;2006年03期
6 薛丽霞;冀志敏;王佐成;;图像纹理特征挖掘[J];计算机应用研究;2010年08期
7 胡晓青;王波;;基于数据挖掘的金融时序频繁模式的快速发现[J];上海理工大学学报;2006年04期
8 神鹏飞;王希武;耿志广;王创伟;李国良;;一种无阈值的频繁模式生成算法[J];计算机工程;2011年08期
9 程转流;胡学钢;;数据流中频繁闭合模式的挖掘[J];计算机工程;2008年16期
10 王敏;赵晓雷;;数据流频繁模式挖掘[J];渭南师范学院学报;2010年02期
中国重要会议论文全文数据库 前10条
1 王娜娜;谢炜;李烨;;邳州慢性病与生活习惯等因素的关联规则分析[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年
2 邱勇;兰永杰;刘晓华;;高效FP-TREE创建算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 王寅北;夏庆;孙志挥;;FSETM:一种面向集合关联规则的数据挖掘新算法[A];第十五届全国数据库学术会议论文集[C];1998年
4 王一飞;章勇;;基于条件模式的最大频繁项目集挖掘算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
5 浦磊;潘永湘;;一种自适应快速关联规则挖掘算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
6 郭道宁;舒华英;;数据挖掘在电信运营市场决策支持中的应用[A];中国通信发展与经营管理学术研讨会论文集[C];2003年
7 李存荣;张开敏;杨明忠;;关联知识规则在产品质量控制中的应用[A];第二届全国信息获取与处理学术会议论文集[C];2004年
8 程转流;胡为成;胡学钢;;基于DSFCI-tree的分布式数据流频繁闭合模式挖掘[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
9 王翠茹;王少华;;关联规则经典算法的一种改进[A];中国通信学会第五届学术年会论文集[C];2008年
10 付忠广;田志友;靳涛;戈志华;卞双;;关联规则数据挖掘及其在电厂DCS数据分析中的应用[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
中国重要报纸全文数据库 前10条
1 陈军;承钢信息化水平再上新台阶[N];现代物流报;2007年
2 潘总机;数据挖掘:洞察客户需求[N];人民邮电;2005年
3 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
4 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
5 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
6 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
7 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
8 张立明;数据挖掘之道[N];网络世界;2003年
9 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
10 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
中国博士学位论文全文数据库 前10条
1 王鹏;数据流上的分类算法的研究[D];复旦大学;2007年
2 王曙燕;医学图像智能分类算法研究[D];西北大学;2006年
3 佘春东;数据挖掘算法分析及其并行模式研究[D];电子科技大学;2004年
4 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
5 宋世杰;基于序列模式挖掘的误用入侵检测系统及其关键技术研究[D];国防科学技术大学;2005年
6 姜保庆;关于弱比例规则的挖掘及推理研究[D];西南交通大学;2005年
7 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
8 倪萍;流数据挖掘关键技术研究[D];北京邮电大学;2010年
9 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
10 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 郭兴凯;数据流挖掘技术的研究[D];黑龙江大学;2005年
2 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
3 刘玉锋;数据挖掘中关联规则算法的研究与应用[D];长春理工大学;2010年
4 房琳;基于FP-Tree算法频繁模式挖掘的选课系统设计与实现[D];山东大学;2005年
5 汪洪涛;数据挖掘中关联规则算法研究[D];重庆大学;2003年
6 耿晓中;超市管理系统及数据挖掘技术在其上的应用[D];吉林大学;2004年
7 孙彤;活性炭纤维吸附和解吸中的数据挖掘技术[D];辽宁工程技术大学;2004年
8 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
9 吕文志;基于分类和关联规则的数据挖掘研究及应用[D];大连理工大学;2001年
10 李川;单维关联规则挖掘算法研究[D];郑州大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026