收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

商业数据流降维方法及其聚类算法研究

梅铮  
【摘要】:20世纪末,数据流作为一种新的、更切合实际的数据模型广泛出现在众多商业领域。它们具有数据量大、可无限、漂移特征、变化快、要求快速响应、适合于线性扫描、随机存取代价高等特点,且蕴含着企业的运行规律、管理要求、影响因素、变化趋势等价值极高的信息,更能反映企业运行、服务内容、服务对象等动态变化情况,但与此同时,这些具有多变性和无限性的数据流也给计算机带来了存储空间、计算速度和通信能力等方面的挑战。尽管数据挖掘技术在挖掘静态数据集方面已经取得了很多成果,但将它扩展到动态数据流挖掘中,尤其是动态商业数据流挖掘中仍具有很大的挑战性。 在动态数据流环境中,快速增长的数据集和数据维数的升高,导致现有针对小数据量及低维空间中的算法性能迅速下降,甚至低维空间中的距离、相似度度量将不复存在。本文采用滑动窗口作为数据流统一管理模型,在此基础上首先针对数据降维,从特征选择和特征抽取两方面对高维数据降维研究现状进行全面细致的综述与分析,并分析了最新关于数据降维的六点研究趋势。同时针对数据聚类,从传统静态和动态数据流两方面对聚类算法进行了比较分析。接着在第二章对前人研究进行综述的基础上提出了两种数据降维方法,第一种是基于粗集理论的数据降维方法,它从事务项和维度两方面对数据进行压缩,一方面在保持维特征的前提下,对事务项进行压缩,增强事务项之间的可识别性能力;另一方面通过对维间相关关系进行假设检验,有效去掉对决策结果无影响的维。第二种是基于粗糙等价类的商业数据预处理方法,它利用决策表中条件属性间相对独立性特点对数据维度进行约简处理,是一种全新降维算法,并对顾客评价表中部分数据进行了实例分析,以此表明该算法能够在保留原始信息的基础上有效进行降维。最后研究了在有限资源约束下的数据流聚类方法,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法。它采用两阶段模型进行聚类操作,使用概要数据进行二次聚类并更新聚类簇。通过实验表明,PDStream算法显现出处理海量数据的优越性以及聚类质量高的特点。并依据数据挖掘全生命周期将PDStream算法应用于某商业领域,取得了预期效果。


知网文化
【相似文献】
中国期刊全文数据库 前7条
1 李斌;数据流处理自动化和重新设计[J];管理科学文摘;1997年05期
2 蒋建军;王以群;;农村社会保障体系数据流关联规则挖掘[J];计算机工程;2009年17期
3 琚春华;;面向动态连锁商业数据流的分布式数据挖掘模型研究[J];管理世界;2008年12期
4 张龙波;赵以强;朱伯玉;;数据流概要数据结构在大型零售商业管理信息系统中的应用[J];商场现代化;2007年22期
5 刘艳桃;;发动机生产装配线制造企业系统数据流分析与应用[J];中国高新技术企业;2011年09期
6 李斌;并行计算用的计算机和模型[J];管理科学文摘;1996年04期
7 柴振荣;并行系统中冗余的利用[J];管理科学文摘;1995年10期
中国重要会议论文全文数据库 前10条
1 张冬冬;李建中;王伟平;郭龙江;;分布式复式数据流的处理[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 魏永超;陈立军;;数据流上复杂事件处理系统Eagle的设计与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蔡致远;熊方;钱卫宁;周傲英;;核合并分析及其在数据流密度估计上的应用[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
4 尹婷;李红燕;;窗口模型下数据流查询流水化执行的研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 宋宝燕;陆岩;张俊宁;;数据流上的一种适应性查询优化及调度策略[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 吕雁飞;武珊珊;谷峪;许嘉;于戈;;一种数据流上统计性查询QoS的保证方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
7 武珊珊;宋宝燕;袁锋;于亚新;于戈;;数据流模型研究[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 周锐;肖川;王国仁;韩东红;霍欢;;数据流滑动窗口连接上的卸载技术的研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 霍欢;王国仁;陈庆奎;彭敦陆;;基于Hole-Filler模型的XML数据流上的SLCA算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 闫朝升;李建中;李金宝;;数据流上滑动窗口技术的研究与实现[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
2 吴枫;数据流挖掘若干关键技术研究[D];国防科学技术大学;2009年
3 郭立超;数据流挖掘若干技术研究及其在电信行业的应用[D];浙江大学;2011年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 李军;基于用户行为挖掘的数据流管理技术研究[D];北京邮电大学;2012年
6 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
7 李培培;数据流中概念漂移检测与分类方法研究[D];合肥工业大学;2012年
8 周勇;基于并行计算的数据流处理方法研究[D];大连理工大学;2013年
9 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
10 冯博;基于半结构化数据的数据流挖掘算法研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 何登成;数据流上复杂序查询的研究与实现[D];浙江大学;2010年
2 周驰;数据流上概念漂移的检测和分类[D];郑州大学;2010年
3 刘娜;离散型数据流在线关联分析[D];大连理工大学;2012年
4 孔颖;基于粒度的数据流不确定性信息处理[D];重庆交通大学;2013年
5 李有生;一种改进的数据流处理算法的研究与实现[D];吉林大学;2010年
6 何江燕;基于数据流的聚类分析算法研究[D];兰州交通大学;2010年
7 李燕;面向含噪数据流的概念漂移集成分类研究[D];合肥工业大学;2011年
8 罗秀;数据流在线分类算法的研究与实现[D];东北大学;2009年
9 由欣;基于有向图构造的数据流预测算法的研究[D];哈尔滨工程大学;2011年
10 张育培;非平稳数据流的概念漂移检测及其分类[D];郑州大学;2013年
中国重要报纸全文数据库 前9条
1 计算机世界实验室 吴挺;Intel的专业“核动力”[N];计算机世界;2007年
2 北京 冬梅;P4时代真的来了吗[N];中国电脑教育报;2001年
3 ;立体防护“中枢神经系统”[N];网络世界;2003年
4 ;NetScreen-IDP 500 高端入侵检测与防护设备[N];计算机世界;2003年
5 甘久斌;如何有效管理宽带用户[N];通信产业报;2002年
6 李勇;降低投资70%[N];中国计算机报;2003年
7 ;在移动互联网里推广IPv6[N];人民邮电;2002年
8 ;港湾网络多业务万兆城域网解决方案[N];人民邮电;2003年
9 记者 郭姜宁;企业级电子商务资金流网络管理系统问世[N];科技日报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978