收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘技术与关联规则挖掘算法研究

毛国君  
【摘要】: 数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要利用用户的约束等聚焦挖掘目标;需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,在各类基金的支持下,我们选择了这一课题开展相关工作。 本文的研究主要包括数据挖掘应用系统体系结构、关联规则挖掘理论及其算法等。关于数据挖掘应用系统体系结构研究方面,我们设计了一个数据挖掘应用系统的原型体系结构,系统化地分析了知识发现的基本过程和系统的各部件功能。由于不同的源数据类型、不同的应用目标以及不同的挖掘策略对数据挖掘系统的功能部件要求不同,这些研究主要是从知识发现的基本过程出发,探讨系统应具备的主要功能部件及其相互联系等。在关联规则挖掘理论研究上,我们首次给出了项目序列集格空间,并且探讨了在这个空间上的基本操作算子。基于项目序列集格空间及其操作,我们建立了关联规则挖掘模型和算法。在关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法ISS-DM、时态约束下的关联规则挖掘算法TISS-DM、数据分割下的关联规则挖掘算法PISS-DM。ISS-DM 算法是建立在严格的项目序列集格理论及其操作基础上,是一个一次数据库扫描的而且不使用侯选集的高效算法。我们选择目前引用率较高的Apriori算法和ISS-DM进行了对比实验。结果表明,ISS-DM执行时间整体上优于Apriori算法,而且随着数据量的增大ISS-DM执行时间的增长幅度也小于Apriori算法。为了提高对大型数据集挖掘的适应性,将时态约束应用到挖掘的预处理中,改进ISS-DM成TISS-DM。这部分工作还包括对时态区间、时态约束下的数据挖掘空间以及时态区间操作等进行了形式化,它们是TISS-DM的理论基础。对ISS-DM的另一个改进算法是PISS-DM。它是针对大数据集挖掘过程中对内存和CPU等系统资源要求较高的情况被提出和设计的,采用了数据分割的方法来减少资源的占用。本文解决了数据分割下局部频繁项目序列集和全局频繁项目序列集的转换等问题,是一个两次扫描数据库的算法。 总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构、关联规则挖掘理论模型以及算法方面的研究。在项目序列集格及其操作、时态约束挖掘空间等方面具有较好的 WP=4 理论价值,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 慕红宇,熊金明;基于数据仓库的数据挖掘技术[J];华东地质学院学报;2002年04期
2 王文清,乔雪峰;带有时态约束的多层次关联规则的挖掘[J];北京理工大学学报;2003年01期
3 成平广;;一种改进的关联规则挖掘算法在自选餐厅的应用研究[J];商场现代化;2008年35期
4 施平安,陈文伟,黄金才;关联规则时间适用性及其发现方法[J];计算机应用研究;2001年06期
5 欧阳为民,蔡庆生;基于时间窗口的增量式关联规则更新技术[J];软件学报;1999年04期
6 慕红宇,熊金明;基于数据仓库的数据挖掘技术[J];绍兴文理学院学报;2002年07期
7 毛国君,刘椿年;基于项目序列集亚操作和数据分割的最大频繁项目序列挖掘方法(英文)[J];自动化学报;2004年05期
8 毛国君,刘椿年;基于项目序列集操作的关联规则挖掘算法[J];计算机学报;2002年04期
9 陶兰,唐玉荣;时态数据库周期规律与关联规则的挖掘[J];中国农业大学学报;2001年04期
10 李正祥,顾其威,陈兵;无线网络中基于差错率的数据分割[J];数据采集与处理;2004年03期
11 段海英;;浅议分布式数据库系统的设计原理[J];科技信息(科学教研);2007年18期
12 李平;唐昆;李程杰;;H.264在无线网络中的可靠传输[J];计算机应用研究;2008年04期
13 史凯;雒江涛;张治中;;基于RTP的h.264无线视频传输和Qos控制[J];微计算机信息;2009年06期
14 王新,王湄生;关联规则挖掘中的关联推理[J];云南民族学院学报(自然科学版);2001年03期
15 施润身,赵青;改进的关联规则采掘算法及其实现[J];同济大学学报(自然科学版);2002年02期
16 丁振国,陈静;基于关联规则的个性化推荐系统[J];计算机集成制造系统-CIMS;2003年10期
17 汪洪涛,刘文才;数据挖掘技术关联规划算法在营销策略中的应用[J];工业控制计算机;2003年09期
18 田生伟,禹龙;关联规则挖掘在成绩录入、校对系统中的应用[J];微机发展;2003年08期
19 朱红蕾,李明;维护关联规则的算法研究[J];兰州理工大学学报;2004年05期
20 马海燕;H.264的网络传输适应性解决方案[J];北京广播学院学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 李阳;徐锡山;韩伟红;郑黎明;徐镜湖;;网络安全事件关联规则的自动化生成方法研究与实践[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 左万利;刘居红;;包含正负属性的关联规则及其挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
3 王宁;董淳;胡运发;陶晓鹏;;面向集合的关联规则挖掘算法[A];第十五届全国数据库学术会议论文集[C];1998年
4 周焕银;张永;;关联规则候选项频度规律研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 方艳;别荣芳;;关联规则的有趣性研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
6 黄晓燕;许龙飞;;基于关联规则的网络入侵检测技术的应用研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 李庆忠;张世栋;董国庆;;在数据多维体中进行关联规则的挖掘[A];第十六届全国数据库学术会议论文集[C];1999年
8 韩涛;张春海;;关系数据库中关联规则的高效挖掘算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 潘海为;李建中;张炜;;挖掘脑部医学图像中的关联规则[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
10 周水庚;胡运发;陶晓鹏;;分布数据库关联规则的递增挖掘[A];第十五届全国数据库学术会议论文集[C];1998年
中国博士学位论文全文数据库 前10条
1 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
2 李存荣;产品制造信息中的知识发现及其应用研究[D];武汉理工大学;2006年
3 肖波;可信关联规则挖掘算法研究[D];北京邮电大学;2009年
4 王越;分布式关联规则挖掘的方法研究[D];重庆大学;2003年
5 叶小飞;基于自发呈报系统与循证医学的药品不良反应信号挖掘[D];第二军医大学;2011年
6 伊卫国;基于关联规则与决策树的预测方法研究及其应用[D];大连海事大学;2012年
7 Vital Delmas MABONZO;大型数据库有效挖掘关联规则新方法研究[D];大连海事大学;2012年
8 牛成林;增量数据挖掘及其在电站运行优化中的理论研究及应用[D];华北电力大学(北京);2010年
9 王春雨;刑事案件关联分析与防控警务模式研究[D];大连理工大学;2010年
10 赵春;基于数据挖掘技术的财务风险分析与预警研究[D];北京化工大学;2012年
中国硕士学位论文全文数据库 前10条
1 周虹;关联规则挖掘算法的研究[D];哈尔滨理工大学;2007年
2 涂明;关联规则增量式更新算法研究[D];合肥工业大学;2010年
3 王景;基于关联规则数据挖掘的研究[D];广西大学;2003年
4 岳慧颖;含有时空约束的关联规则挖掘方法研究[D];哈尔滨工程大学;2004年
5 聂倩雯;基于关联规则数据挖掘和扩展贝叶斯网络的电网故障诊断方法研究[D];西南交通大学;2010年
6 赵春胜;基于关联规则的数据挖掘方法在电厂脱硫监测中的应用研究[D];内蒙古大学;2011年
7 蒋秀英;数据挖掘中的关联规则算法优化研究及应用[D];山东师范大学;2003年
8 孙彤;活性炭纤维吸附和解吸中的数据挖掘技术[D];辽宁工程技术大学;2004年
9 王烁;关联规则数据挖掘中经典频集算法改进的研究[D];天津大学;2003年
10 王玉荣;关联规则挖掘算法在大数据集上的应用研究[D];江南大学;2011年
中国重要报纸全文数据库 前10条
1 严宁;挖掘数据寻保险商机[N];网络世界;2007年
2 星光;认识RAID[N];网络世界;2000年
3 ;HP[N];网络世界;2000年
4 ;猫儿你快些走[N];中国计算机报;2001年
5 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
6 朱黎丽;北京房价数据不再“打架”?[N];中国经济导报;2007年
7 南京市地方税务局信息管理处、计算机中心 明靖 朱岚;数据挖潜让业务说话[N];中国计算机报;2006年
8 函函;玩儿转磁盘阵列(下)[N];中国电脑教育报;2005年
9 本报记者 袁跃;点击七彩人生[N];财会信报;2005年
10 王玮 蔡莲红;数据挖掘走入语音处理[N];计算机世界;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978