收藏本站
《广西师范大学》 2001年
收藏 | 手机打开
二维码
手机客户端打开本文

数据挖掘中若干问题的研究

苏毅娟  
【摘要】: 随着数据库和计算机网络的广泛应用,工、商、企业、政府部门所拥有的数据量急剧增大。这些部门越来越强地依赖于对它们的数据集进行分析和处理来制定具有竞争力的决策和策略。而目前的数据分析工具很难对数据进行深层次处理,数据的迅速增加与现有的数据分析方法的滞后之间的矛盾越来越突出。因此迫切需要研究相应的方法和工具来从大量数据中智能地、自动地提取出有价值的知识和信息。于是一个新的研究领域——数据挖掘(Data Mining)就在这种背景下产生并迅速发展起来了。目前越来越多的研究者投身其中。近年来为了处理数据仓库和Internet上浩如烟海的信息数据,以IBM、MICROSOFT等大公司为首的工商业投入大量的资金研究数据挖掘技术和工具,各国也投入了大量的资金开发适合其国情的数据挖掘系统和工具。目前,数据挖掘已经成为一个国际前沿的研究领域。 第一章首先介绍了什么是数据挖掘,包括数据挖掘的产生背景和定义,介绍了目前国内外数据挖掘中研究的一部分重要内容的概况,包括关联规则、数据综合和概括、数据分类、数据聚类等。最后介绍了数据挖掘在研究和应用中所面临的挑战,正是这些挑战推动了数据挖掘研究的进一步发展。 关联规则挖掘是目前数据挖掘中研究得比较多的课题。关联规则挖掘问题通常分解成两步进行:(1)找出所有满足最小支持度的所有项集即频繁集;(2)从频繁集中提取出满足最小支持度的规则。其中最关键的一步是频繁集产生。第二章介绍了频繁集产生算法的传统思路,并提供一种新思路供大家参考。 目前绝大多数频繁集产生算法都是采用类似Apriori算法的思想即一个频繁集的任意子集都是频繁集。但是象这样产生候选集的开销极大,特别是存在有长频繁集或最小支持度非常小时。分析得知,Apriori算法的瓶颈是候选集的产生及验证。若能够避免产生大量的候选集,算法的性能将大大地提高。第三章构造了一个新的数据结构频繁树,用以存储频繁项集的重要信息,并给出了基于该频繁树的频繁集的挖掘算法,该方法能够避免重复扫描数据库,避免产生大量的候选集,大大地减少搜索空间。实验结果表明该方法是一更高效的方法。 目前绝大多数的关联规则挖掘主要是挖掘正关联规则。实际上,挖掘正关联规则和负关联规则是同样重要的。从数学、形式逻辑等学科技术中也容易看出,负关系所起的作用与正关系一样重要。正如实数系统中需要负实数、逻辑系统中需要否命题一样,为了满足数据关系的完备性,我们需要负关联规则。另外,如何度量关联规则的不确定性是关联规则挖掘研究中的重要问题之一。而support-confidence模型是关联规则挖掘普遍应用的模型。它采用supp(XOY)和conf(X→Y)来度量关联规则的不确定性。然而,用这一度量标准可能会得到诸如X→Y,但X与Y不相关(或独立)的规则。因此,用conf(X→Y)来度量关联规则的不确定性是不够的。第四章基于概率论以及Piatetsky-Shapiro的观点给出了一个能 同时挖掘正关联规则和负关联规则的算法,且构建了一个关联规则挖掘模型以度量关联规 则的不确定性,同时阐明了该模型是度量关联规则不确定性的有效方法。
【关键词】:数据挖掘 数据库中的知识发现 关联规则 负关联规则 频繁集 负频繁集
【学位授予单位】:广西师范大学
【学位级别】:硕士
【学位授予年份】:2001
【分类号】:TP311.12
【目录】:
  • 中文摘要3-5
  • 英文摘要5-7
  • 第一章 绪论7-16
  • §1.1 引言7-8
  • §1.2 数据挖掘的定义8-9
  • §1.3 数据挖掘研究的内容9-13
  • §1.3.1 关联规则9-10
  • §1.3.2 数据分类10-11
  • §1.3.3 数据聚类11
  • §1.3.4 多级数据综合和概括11-12
  • §1.3.5 序列匹配12
  • §1.3.6 路径遍历模式12-13
  • §1.4 数据挖掘研究与应用挑战13-15
  • §1.5 我们的研究工作15-16
  • 第二章 频繁集产生算法研究16-19
  • §2.1 引言16
  • §2.2 算法16-18
  • §2.3 小结18-19
  • 第三章 一种改进的频繁集挖掘方法19-26
  • §3.1 引言19
  • §3.2 频繁树的设计与构造19-21
  • §3.3 完备性与紧凑性21
  • §3.4 频繁集挖掘21-24
  • §3.5 实验结果24-25
  • §3.6 讨论25
  • §3.7 小结25-26
  • 第四章 一种新的关联规则挖掘模型26-34
  • §4.1 引言26-27
  • §4.2 基本概念27-28
  • §4.3 新模型28-33
  • §4.4 比较33
  • §4.5 小结33-34
  • 第五章 结束语34-35
  • 参考文献35-40
  • 致谢40

【引证文献】
中国期刊全文数据库 前1条
1 哈金才;;数据挖掘算法的评价标准与方法[J];微电子学与计算机;2006年12期
中国博士学位论文全文数据库 前1条
1 荣耀;海底隧道衬砌裂缝控制关键技术研究[D];同济大学;2007年
中国硕士学位论文全文数据库 前2条
1 王爱国;基于校园网的XML信息表示及数据挖掘研究[D];山东大学;2005年
2 梅东霞;面向XML文档的数据挖掘技术研究[D];北京化工大学;2007年
【参考文献】
中国期刊全文数据库 前6条
1 苏毅娟,严小卫;一种改进的频繁集挖掘方法[J];广西师范大学学报(自然科学版);2001年03期
2 程继华,郭建生,施鹏飞;挖掘所关注规则的多策略方法研究[J];计算机学报;2000年01期
3 段晓君,杜小勇,易东云;可视化数据挖掘技术及其应用[J];计算机应用;2000年01期
4 唐常杰,杨富华,杨璐;数据采掘的基本方法及其与专家系统的差异[J];计算机应用;1999年03期
5 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
6 陆丽娜,陈亚萍,魏恒义,杨麦顺;挖掘关联规则中Apriori算法的研究[J];小型微型计算机系统;2000年09期
【共引文献】
中国期刊全文数据库 前10条
1 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
2 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
3 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
4 蔡丽艳;冯宪彬;丁蕊;;基于决策树的农户小额贷款信用评估模型研究[J];安徽农业科学;2011年02期
5 赵静娴;;基于决策树的食品安全评估研究[J];安徽农业科学;2011年32期
6 王斌;;基于聚类的决策树在玉米种质筛选中的应用[J];安徽农业科学;2011年33期
7 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
8 覃爱明,胡昌振,谭惠民;网络攻击检测中的机器学习方法综述[J];安全与环境学报;2001年01期
9 王杰,张静,张继生,曾子维;数据挖掘中关联规则的研究与论证[J];鞍山科技大学学报;2005年02期
10 张小平,马垣,于淼;数据仓库在高校教务系统的应用研究[J];鞍山师范学院学报;2003年02期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
3 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
4 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
6 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
7 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
8 王建华;王菲;黄国建;;数据挖掘技术研究的现状及展望[A];中国运筹学会第六届学术交流会论文集(上卷)[C];2000年
9 李世林;安力;;入侵检测系统的设计与实现[A];第十八次全国计算机安全学术交流会论文集[C];2003年
10 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
3 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
4 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
5 赖芨宇;基于知识挖掘的企业管理集成系统研究[D];东华大学;2011年
6 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
7 陈进;高光谱图像分类方法研究[D];国防科学技术大学;2010年
8 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
9 李军;不平衡数据学习的研究[D];吉林大学;2011年
10 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 徐洪伟;数据挖掘中决策树分类算法的研究与改进[D];哈尔滨工程大学;2010年
3 曹振兴;适应概念漂移的数据流分类算法研究[D];哈尔滨工程大学;2010年
4 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
5 秦园;基于SPOT5的土地信息提取技术研究[D];大连理工大学;2010年
6 李仁良;决策树算法在临床诊断中的应用研究[D];辽宁工程技术大学;2009年
7 郑陶;基于平面向量的决策树算法在高考志愿选择系统中的应用[D];辽宁工程技术大学;2010年
8 孙怡哲;一种改进的决策树算法研究与应用[D];辽宁工程技术大学;2010年
9 王大卫;高速网络入侵检测若干关键技术的研究[D];长沙理工大学;2010年
10 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 沙桂英,杨丽颖,姜风春,刘瑞堂;应力波载荷作用下弹塑性断裂全过程的动态分析[J];兵工学报;2003年03期
2 卢文波,赖世骧,董振华;岩石钻爆开挖中预裂缝的隔震效果分析[J];爆炸与冲击;1997年03期
3 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
4 孙道恒,孙训方,刘先斌;低周疲劳表面裂纹演化进程分析[J];材料科学与工程;2000年04期
5 龚尚龙;水泥胶微观结构量测方法的研究[J];重庆交通学院学报;1994年02期
6 黄明利,唐春安,梁正召;岩石裂纹相互作用的应力场分析[J];东北大学学报;2001年04期
7 胡小勇,祝智庭;网络教育资源整合的技术观[J];中国远程教育;2002年10期
8 张小萍,张伟东;混凝土材料性能对其裂缝影响试验研究[J];东莞理工学院学报;2003年02期
9 刘大刚,李志华;大风风力预报准确率的统计特征分析[J];大连海事大学学报;2003年04期
10 何卫东,李力行,关天民,孙志礼,赵乃素,何德芳;摆线针轮减速机的逻辑诊断与故障树分析[J];大连铁道学院学报;1994年02期
中国博士学位论文全文数据库 前1条
1 李雪红;重大水工混凝土结构裂缝演变规律及转异诊断方法研究[D];河海大学;2003年
中国硕士学位论文全文数据库 前9条
1 邓英;数据仓库与数据挖掘技术理论及应用的研究[D];甘肃工业大学;2001年
2 段练军;数据挖掘在WWW上的实现技术[D];郑州大学;2001年
3 李晓;Web挖掘技术[D];河海大学;2001年
4 张红梅;数据挖掘中快速关联规则发现算法研究及应用[D];河北工业大学;2002年
5 吴志华;基于知识发现的时序数据挖掘算法研究[D];华北工学院;2002年
6 孙孝萍;基于聚类分析的数据挖掘算法研究[D];西南石油学院;2002年
7 肖娟;基于概念层次树的数据挖掘算法及在CRM中的应用[D];浙江工业大学;2004年
8 方孝伍;水工涵闸工程混凝土裂缝成因与抗裂技术研究[D];河海大学;2004年
9 孙英慧;基于向量空间模型的数据挖掘技术的研究[D];东北师范大学;2005年
【二级引证文献】
中国期刊全文数据库 前5条
1 韩建伟;;浅谈公路隧道工程[J];黑龙江科技信息;2010年32期
2 荣耀;黄红元;姜安龙;;过江输水管单层管片结构裂缝参数计算分析[J];南昌航空大学学报(自然科学版);2008年02期
3 郑霞;陈建国;;基于XML的Web内容挖掘方法[J];沈阳大学学报(自然科学版);2012年03期
4 匡春光;张鲁峰;崔益民;张剑波;;计算机能力评估研究[J];微处理机;2010年04期
5 王洪春;;缺失数据的主曲线恢复方法[J];微电子学与计算机;2008年11期
中国重要会议论文全文数据库 前1条
1 张士兵;王练柱;;隧道衬砌裂缝成因分析与检测[A];西部矿山建设工程理论与实践[C];2009年
中国硕士学位论文全文数据库 前10条
1 邵慧;保护隐私的分类挖掘技术研究[D];河北工程大学;2010年
2 葛科宇;发动机磨损故障知识获取方法研究及应用平台开发[D];南京航空航天大学;2011年
3 孙铭蔚;基于AHP的商务智能系统模糊综合评价研究[D];黑龙江大学;2011年
4 赵蕊;基于WEKA平台的决策树算法设计与实现[D];中南大学;2007年
5 李莉;NSPRINT算法的研究与应用[D];华中师范大学;2008年
6 马俊贤;数据挖掘算法在人才测评中的研究与应用[D];中北大学;2008年
7 王丽霞;基于学习对象元数据的教学资源管理系统的研究与实现[D];内蒙古大学;2008年
8 吉艳雷;厦门东通道海底隧道二次衬砌安全性及锈蚀行为研究[D];西南交通大学;2008年
9 王文艳;基于一种半结构化数据模型的频繁模式挖掘研究[D];哈尔滨工程大学;2008年
10 岳鹏飞;基于RDF/XML的教育资源元数据解析和查询方案研究[D];内蒙古大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 马献明,严小卫,陈宏朝;个性化网上信息代理技术的研究概述[J];广西师范大学学报(自然科学版);2000年03期
2 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
3 陆丽娜,陈亚萍,魏恒义,杨麦顺;挖掘关联规则中Apriori算法的研究[J];小型微型计算机系统;2000年09期
4 李水平,陈意云,黄刘生;数据采掘技术回顾[J];小型微型计算机系统;1998年04期
【相似文献】
中国期刊全文数据库 前10条
1 邵泳兵;;基于改进的关联规则的挖掘系统的实现与应用[J];福建电脑;2007年07期
2 刘丽萍;;关联规则在银行业务中的应用[J];电脑学习;2010年03期
3 张秀玉;;基于现有数据挖掘结果的关联规则更新算法[J];福建信息技术教育;2005年03期
4 赵艳芹;曹阳;;一种高效的Apriori改进算法[J];黑龙江科技学院学报;2007年06期
5 杨晓;张迎新;;Apriori算法在消费市场价格分析中的研究与应用[J];北京工商大学学报(自然科学版);2009年03期
6 赵艳芹;付喜辉;王光辉;;基于Apriori挖掘算法的改进研究[J];计算机与现代化;2008年05期
7 柳文涛;;负关联规则挖掘算法研究[J];福建电脑;2008年06期
8 安立奎;韩丽艳;李金山;;基于二维数组的序列模式挖掘方法研究[J];长春师范学院学报(自然科学版);2009年06期
9 刘军锋;李景文;陈大克;邓晓斌;;一种改进的关联规则自顶向下算法[J];计算机技术与发展;2008年02期
10 史原;鲁汉榕;罗菁;高婷;;基于规模约简和多支持度的关联规则挖掘[J];计算机工程与设计;2006年21期
中国重要会议论文全文数据库 前10条
1 楚红涛;寒枫;张燕;王婷;;基于数据流的挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 高聪;申德荣;于戈;聂铁铮;寇月;;一种基于不确定数据的挖掘频繁集方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 刁宇;;基于属性矩阵的关联规则挖掘算法研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
4 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
5 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
6 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
7 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
8 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
9 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
10 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
6 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
7 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
8 张立明;数据挖掘之道[N];网络世界;2003年
9 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
4 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
5 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
6 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
7 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
8 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
9 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
10 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
中国硕士学位论文全文数据库 前10条
1 苏毅娟;数据挖掘中若干问题的研究[D];广西师范大学;2001年
2 杨少博;数据挖掘在学校管理和学生培养中的应用[D];安徽大学;2011年
3 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
4 唐松;基于数据挖掘的高校评教系统设计与实现[D];电子科技大学;2010年
5 黎勇;用数据挖掘方法解析东垣脾胃方[D];成都中医药大学;2002年
6 年爱华;数据挖掘在职校普通话等级考试成绩分析中的应用[D];兰州大学;2010年
7 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
8 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
9 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
10 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026