收藏本站
《国防科学技术大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分类模型的知识发现过程研究

陈元  
【摘要】: 数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。 本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。 本文的主要研究工作和成果为: 1.针对目前的知识发现过程模型在实际应用中存在挖掘周期长,对大型数据库的知识发现支持不够的问题,提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,可以加快知识发现过程,提高数据挖掘效率。 2.针对知识发现过程的预处理问题,研究了属性选择的理论和技术,提出了一种利用信息理论和概率论,结合了属性选择过滤法和打包法的属性选择算法,通过去除属性集中的不相关属性,降低数据维数,减少数据量,从而提高数据挖掘的精度,加快知识发现的过程。 3.针对知识发现过程的数据抽取问题,设计了数据库管理系统和数据挖掘算法的接口——数据抽取器。该接口利用一组基于SQL语言的数据抽取器实现为数据挖掘算法抽取必要的统计数据,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。并提出了SQL_C4.5算法,利用数据抽取器实现C4.5决策树的构建。 4.针对数据挖掘的多变量决策树问题,研究了构造多变量决策树的理论和方法。提出了一种利用线性判别法构造决策树的扩展属性,采用C4.5决策树的分枝准则生长树的多变量决策树算法。该方法能有效的减少决策树的复杂度,为多变量决策树的研究 国防科学技术大学研究生院学位论文 提供了新的途径和思路。 5.针对数据挖掘的组合模型问题,研究了组合模型的理论和技术,分析了组合理 论在近邻法的应用现状,提出了一种组合近邻模型的算法,该算法通过使用随机的属性 子集组合近邻模型,提高了分类精度。 最后,本文设计了一个医疗数据知识发现原型系统。利用本文提出的知识发现过程 模型和关键技术,完成了一个医疗诊断系统应用实例的知识发现过程,获得了较好的效 果。 本文针对上述研究内容,进行了大量的实验研究和论证,结果表明,本文的理论。 方法与技术正确有效,达到了加快知识发现过程,提高知识发现精度与效率的目的,实 现了利用分类技术优化知识发现过程的目的,具有良好的实际应用前景。
【关键词】:知识发现 数据挖掘 分类 决策树 简单贝叶斯 数据抽取 属性选择 组合模型
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2002
【分类号】:G302
【目录】:
  • 中文摘要8-10
  • 英文摘要10-12
  • 缩略词和符号说明12-13
  • 插图和附表索引13-15
  • 第一章 绪论15-35
  • §1.1 知识发现的研究背景及定义15-18
  • 1.1.1 知识发现的研究背景15-16
  • 1.1.2 知识发现的定义16-18
  • §1.2 知识发现的处理过程18-24
  • 1.2.1 Fayyad给出的知识发现过程模型18-20
  • 1.2.2 其它的知识发现过程模型20-21
  • 1.2.3 基于数据抽取器的知识发现处理模型21-24
  • §1.3 知识发现过程的研究现状与发展趋势24-31
  • 1.3.1 知识发现过程的研究概况24-27
  • 1.3.2 知识发现与相关学科的区别与联系27
  • 1.3.3 知识发现过程的应用与发展27-30
  • 1.3.4 知识发现过程研究所面临的挑战30-31
  • §1.4 本论文研究的主要内容和意义31-35
  • 第二章 分类算法及评价方法35-56
  • §2.1 分类的定义35-36
  • §2.2 决策树36-45
  • 2.2.1 决策树构造算法36-38
  • 2.2.1.1 决策树的基本概念36-37
  • 2.2.1.2 决策树的构造算法37-38
  • 2.2.2 分枝准则38-40
  • 2.2.3 剪枝策略40-43
  • 2.2.4 缺值问题43-44
  • 2.2.5 决策树的特性44-45
  • §2.3 判别函数45-49
  • 2.3.1 简单贝叶斯分类器46-47
  • 2.3.2 线性判别分类器47-49
  • §2.4 近邻法49-50
  • §2.5 分类方法的评价方法50-54
  • 2.5.1 分类数据挖掘算法的评价指标51-53
  • 2.5.1.1 错误率51-53
  • 2.5.1.2 其它指标53
  • 2.5.2 几种基本分类算法的精度比较53-54
  • §2.6 本章小结54-56
  • 第三章 数据预处理——属性选择56-75
  • §3.1 引言56-60
  • 3.1.1 属性选择的定义58-59
  • 3.1.2 属性的相关性59-60
  • §3.2 属性选择方法60-66
  • 3.2.1 属性选择的一般程序60-62
  • 3.2.2 过滤方法62-64
  • 3.2.3 打包方法64
  • 3.2.4 两者结合的属性选择方法64-66
  • §3.3 MBFS算法66-71
  • 3.3.1 算法的理论基础66-69
  • 3.3.1.1 交叉熵的定义66-67
  • 3.3.1.2 Markov Blanket准则67-69
  • 3.3.2 MBFS算法69-71
  • §3.4 实验验证与结果71-73
  • §3.5 本章小结73-75
  • 第四章 数据抽取——SQL数据抽取器75-92
  • §4.1 引言75-76
  • §4.2 数据挖掘算法与数据库管理系统接口设计76-79
  • §4.3 数据抽取器的设计79-82
  • §4.4 SQL-C4.5决策树数据挖掘算法82-88
  • 4.4.1 C4.5决策树算法83
  • 4.4.2 choosebest()函数83-85
  • 4.4.3 stopping criterion()函数85-86
  • 4.4.4 postprune()函数86
  • 4.4.5 SQL_C4.5决策树算法86-88
  • §4.5 SQL-简单贝叶斯抽取器88-90
  • §4.6 通用的基于抽取器的决策树数据挖掘算法90
  • §4.7 本章小结90-92
  • 第五章 数据挖掘——多变量决策树92-107
  • §5.1 多变量决策树的生成方法92-97
  • 5.1.1 多变量决策树92-93
  • 5.1.2 局部最优方法93-95
  • 5.1.3 构造属性法95-96
  • 5.1.4 斜树算法96-97
  • §5.2 LICT算法97-102
  • §5.3 实验结果和分析102-105
  • 5.3.1 实验方法和结果分析102-104
  • 5.3.2 错误率的Bias-Variance分析104-105
  • 5.3.3 学习时间比较105
  • §5.4 本章小结105-107
  • 第六章 数据挖掘——组合近邻分类器107-124
  • §6.1 组合模型107-111
  • 6.1.1 组合分类器方法107-108
  • 6.1.2 Bagging法108-109
  • 6.1.3 Boosting方法109-111
  • 6.1.4 错误校正输出代码111
  • §6.2 混合系统111-113
  • §6.3 近邻分类器113-114
  • §6.4 组合近邻分类算法MNN114-118
  • 6.4.1 MNN算法115-117
  • 6.4.2 参数的选择117-118
  • §6.5 实验方法和结果分析118-123
  • 6.5.1 实验方法118
  • 6.5.2 精度118-119
  • 6.5.3 计算复杂度119-120
  • 6.5.4 不相关属性的健壮性120-121
  • 6.5.5 错误率的Bias-Variance分析121-123
  • §6.6 本章小结123-124
  • 第七章 知识发现过程应用——一个原型系统设计124-134
  • §7.1 KDD原型系统设计124-127
  • 7.1.1 MKDS系统配置124-125
  • 7.1.2 客户端交互控制系统125-126
  • 7.1.3 广义模型服务器126
  • 7.1.4 客户服务器结构126-127
  • §7.2 MKDS系统知识发现过程127-129
  • §7.3 运行过程与结果分析129-133
  • §7.4 本章小结133-134
  • 第八章 结论与展望134-138
  • §8.1 研究结论134-135
  • §8.2 研究展望135-138
  • 致谢138-139
  • 作者在攻读博士学位期间发表的论文139-140
  • 参考文献140-150
  • 附录A 实验数据150-151
  • 附录B Markov Blanket性质证明151

【相似文献】
中国期刊全文数据库 前10条
1 文化;;知识管理:腾讯持续创新的秘密[J];企业文化;2010年05期
2 肖自茹;;会计计量属性的选择[J];武汉冶金管理干部学院学报;2011年02期
3 李惠蓉;;试论现行准则下的金融资产分类与IFRS9改进后的新金融资产分类[J];中国证券期货;2011年08期
4 吴俊英;;智力资源会计计量对象与计量属性的选择[J];生产力研究;2011年06期
5 孙艳萍;;浅谈森林生态效益外部性公允价值计量模式[J];中国乡镇企业会计;2011年06期
6 王敏;;关于会计计量属性的应用选择分析[J];时代金融;2011年21期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
2 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
3 张世海;刘晓燕;涂庆;欧进萍;王光远;;知识发现及其在高层结构智能选型中应用[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年
4 万家华;刘冰;江早;;知识发现中的可视化技术[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 蒙应杰;张文;吴超;;基于粗集的数据库水印属性选择优化问题[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
7 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会土木工程计算机应用文集[C];1999年
8 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
9 闫光辉;李战怀;吴海军;;基于Z-Ordering技术的分形属性选择方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
10 张文修;徐萍;米据生;吴伟志;;知识系统与知识发现[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
中国重要报纸全文数据库 前10条
1 刘向晨;让文件捉迷藏[N];中国电脑教育报;2003年
2 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
3 苍苍;教你两手[N];中国电脑教育报;2004年
4 中国科学院计算技术研究所 刘毅勇 何雄 李金山 廖浩均 孟亮 邓柱中;空间数据挖掘:变数据为知识[N];计算机世界;2005年
5 柳涛;秋季更需护理肌肤[N];中华工商时报;2002年
6 零和千;练习使用黑白网点[N];电脑报;2005年
7 胡虎;突出信息化贡献水平 处理好三个关系[N];人民邮电;2007年
8 陈志楠;挖掘“不为人知的艺术”[N];科技日报;2009年
9 尤红梅;蔡雪晴:优势在于执行[N];中国企业报;2004年
10 汤天浩;人工智能技术:未来船舶系统的灵魂[N];中国船舶报;2005年
中国博士学位论文全文数据库 前10条
1 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
2 谢宗霞;太阳宁静区磁场流场特性知识发现的方法研究[D];哈尔滨工业大学;2010年
3 张云中;基于形式概念分析的Folksonomy知识发现研究[D];吉林大学;2012年
4 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
5 李初民;基于网络管理数据库中性能数据的知识发现(KDD)研究[D];重庆大学;2001年
6 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
7 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
8 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
9 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
10 汤永川;关于不确定性推理理论与知识发现的研究[D];西南交通大学;2002年
中国硕士学位论文全文数据库 前10条
1 张冬艳;基于粗糙集合理论的决策树构造算法研究[D];合肥工业大学;2006年
2 薛静;专家信息管理系统在CRM中的研究与应用——基于java技术的构架[D];西北工业大学;2001年
3 陈红叶;Web信息提取及知识发现方法研究[D];合肥工业大学;2002年
4 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年
5 王益玲;基于DCS实时信息的智能故障诊断系统的研究与设计[D];南京工业大学;2003年
6 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
7 郭国印;数据挖掘技术的研究及其在PLM中的应用[D];西北工业大学;2005年
8 谷宏群;数据挖掘中可视化方法研究[D];武汉大学;2005年
9 梁利莉;数据挖掘技术在CRM中的应用研究[D];首都经济贸易大学;2005年
10 刘娟;中药药对的量化分析与知识发现[D];成都中医药大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026