收藏本站
《中国科学院研究生院(计算技术研究所)》 1999年
收藏 | 手机打开
二维码
手机客户端打开本文

数据采掘的研究与应用

张颖  
【摘要】:数据采掘是统计学、计算机科学、模式识别、人工智能、机器学习及其它学科相结合的产物。在当今数字化社会中,各种商业、政府、科学数据库和数据量的急剧增长,远远超过了人类目前已有的分析和理解能力,因此从大量的数据中智能地、自动地提取出有价值的知识和信息的研究,即数据库知识发现,具有十分重要的现实意义。 本文主要研究了数据采掘中的如下几个问题:基于偏置变换的决策树学习算法;决策树算法属性选择标准;粗糙集理论及应用;基于主体的分布数据采掘系统以及面向多任务的通用数据采掘系统及其系统集成。 本文的研究成果主要为: 1.为解决现存决策树学习算法在属性选择、数据噪声、数据递增及领域限制等问题,实现了一个基于偏置变换的决策树学习算法BSDT。BSDT采用了一种基于CBR的两级式学习策略来完成过程偏置变换。其中,第一级用于选取最优决策树学习算法。它利用经典范例库及现存算法的特性构造出CBR所需的范例库,再采用CBR方法选取面向目标任务的最优算法;第二级用于对目标任务的学习。将上一级选出的最优算法作为第二级学习算法进行目标分类规则的学习。同时,还为增加新算法与经典例子集提供了机制。 2.为解决决策树学习算法在处理偏好、代价及概念层次等问题上存在的缺陷,实现了泛化算法以及特化算法对原始训练集进行概念层次的提升及下沉操作,使原始训练集达到某种要求的概念层次来完成对概念层次的柔性指定。结合偏好系数、代价系数构造了属性选择函数ASF。 3.对粗糙集中的一种重要表示方法一差别矩阵进行了拓广,提出了相似矩阵及关联矩阵的表示。基于关联矩阵,提出了关联属性度量的概念;基于相似矩阵,提出了必然规则和似然规则的概念。同时实现了基于关联属性的Top-down的知识约简算法URD以及基于粗糙集的决策树学习算法RSDT。RSDT算法解决了不确定知识的处理和表示问题。
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:1999
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 张晶;;基于决策树的知识获取方法研究[J];制造业自动化;2011年08期
2 陆青梅;尹四清;;基于数据挖掘的邮件分类识别研究[J];现代计算机(专业版);2007年08期
3 马瑜;王有刚;;ID3算法应用研究[J];信息技术;2006年12期
4 朱娟;杨丰华;;改进的决策树算法在教务管理数据挖掘系统中的应用[J];软件导刊;2010年04期
5 魏涛;改进的ID3算法及其在教育信息挖掘中的应用[J];上海海事大学学报;2005年03期
6 殷亚平,张喜;铁路信号设备故障诊断知识表示方法的研究[J];铁路计算机应用;2005年11期
7 程朋亮;张桦;史晶晶;;基于决策树的智能虚拟人学习方法研究[J];天津理工大学学报;2006年05期
8 宋晓云;苏宏升;;一种并行决策树学习方法研究[J];现代电子技术;2007年02期
9 屈志毅;周海波;;决策树算法的一种改进算法[J];计算机应用;2008年S1期
10 徐雯;张扬;;ID3算法及其改进[J];计算机与数字工程;2009年10期
中国重要会议论文全文数据库 前8条
1 胡海斌;邱明;姜青山;胡海龙;赵新星;;一种基于数据继承关系的C4.5分类优化算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 夏曦;崔晋川;;关于艾滋病疫情控制的决策支持系统研究[A];第四届全国决策科学/多目标决策研讨会论文集[C];2007年
3 黄冬梅;赵建丛;王熙照;哈明虎;;一类模糊数值属性决策树的归纳[A];模糊集理论与模糊应用专辑——中国系统工程学会模糊数学与模糊系统委员会第十届年会论文选集[C];2000年
4 朱莉;孟遥;赵铁军;李生;;英语句子边界的识别[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
5 卜亚杰;胡朝举;;一种改进的ID3算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
6 张汛涞;张明杰;;数据挖掘技术的几种实现方法[A];第十五届全国数据库学术会议论文集[C];1998年
7 吴林林;武忠;;Chi-square方法在知识获取中的应用[A];第五届全国技术预见学术交流会暨全国技术预见与科技规划理论与实践研讨会会议论文集[C];2009年
8 周帅印;李晨;王勇;张阳;;FDTU:针对不确定数据的快速决策树生成算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前10条
1 伊卫国;基于关联规则与决策树的预测方法研究及其应用[D];大连海事大学;2012年
2 张颖;数据采掘的研究与应用[D];中国科学院研究生院(计算技术研究所);1999年
3 王攀;IP网络业务识别关键技术研究[D];南京邮电大学;2013年
4 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
5 胥海威;基于改进随机聚类决策森林算法的遥感影像分类研究[D];中南大学;2012年
6 李广水;基于服务的森林资源调查数据挖掘系统的研究[D];南京林业大学;2010年
7 李智勇;电力系统运行信息的数据挖掘研究[D];浙江大学;2009年
8 姜琳;过程控制优化中的智能方法研究[D];吉林大学;2010年
9 陈晓林;基于动态代价敏感的机器学习研究[D];华中科技大学;2010年
10 张剑;宽带接入网流量识别关键技术研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈杰;基于遗传算法的决策树剪枝方法[D];河北大学;2010年
2 王玥;基于决策树统合方法的最小最大模块化网络及其在专利分类中的运用[D];上海交通大学;2010年
3 王朝勇;基于决策树技术的新农村建设类型划分方法研究[D];合肥工业大学;2010年
4 王硕;增量决策树中样例选择的影响与评价[D];河北大学;2010年
5 苏姗;模糊聚类决策树的研究与改进[D];河北大学;2010年
6 吕瑞雪;基于决策树的中学生成绩挖掘与分析[D];内蒙古大学;2010年
7 吴绪玲;决策树分类优化算法的研究[D];西南交通大学;2010年
8 程代娣;决策树在高职院校毕业生就业工作中应用研究[D];安徽大学;2010年
9 李健平;决策树技术在军事训练成绩中的分析研究[D];昆明理工大学;2010年
10 刘圣财;基于决策树分类算法的研究与应用[D];长春理工大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026