收藏本站
《郑州大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于最近邻聚类的连续属性离散化算法研究

姜国强  
【摘要】:数据挖掘是当今数据库和人工智能最活跃的研究领域之一,是知识发现(Knowledge Discovery in Databases,KDD)的核心,它的目的在于发现数据中隐藏的、潜在的、未知的和有用的知识,实质上是在大型的数据库中寻找数据间的普遍模式和规则。 实际数据库中存在着较多的连续型数值,而现有的一些数据挖掘方法只能处理离散型数值,因而需要对连续型数值进行离散化。因此,连续属性离散化方法作为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。连续属性离散化已经成为数据挖掘理论中一个非常重要的研究方向,在某种程度上,连续属性离散化程度的好坏,将决定数据挖掘结果的优劣。 本文根据最近邻聚类的算法思想,提出了一种基于最近邻聚类的连续属性离散化算法,其是一种基于整体属性的全局离散化,用两步走的策略来完成。 本文所做的主要工作如下: 第一、分析了连续属性离散化的课题研究背景,综述了连续属性离散化的国内外研究现状,并指出了连续属性离散化研究面临的挑战和不足。 第二、分析了数据挖掘理论的相关知识,如数据挖掘的定义和数据挖掘的基本过程等。 最重要的是在论文的第二章给出了连续属性离散化问题的数学描述、连续属性离散化的意义和重要性、连续属性离散化算法的目标、连续属性离散化算法的分类并分析了目前常见的连续属性离散化算法。 第三、介绍了聚类分析的相关概念、聚类的过程及一些主要的聚类方法等。并重点分析了最近邻聚类算法。 第四、研究了最近邻聚类和连续属性离散化的内在机理分析。 最后,针对所提出的最近邻聚类算法,提出了最近邻聚类算法的几点改进措施,最终设计了一种基于最近邻聚类的连续属性离散化算法,并应用在一个天气信息决策系统和UCI机器学习数据库中。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP18

【参考文献】
中国期刊全文数据库 前10条
1 朱明星,张德龙;RBF网络基函数中心选取算法的研究[J];安徽大学学报(自然科学版);2000年01期
2 孙延风,梁艳春,孟庆福;改进的神经网络最近邻聚类学习算法及其应用[J];吉林大学学报(信息科学版);2002年01期
3 唐晓萍;数据挖掘与知识发现综述[J];电脑开发与应用;2002年04期
4 印勇;孙如英;;基于模糊粗糙集的一种知识获取方法[J];重庆大学学报(自然科学版);2006年05期
5 李绍铭;刘寅虎;;基于改进型RBF神经网络多变量系统的PID控制[J];重庆大学学报(自然科学版);2007年02期
6 鄂旭,高学东,谢霖铨,贺海钧;粗糙集中一种连续属性预处理方法[J];辽宁工程技术大学学报;2005年03期
7 于金龙,李晓红,孙立新;连续属性值的整体离散化[J];哈尔滨工业大学学报;2000年03期
8 苏小红;侯秋香;马培军;王亚东;;RBF神经网络的混合学习算法[J];哈尔滨工业大学学报;2006年09期
9 代建华,李元香,刘群;粗糙集理论中基于遗传算法的离散化方法[J];计算机工程与应用;2003年08期
10 张静;王建民;何华灿;;基于DBSCAN聚类的连续属性离散化算法[J];计算机工程与应用;2006年13期
中国博士学位论文全文数据库 前2条
1 赵军;基于粗集理论的KDD技术研究[D];重庆大学;2003年
2 张静;基于粗糙集理论的数据挖掘算法研究[D];西北工业大学;2006年
中国硕士学位论文全文数据库 前2条
1 刘伟;基于粗集理论的数据挖掘中数据预处理的方法研究[D];长春理工大学;2006年
2 郭翠翠;基于神经网络的数据挖掘方法研究[D];武汉理工大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
2 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
3 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
4 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
5 伍长荣,胡学钢;基于RBF神经网络的粮食生产预测研究[J];安徽工程科技学院学报(自然科学版);2004年04期
6 叶明全,伍长荣;基于RBF神经网络的冠心病识别模型[J];安徽工程科技学院学报(自然科学版);2005年01期
7 伍长荣;叶明全;胡学钢;;基于PCA的RBF神经网络预测方法研究[J];安徽工程科技学院学报(自然科学版);2007年01期
8 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
9 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
10 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
中国重要会议论文全文数据库 前10条
1 龙威;宗洪锋;;节流器类型对空气静压导轨静特性的影响分析[A];第十五届流体动力与机电控制工程学术会议论文集[C];2011年
2 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
3 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
4 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
5 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
6 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
7 ;Influence Diagram Based on Rough Set Theory[A];第二十九届中国控制会议论文集[C];2010年
8 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
9 高洁;孙鹤旭;董砚;何林;;开关磁阻电机RBF神经网络滑模控制器的设计与转矩脉动优化的研究[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 张春玉;预应力空间网格结构优化理论及可靠性分析[D];哈尔滨工程大学;2010年
2 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
3 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
4 程军娜;基于形态学多尺度图像分析的海藻细胞图像分割及特征提取[D];中国海洋大学;2010年
5 刘高峰;长江口水沙运动及三维泥沙模型研究[D];华东师范大学;2011年
6 石云龙;基于CAS理论的地震紧急救援系统模型构建与模拟仿真[D];中国地质大学(北京);2010年
7 杨锦园;基于传感器管理的移动机器人融合算法研究[D];华中科技大学;2010年
8 王正家;ACA互连的多因素作用分析与性能优化[D];华中科技大学;2010年
9 胡平平;多屏同步三维显示技术的研究和实现[D];中国电力科学研究院;2010年
10 詹越;知识型员工个人知识管理能力影响因素研究[D];南开大学;2010年
中国硕士学位论文全文数据库 前10条
1 程祥;农产品冷链物流库存管理应用研究[D];华中农业大学;2010年
2 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
3 钟宇翔;植物纤维增强热塑性本薯淀粉复合材料的制备与性能研究[D];广西师范学院;2010年
4 俞亚明;LOFT建筑中的节能设计[D];浙江理工大学;2010年
5 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
6 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
7 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
8 吴珺;数据挖掘技术在彩票销售数据分析中的应用研究[D];郑州大学;2010年
9 王海波;泰安山城结合部公园游人行为研究[D];山东农业大学;2010年
10 周霞;基于粗糙集的电子商务交易知识获取研究[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 朱明星,张德龙;RBF网络基函数中心选取算法的研究[J];安徽大学学报(自然科学版);2000年01期
2 孙延风,梁艳春,孟庆福;改进的神经网络最近邻聚类学习算法及其应用[J];吉林大学学报(信息科学版);2002年01期
3 孟祥萍,鞠传香,王贤勇,任纪川;粗糙集理论中基于属性重要性的离散化方法[J];东北电力学院学报;2005年01期
4 陶志,许宝栋,汪定伟,李冉;一种基于粗糙集理论的连续属性离散化方法[J];东北大学学报;2003年08期
5 王群,吴宁,周雒维;一种改进的神经网络自适应控制方法[J];电路与系统学报;1997年03期
6 宋爱国;一种可在线学习的变结构径向基函数网络及其在被动声纳目标识别中的应用[J];电子学报;1999年10期
7 叶东毅;Jelonek属性约简算法的一个改进[J];电子学报;2000年12期
8 曾昭才,段虞荣,段绍光;基于径向基函数网络的混沌时间序列分析[J];重庆大学学报(自然科学版);1999年06期
9 赵军,王国胤,吴中福,李华;基于粗集理论的数据离散化新算法[J];重庆大学学报(自然科学版);2002年03期
10 饶文碧,吴代华;RBF神经网络及其在结构损伤识别中的应用研究[J];固体力学学报;2002年04期
中国博士学位论文全文数据库 前1条
1 许志兴;粗集理论的若干技术及其应用研究[D];南京航空航天大学;2001年
中国硕士学位论文全文数据库 前1条
1 刘震宇;粗糙集约简算法在知识发现中的研究与应用[D];西安电子科技大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 李慧慧;万武族;;决策树分类算法C4.5中连续属性过程处理的改进[J];计算机与现代化;2010年08期
2 李慧;闫德勤;韩丽;;一种基于粗糙集理论的连续属性离散化新算法[J];计算机应用研究;2010年01期
3 赵志坤;李义杰;;基于粗糙集的分类规则挖掘的研究[J];矿业研究与开发;2006年02期
4 张春华;徐利新;张勇;;一种基于约束的区间合并算法[J];吉林工程技术师范学院学报;2009年09期
5 周笑天;;决策树中数字型连续属性的语义化研究[J];计算机系统应用;2009年02期
6 邓洪峰;熊文华;陈琼;;基于粗糙集的复合材料缺陷检测的研究[J];微计算机信息;2008年01期
7 张新光,王建华;数据仓库信息处理技术研究[J];齐齐哈尔大学学报;2000年03期
8 丁纪云,蔡春娥;利用构造数据集评定数据挖掘过程的方法[J];湖南广播电视大学学报;2001年02期
9 任承业,罗伟其;校园信息系统中CRM与数据挖掘的结合和应用[J];计算机工程与应用;2003年13期
10 王艳;数据挖掘在数字图书馆中的应用[J];情报科学;2003年02期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 姜国强;基于最近邻聚类的连续属性离散化算法研究[D];郑州大学;2009年
2 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
3 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
4 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
5 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
6 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
7 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
8 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
9 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
10 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026