收藏本站
《北京交通大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于粗糙集合的属性选择方法研究

徐黎明  
【摘要】: 数据挖掘是从20世纪90年代以来迅速发展起来的一门新兴技术.其处理对象是大量的日常业务数据,目的是将隐含的、尚不为人知的,同时又是潜在有用的信息从数据中提取出来.机器学习为数据挖掘的实现提供了理论基础,包括从原始数据库中提取信息,并以可理解的形式表达知识,进而适用于各种用途.机器学习算法对其处理的数据集合一般都有一定要求,比如数据完整性好、数据冗余性少、属性之间相关性小等.然而,日常业务数据中一般都可能具有不完整性、冗余性和模糊性等特点.目前解决这一问题的有效手段是在执行机器学习算法之前对数据进行预处理,去掉不完整或冗余的数据. 属性选择是数据预处理的一个重要环节.一种好的属性选择算法可以对数据集进行降噪与降维,使机器学习算法具有更好的效果.目前属性选择已经成为国内外研究的热门话题之一,已经有一些行之有效的属性选择算法.粗糙集合理论是一种描述不完整性和不确定性的数学工具,在机器学习与知识发现、决策支持与分析等方面有着广泛的应用.粗糙集合理论的精髓是数据约简,利用数据约简可以处理属性选择问题,目前已有一些属性选择算法的研究开始关注于应用粗糙集合理论,并初步得到实验验证. 本文首先介绍了属性选择的相关技术,包括属性选择中非常关键的属性评价方法和属性搜索算法.其次,叙述了本文所涉及的粗糙集合理论的基本概念,特别分析了粗糙集合理论中的数据约简和利用区分矩阵计算约简的基本方法.进而,在剖析数据挖掘开源工具Weka系统中的属性选择实现的相关内容的基础之上,提出了一种新的属性选择算法,该算法以粗糙集合理论中的核集作为属性选择的初始集合,以对称不确定性作为属性评价方法,综合考虑了属性与类之间和属性与属性之间的相关性.最后,在实验中用Naive Bayes分类算法和C4.5决策树算法作为属性选择结果的评价器,在属性选择后的新数据集和原始数据集上分别运行上述两种算法,最后将各自的分类结果进行比较得出结论.由于此方法保留了对机器学习贡献较大的核集属性因此在具有核集属性的数据集上比其他利用空集作为初始集合的属性选择算法有更好的属性选择效果.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP301.6

【引证文献】
中国博士学位论文全文数据库 前1条
1 倪丽萍;基于分形技术的金融数据分析方法研究[D];合肥工业大学;2010年
中国硕士学位论文全文数据库 前5条
1 委鑫;基于FP树的关联规则挖掘算法研究[D];西安电子科技大学;2010年
2 季长冰;针对贝叶斯分类器的数据质量的定量分析研究[D];北京交通大学;2008年
3 曾德志;数据挖掘中基于统计相关的属性选择研究[D];西南财经大学;2009年
4 王岩;基于二维工程图尺寸的准确性研究[D];郑州大学;2012年
5 熊小超;建设用地动态监管系统研究与实现[D];华中农业大学;2012年
【共引文献】
中国期刊全文数据库 前10条
1 徐文婷;李承鹏;;基于自适应遗传算法的离散化方法[J];合肥师范学院学报;2011年03期
2 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
3 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
4 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
5 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
6 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
7 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
8 邓胜;戴小鹏;陈垦;黄璜;;粗糙集理论在农业生物灾害预测中的应用[J];安徽农业科学;2010年06期
9 刁占峰;张丹;张同军;;基于粗集-模糊综合评价法的水质指标约简研究[J];安徽农业科学;2010年26期
10 夏春艳;宋志超;张伟;;数据挖掘技术在农作物灾害预测中的应用[J];安徽农业科学;2011年08期
中国重要会议论文全文数据库 前10条
1 危前进;董荣胜;孟瑜;崔更申;;基于粗糙集的机械装配知识发现方法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
2 ;Fuzziness in Covering Generalized Rough Sets[A];第二十六届中国控制会议论文集[C];2007年
3 李雄;党生;;基于Rough集理论的战场侦察情报处理[A];第二十六届中国控制会议论文集[C];2007年
4 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论建立中老年肺炎中医症候诊断标准[A];第二十九届中国控制会议论文集[C];2010年
5 龚锦红;杨辉;衷路生;;稀土萃取分离过程的Rough集案例推理方法[A];第二十九届中国控制会议论文集[C];2010年
6 ;Influence Diagram Based on Rough Set Theory[A];第二十九届中国控制会议论文集[C];2010年
7 ;The Prediction of Soil Moisture Based on Rough Set-Neural Network Model[A];第二十九届中国控制会议论文集[C];2010年
8 陈楚湘;沈建京;陈冰;尚长兴;王运成;;运用粗糙集理论和Apriori算法建立中医症候诊断标准[A];中国自动化学会控制理论专业委员会D卷[C];2011年
9 贾修一;张亚兵;陈家骏;商琳;;基于粗糙集方法的共指消解[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 殷积东;刘博;王少辉;;基于粗糙集理论和关联规则的腐蚀区域纹理特征检测算法研究[A];图像图形技术研究与应用(2010)[C];2010年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
3 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
4 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
5 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
6 温世亿;膨胀土渠坡若干关键技术问题研究[D];武汉大学;2010年
7 黄正行;临床过程分析与优化技术研究[D];浙江大学;2010年
8 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
9 朱佳俊;不确定可拓群决策优化方法及应用[D];东华大学;2010年
10 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
3 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
4 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
5 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
6 白喜朋;基于作业的钢铁企业成本分析[D];大连理工大学;2010年
7 刘莹;不一致决策表的属性约简与规则获取研究[D];大连理工大学;2010年
8 房士吉;第三方物流服务商评价研究[D];大连理工大学;2010年
9 李慧;基于粗糙集理论的连续属性离散化算法研究[D];辽宁师范大学;2010年
10 程光平;企业信息门户评价研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 文丽芳;张嵘;朱丽萍;;科技论文结构尺寸示意图中尺寸标注的规范化[J];编辑学报;2008年04期
2 李锬;李鹏;齐中英;;农产品期货价格时间序列R/S分析[J];商业研究;2006年05期
3 叶志伟;郑肇葆;虞欣;;融和启发信息的蚁群特征选择方法[J];测绘科技情报;2007年03期
4 张侠,王嘉陵,彭补拙;城市边缘区土地利用动态规划管理系统[J];长江流域资源与环境;2002年04期
5 王贺封;;时空数据模型及TGIS研究[J];测绘与空间地理信息;2006年04期
6 杨海成;冯金武;赵永铎;;AutoCAD二次开发在市政公路信息中的应用[J];测绘与空间地理信息;2011年06期
7 鲍玉斌,王琢,孙焕良,于戈;一种基于分形维的快速属性选择算法[J];东北大学学报;2003年06期
8 苑莹;庄新田;金秀;;期货价格收益序列的多重分形统计描述及成因分析[J];东北大学学报(自然科学版);2010年04期
9 黄诒蓉;中国股票市场多重分形结构的实证研究[J];当代财经;2004年11期
10 王海燕,盛昭瀚,张进;多变量时间序列复杂系统的相空间重构[J];东南大学学报(自然科学版);2003年01期
中国重要会议论文全文数据库 前1条
1 陈道燊;罗扬;;智能尺寸标注[A];第六届全国计算机应用联合学术会议论文集[C];2002年
中国博士学位论文全文数据库 前9条
1 李学明;计算机数据的关联规则挖掘理论和算法研究[D];重庆大学;2003年
2 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
3 黄超;基于特征分析的金融时间序列挖掘若干关键问题研究[D];复旦大学;2005年
4 仓公林;基于STEP-NC数控铣削加工若干关键技术研究[D];合肥工业大学;2006年
5 李锋刚;基于优化案例推理的智能决策技术研究[D];合肥工业大学;2007年
6 刘慧婷;基于经验模态分解及动态数据挖掘的商务数据分析方法研究[D];合肥工业大学;2008年
7 修妍;混沌时序分析中的若干问题及其应用研究[D];天津大学;2007年
8 谭华;不确定时态数据挖掘方法及其在证券行情预测中的应用[D];湖南大学;2008年
9 孙梅玉;基于分形的非平稳时间序列挖掘关键技术研究[D];东华大学;2009年
中国硕士学位论文全文数据库 前10条
1 王贺;基于神经网络的工程图尺寸标注单元识别研究[D];西北工业大学;2002年
2 孙洁;轴类零件图结构识别及尺寸标注批改技术的研究[D];西北工业大学;2004年
3 李刚;面向图形特征的自动数控编程技术研究[D];大连理工大学;2004年
4 吴亮;基于PostgreSQL的海量数据存储管理[D];中南大学;2005年
5 李营营;图文一体化在国土资源行业中的应用[D];华东师范大学;2007年
6 谈媛媛;基于GIS的建设用地审批管理系统研究[D];合肥工业大学;2007年
7 田慧;农村集体建设用地使用权流转法律问题探讨[D];安徽大学;2007年
8 刘永波;基于VB的AutoCAD二次开发系统设计与实现[D];电子科技大学;2007年
9 陈翔;基于WebGIS的江苏省建设用地全程跟踪管理系统研究与应用[D];南京师范大学;2008年
10 李云鹏;基于ArcGIS Server的建设用地图形辅助审查系统的研究和开发[D];中南大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 万涛;明渠弯道速度的马尔可夫及分形特性研究[D];天津大学;2012年
2 黄觉明;可扩展的ETL技术研究与工具设计[D];华南理工大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 郑启鹏 ,李秀 ,刘文煌 ,李兵;支持向量机在银行贷款客户分类中的应用研究[J];微计算机信息;2005年23期
2 王凯;贺国平;侯伟真;;支持向量机在商业银行客户管理中的应用研究[J];微电子学与计算机;2007年01期
3 赵静娴;倪春鹏;詹原瑞;杜子平;;一种大规模数据库的组合优化决策树算法[J];系统工程与电子技术;2009年03期
4 李振华;;基于Apriori算法的Weka数据挖掘应用[J];科技广场;2008年01期
5 王苗;柴瑞敏;;一种改进的决策树分类属性选择方法[J];计算机工程与应用;2010年08期
6 陈乐;;一种基于粗糙集合的心绞痛数据挖掘方法[J];福建电脑;2010年05期
7 韩萌;郭维维;;基于信息增益和遗传算法的属性选择方法[J];科技信息(科学教研);2008年15期
8 孙元军;郑新奇;常伟倩;;基于Weka的城市建设用地结构特征挖掘研究[J];计算机工程与应用;2008年27期
9 赵阳;;Weka系统及其在数据挖掘教学中的应用[J];科技信息;2008年30期
10 赛煜,郑显臣;知识发现过程应用——一个原型系统设计[J];济南职业学院学报;2005年02期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;把“数据挖掘”作用发挥出来[N];中国国防报;2009年
2 华莱士;“数据挖掘”让银行赢利更多[N];国际金融报;2003年
3 记者 晏燕;数据挖掘让决策者告别“拍脑袋”[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年
5 张立明;数据挖掘之道[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;数据挖掘在CRM中的作用[N];中国计算机报;2001年
7 田红生;数据挖掘在CRM中的应用[N];中国经济时报;2002年
8 王广宇;数据挖掘 加速银行CRM一体化[N];中国计算机报;2004年
9 周蓉蓉;数据挖掘需要点想像力[N];计算机世界;2004年
10 张舒博;数据挖掘 提升品牌的好帮手[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐黎明;基于粗糙集合的属性选择方法研究[D];北京交通大学;2007年
2 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
3 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
4 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
5 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
6 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
7 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
8 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
9 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
10 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026