收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于粗集理论的数据预处理及应用研究

刘春亚  
【摘要】: 随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。 由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。 本文围绕基于粗集的数据预处理中数据补齐和连续属性离散化展开讨论。 首先分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗集不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系模型和基于受限相似关系模型的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则矛盾的问题。为了提高粗集模型抗噪音干扰的能力,又提出了基于变精度粗集模型的数据补齐算法,以使模型在数据存在噪音干扰的情况下,仍然能获得好的机器学习效果。 然后,对目前流行的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙信息熵的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。 最后,提出了电子商务的潜在客户挖掘系统,并将前面提出的基于粗集的算法理论应用到该系统中,同时和其他几种现有的数据补齐和离散化算法进行了实验比较和结果分析。并指出本文创新之处以及存在的问题和努力的方向。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘云翔;陈艳;袁鑫鑫;;基于粗集的信息融合系统评价指标体系优化研究与实现[J];计算机应用与软件;2011年09期
2 刘云翔;陈艳;袁鑫鑫;;C~3I信息融合评价指标体系优化方法研究[J];计算机测量与控制;2011年07期
3 唐玲;陶雪容;;基于粗集理论的大曲理化指标重要性分析[J];黑龙江科技信息;2011年17期
4 方莹;;瓦斯预测中的BP神经网络融合技术[J];煤炭技术;2011年08期
5 张军;黄顺亮;;动态粗集理论在K-均值聚类中的应用[J];计算机工程与应用;2011年26期
6 姚珅;高贵明;;层次-粗集组合赋权法在雷达辐射源识别中的应用[J];雷达与对抗;2011年02期
7 邓松;王映龙;何火娇;罗东平;袁威;;粗糙集在销售决策系统中的应用[J];计算机技术与发展;2011年09期
8 曹晶秀;彭泓;王斌;;粗集-RBF神经网络在瓦斯突出预测中的应用[J];计算机测量与控制;2011年08期
9 梁俊奇;闫淑霞;;关于覆盖粗糙集模型性质的一个注记[J];计算机科学;2011年09期
10 毛军军;李侠;吴涛;;基于粗集优势关系的属性赋权相对熵优化模型[J];计算机工程;2011年15期
11 孙伟;马沁怡;高天一;袁长峰;;基于本体和规则的产品配置系统研究[J];大连理工大学学报;2011年04期
12 张明;唐振民;杨习贝;;不完备信息系统中的否定决策规则和知识约简[J];控制与决策;2011年06期
13 林国平;李进金;;基于绝对信息量的覆盖增量约简算法[J];模式识别与人工智能;2011年02期
14 马周明;李进金;;广义粗集公理化的一个注记[J];山东大学学报(理学版);2011年08期
15 梁俊奇;;变精度粗糙集与粗糙集属性约简特征比较[J];商丘师范学院学报;2011年06期
16 陶志;王桂滨;;不完备信息系统中一种改进的粗糙集模型[J];计算机工程与应用;2011年20期
17 曹棣;孔晓斌;;基于粗糙k-均值的web事务的聚类[J];山西师范大学学报(自然科学版);2011年02期
18 杨习贝;窦慧莉;宋晓宁;张明;;广义不完备序值系统中的优势关系粗糙集[J];江苏科技大学学报(自然科学版);2011年03期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 王晓丽;周浔;任锐;;粗集理论在目标识别中的应用[A];中国仪器仪表学会第十二届青年学术会议论文集[C];2010年
2 郭海涛;王连玉;刘颉;梁捷;;基于粗集理论的声呐图像增强[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 刘保仓;刘若慧;;粗模糊集的嵌入集的性质[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
4 凌方;王建东;;基于可变精度粗集的规则简化方法[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 王洪德;马云东;;基于粗集-BP网络的通风系统可靠性预警方法研究[A];中国科协2004年学术年会第16分会场论文集[C];2004年
6 王慧敏;佟金萍;;宏观经济预警新探索:粗集—神经网络预警方法[A];管理科学与系统科学研究新进展——第7届全国青年管理科学与系统科学学术会议论文集[C];2003年
7 张东娜;彭宏;吴铁峰;;一种基于粗集与贝叶斯分类器的中文网页分类方法[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
8 胡学钢;郭骏;王浩;袁兆山;;基于粗集与基于格结构的知识发现方法比较[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年
9 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
10 许翔;张东波;王耀南;刘子文;;一种新型的基于模糊划分的粗集神经网络[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
中国博士学位论文全文数据库 前10条
1 曹秀英;基于粗集的数据挖掘技术及其应用研究[D];哈尔滨工程大学;2003年
2 许志兴;粗集理论的若干技术及其应用研究[D];南京航空航天大学;2001年
3 胡咏梅;基于粗集的车间动态调度研究[D];山东大学;2005年
4 赵军;基于粗集理论的KDD技术研究[D];重庆大学;2003年
5 徐德友;粗集信息分析在故障诊断中的应用及自修复飞行控制系统效能评估[D];南京航空航天大学;2002年
6 王洪德;基于粗集—神经网络的矿井通风系统可靠性理论与方法研究[D];辽宁工程技术大学;2004年
7 刘盾;基于粗糙集理论的多属性决策方法[D];西南交通大学;2011年
8 李仁璞;分类数据挖掘中若干基本问题的研究[D];天津大学;2003年
9 韩斌;基于数据挖掘的信息融合理论和应用[D];浙江大学;2002年
10 王晓晔;时间序列数据挖掘中相似性和趋势预测的研究[D];天津大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘春亚;基于粗集理论的数据预处理及应用研究[D];重庆大学;2003年
2 程玉胜;粗集理论约简及其应用的研究[D];合肥工业大学;2003年
3 朱红;基于Rough Set的特征抽取算法的研究[D];湘潭大学;2002年
4 李志强;粗集理论及其在网络故障诊断中的应用研究[D];河北工业大学;2004年
5 于绍阳;基于粗集理论的信息系统的属性约简算法研究[D];厦门大学;2006年
6 林秋月;基于二进制可辨矩阵的属性约简算法与规则获取的研究[D];福州大学;2005年
7 花建立;基于粗集理论的股价走势预测[D];西南交通大学;2005年
8 华江林;基于粗集理论的教学质量评估系统的研究[D];河海大学;2006年
9 盛晓炜;基于粗集理论的中文文本自动分类与检索研究[D];清华大学;2004年
10 康胜武;基于粗集理论的属性处理方法和模糊规则提取及应用研究[D];厦门大学;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978