收藏本站
《中国科学院研究生院(计算技术研究所)》 2001年
收藏 | 手机打开
二维码
手机客户端打开本文

海量数据约简与分类研究

叶施仁  
【摘要】: 本文的主要研究是在国家863高技术项目——面向CIMS的数据仓库及数据挖掘研究(863-511-946-01)、渔情分析专家系统(818-07-03),以及国家自然科学基金项目——多策略数据库知识发现研究(69803010)支持下完成的。 本文介绍了KDD中机器学习和统计学习理论,研究了大规模数据约简和分类中的基于格的数据约简、高维数据的降维、决策树的画法与可视化等关键技术,并给出了应用实例。本文的贡献主要包括如下几个方面: (1)基于格的数据约简:数据约简是保留决策相关信息的前提下减少数据的尺寸。本文着重讨论了基于格的约简中的机制,提出了基于格的约简算法INREDUCT和INREDUCTCLS。前者用于聚类问题,后者用于分类问题。它们生成最小E-集和最大E-集之间的超元组,从超元组中能够得到与原始数据相同的、甚至更好的决策。超元组h表示成三元组(|h|, {xdsp}, {childi}),其中|h|表示h中包括的简单元组数目,{xdsp}是每个属性的表示,{childi}是指向h包含的元组的指针的集合。超元组是特征空间中的超立方体,通过分析它们边界的密度朝样本密集区域移动,因而具有很好的代表性和概括能力。算法是渐增的,次优的,具有近似线性的复杂度。在该方法中,我们首次提出利用各个维上的边界(处密度)控制超元组对应的超立方体在特征空间中调整,达到次优的覆盖能力和代表性,前者是约简率的保证,后者是正确性的保证,并且通过引入格的方法可以从理论上分析该方法的有效性和合理性。 (2)高维数据中高效的相似性计算方法:相似性的计算是CBR和k-NN等Lazy Learning研究中十分关键的问题。本文研究了降低相似性计算代价的方法,并以k-NN为例,介绍了基于部分特征的相似性算法和基于投影的相似性算法,它们能够通过减少计算距离过程中所涉及的特征数目来提高算法的效率。实验表明效率的提高是明显的,其中基于部分特征的k-NN算法效率提高26~28%,基于投影的k-NN算法效率提高48~83%。 (3)决策树的画法及可视化技术:提出了一种新的画树方法。通过对美观的树的定义,给出了三个调整算子。在该方法中,先画出一个正态树,然后在对树的遍历过程中利用这三个算子依次调整结点,将得到一棵最紧凑的任意叉树。算法的复杂度较低,结构清晰。同时,描述了树的可视化要点,并成功用于数据采掘系统的决策树可视化。 (4)超范例与专家知识的融合:数据库中发现的知识与领域专家的知识
【学位授予单位】:中国科学院研究生院(计算技术研究所)
【学位级别】:博士
【学位授予年份】:2001
【分类号】:TP311.13;TP18

【引证文献】
中国期刊全文数据库 前1条
1 赵慧娟;骆解民;;基于粗糙集的属性值约简算法研究[J];科技资讯;2007年34期
【参考文献】
中国期刊全文数据库 前4条
1 杜云艳,周成虎,邵全琴,苏奋振,王盛;东海区海表温度与中上层渔获量关系的时空分析[J];高技术通讯;2001年02期
2 游湘涛,叶施仁,史忠植;多策略通用数据采掘工具MSMiner[J];计算机研究与发展;2001年05期
3 王实,王晖,高文;格子机数据挖掘方法[J];计算机学报;2000年06期
4 谭宁,叶施仁,游湘涛,史志植;应用面向对象知识处理的选案专家系统[J];计算机系统应用;1999年05期
【共引文献】
中国期刊全文数据库 前10条
1 孙娜;;基于数据仓库技术的电力设备决策系统[J];安徽电气工程职业技术学院学报;2010年01期
2 朱文婕;数据仓库技术及应用[J];安徽电子信息职业技术学院学报;2004年Z1期
3 尹荣章,郑诚;一个基于关系数据库的联机分析处理系统的设计与实现[J];安徽大学学报(自然科学版);2001年01期
4 阚涛,程家兴,钱付兰,余澄丹;时间规划中D_时刻表的改进算法及应用[J];安徽大学学报(自然科学版);2005年05期
5 李建洋;倪志伟;刘慧婷;;粗糙集在CBR中的应用研究[J];安徽建筑工业学院学报(自然科学版);2006年01期
6 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
7 秦宗贵;;OLAP技术及其在电信行业中的应用[J];安徽科技;2006年06期
8 李亭;杨敬锋;彭晓琴;陈志民;;基于最大似然法集成的黄曲条跳甲预警模型[J];安徽农业科学;2008年25期
9 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
10 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
【同被引文献】
中国期刊全文数据库 前10条
1 倪明,单渊达;证据理论及其应用[J];电力系统自动化;1996年03期
2 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[J];东南大学学报(自然科学版);2005年S2期
3 刘少辉,盛秋戬,史忠植;一种新的快速计算正区域的方法[J];计算机研究与发展;2003年05期
4 刘清,刘群;粒及粒计算在逻辑推理中的应用[J];计算机研究与发展;2004年04期
5 苗夺谦,胡桂荣;知识约简的一种启发式算法[J];计算机研究与发展;1999年06期
6 周勇,杨兴江,徐扬;属性约简的依赖度算法研究[J];计算机工程与应用;2004年04期
7 闫德勤,王杨;基于关联矩阵的属性约简算法[J];计算机工程与应用;2005年20期
8 孙晶晶,刘镔,刘粉林;基于遗传算法的不完备信息表约简方法[J];计算机工程与应用;2005年22期
9 杨天奇;一种基于模糊逻辑规则的数据挖掘方法[J];计算机工程;2003年07期
10 吴淑芳,吴耿锋,王炜;一种新的模糊规则提取方法[J];计算机工程;2005年06期
【二级引证文献】
中国期刊全文数据库 前2条
1 李驰航;李书琴;;粗糙集理论在羊病案例检索的应用研究[J];微计算机信息;2009年36期
2 武装;;基于粒子群的粗糙集属性约简与数控机床故障诊断研究[J];组合机床与自动化加工技术;2012年08期
【二级参考文献】
中国期刊全文数据库 前3条
1 史忠植,杨至成,方健梅;知识工程[J];计算机学报;1986年04期
2 陈新军;关于西北太平洋的柔鱼渔场形成的海洋环境因子的分析[J];上海水产大学学报;1997年04期
3 谭宁,叶施仁,游湘涛,史志植;应用面向对象知识处理的选案专家系统[J];计算机系统应用;1999年05期
【相似文献】
中国期刊全文数据库 前10条
1 王预;正在走向现实的数据挖掘及其分类预测[J];教育信息化;2004年10期
2 郑之开,张广凡,邵惠鹤;数据采掘与知识发现:回顾和展望[J];信息与控制;1999年05期
3 刘小虎,李生;决策树的优化算法[J];软件学报;1998年10期
4 张德武,江国星;数据挖掘技术[J];现代计算机;2002年12期
5 唐常杰,杨富华,杨璐;数据采掘的基本方法及其与专家系统的差异[J];计算机应用;1999年03期
6 龚涛,蔡自兴;数据挖掘模型的比较研究[J];控制工程;2003年02期
7 张君枫;;数据挖掘算法综述[J];电脑学习;2010年04期
8 黄文强;黄榕波;朱思铭;;一类变量可分离的支持向量分类机的研究与应用[J];计算机科学;2006年02期
9 顾寅红,杨长生,宋广华;一种基于预测分类的小波图像编码[J];浙江大学学报(理学版);2002年06期
10 段录平;周丽娟;王宇;;基于神经网络的数据挖掘研究[J];自动化技术与应用;2007年07期
中国重要会议论文全文数据库 前10条
1 李珂;;冲击地压事故发生的研究及控制[A];山东省煤矿冲击地压防治研讨会议论文集[C];2007年
2 吕韶义;刘复岩;;基于决策树的规则获取[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
3 王家华;高海余;刘炳;;可视化蒙得卡罗分析与油气产量预报的风险评价[A];第七届全国数学地质与地学信息学术会议论文摘要汇编[C];2004年
4 李海军;王钲旋;王利民;苑森淼;;基于贝叶斯网络的回归树学习算法[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
5 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
6 徐怡;余斌;李龙澍;;粗糙集在决策树生成中的应用[A];2005中国控制与决策学术年会论文集(下)[C];2005年
7 肖杰;陈艺新;龙浩;李志林;刘伟;何辉;;脊柱侧凸畸形手术治疗策略[A];2009第一届贵州骨科论坛论文汇编[C];2009年
8 宋慧英;王艳丽;;石化科技档案管理之我见[A];中国化工学会2008年石油化工学术年会暨北京化工研究院建院50周年学术报告会论文集[C];2008年
9 李典军;李新建;张晓蕾;吕勇;;黄丰桥林场森林资源资产实物量的分类研究[A];湖南省农业系统工程学会常务理事会暨青年学术委员会会议论文集[C];2004年
10 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前10条
1 记者 姚世新;首只多策略增长基金上市[N];中国保险报;2004年
2 本报记者 徐婧婧;华宝兴业:A股市场或“涅槃”[N];上海证券报;2008年
3 罗鼎;手机业渐显新形势 波导多策略应对[N];中国高新技术产业导报;2004年
4 张潇芮;“中西合璧”基金决胜中国股市[N];中国企业报;2004年
5 欧阳怡升 本报特约记者 王道升 申进科 ;“可视化后勤”改革一波三折[N];解放军报;2003年
6 沈闻涧;顺德小家电:多策略赢得大发展[N];中国电子报;2004年
7 ;功能强大的可视化工作站[N];计算机世界;2000年
8 孙小和;江苏移动实现“无形品牌可视化”[N];人民邮电;2004年
9 周军民;安全管理可视化[N];计算机世界;2002年
10 见习记者 郑焰本报记者 贾宝丽;10派20元 基金分红出手大方[N];上海证券报;2007年
中国博士学位论文全文数据库 前10条
1 叶施仁;海量数据约简与分类研究[D];中国科学院研究生院(计算技术研究所);2001年
2 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
3 汤仲安;矢量GIS线状实体等概率密度误差模型[D];武汉大学;2004年
4 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
5 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
6 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
7 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
8 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
9 郭陟;可视化入侵检测研究[D];清华大学;2004年
10 黄孝章;编组站计算机辅助设计理论研究及系统实现[D];北方交通大学;1998年
中国硕士学位论文全文数据库 前10条
1 赵雪清;数据挖掘技术在电信客户流失中的研究与应用[D];大连海事大学;2005年
2 张艳丽;数据挖掘技术在数字化校园的教务系统中的应用[D];东北大学;2005年
3 李祥亮;一种基于张量场的数据约简方法及应用研究[D];苏州大学;2009年
4 渐令;支持向量机在高炉炉温预报中的应用[D];浙江大学;2006年
5 孙毅;基于自动特征抓取和行为关联的网络入侵检测系统[D];复旦大学;2008年
6 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
7 王永生;数据挖掘在考试系统中的应用[D];北京工业大学;2005年
8 袁志刚;基于贝叶斯理论的海量科学数据挖掘[D];电子科技大学;2005年
9 杨雪;支持向量机多类分类方法的研究[D];哈尔滨工程大学;2006年
10 杜松;数据挖掘在CRM中的应用研究[D];电子科技大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026