收藏本站
《国防科学技术大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分类模型的知识发现过程研究

陈元  
【摘要】: 数据库知识发现(Knowledge Discovery in Databases, KDD)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据库知识发现KDD受到了国内外的普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的前沿领域。 本文以国家自然科学基金项目“管理决策中数据仓库与数据挖掘新技术研究”为背景,在深入调研与分析国内外知识发现与数据挖掘相关理论与应用和技术文献的基础上,归纳总结了该领域的主要研究内容和关键技术,详细评述了基于分类数据知识发现的相关理论与技术的研究现状、存在问题与发展趋势,利用UCI(Irvine大学机器学习数据库)数据库作为实验数据,主要研究了知识发现过程中以下几个问题:知识发现过程模型、知识发现的一种数据预处理方法——属性选择方法,数据挖掘算法与数据库的接口——数据抽取器,数据挖掘方法——多变量决策树和组合近邻模型。 本文的主要研究工作和成果为: 1.针对目前的知识发现过程模型在实际应用中存在挖掘周期长,对大型数据库的知识发现支持不够的问题,提出了基于数据抽取器的知识发现模型。在模型中,将知识发现过程分成数据预处理、数据抽取、数据挖掘和结果分析四个阶段。该模型利用标准的SQL语言构造数据抽取器,为不同的学习算法准备数据,可以加快知识发现过程,提高数据挖掘效率。 2.针对知识发现过程的预处理问题,研究了属性选择的理论和技术,提出了一种利用信息理论和概率论,结合了属性选择过滤法和打包法的属性选择算法,通过去除属性集中的不相关属性,降低数据维数,减少数据量,从而提高数据挖掘的精度,加快知识发现的过程。 3.针对知识发现过程的数据抽取问题,设计了数据库管理系统和数据挖掘算法的接口——数据抽取器。该接口利用一组基于SQL语言的数据抽取器实现为数据挖掘算法抽取必要的统计数据,避免了直接对大型数据库的数据进行调用,使得对大型数据库进行快速数据挖掘成为可能。并提出了SQL_C4.5算法,利用数据抽取器实现C4.5决策树的构建。 4.针对数据挖掘的多变量决策树问题,研究了构造多变量决策树的理论和方法。提出了一种利用线性判别法构造决策树的扩展属性,采用C4.5决策树的分枝准则生长树的多变量决策树算法。该方法能有效的减少决策树的复杂度,为多变量决策树的研究 国防科学技术大学研究生院学位论文 提供了新的途径和思路。 5.针对数据挖掘的组合模型问题,研究了组合模型的理论和技术,分析了组合理 论在近邻法的应用现状,提出了一种组合近邻模型的算法,该算法通过使用随机的属性 子集组合近邻模型,提高了分类精度。 最后,本文设计了一个医疗数据知识发现原型系统。利用本文提出的知识发现过程 模型和关键技术,完成了一个医疗诊断系统应用实例的知识发现过程,获得了较好的效 果。 本文针对上述研究内容,进行了大量的实验研究和论证,结果表明,本文的理论。 方法与技术正确有效,达到了加快知识发现过程,提高知识发现精度与效率的目的,实 现了利用分类技术优化知识发现过程的目的,具有良好的实际应用前景。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2002
【分类号】:G302

【引证文献】
中国期刊全文数据库 前2条
1 马宁;;数据挖掘在客户关系管理中的应用研究[J];硅谷;2010年09期
2 廖建文;陈文伟;;信息系统相容性和属性约简理论[J];应用科技;2012年03期
中国博士学位论文全文数据库 前5条
1 刘涵;水库优化调度新方法研究[D];西安理工大学;2006年
2 王志芳;摩擦学系统状态辨识的知识获取方法研究[D];武汉理工大学;2008年
3 刘晓黎;洮河流域水资源最优调配的理论与实践[D];西安理工大学;2008年
4 邰丽君;基于知识的客户关系管理中知识仓库系统研究与应用[D];合肥工业大学;2010年
5 董良雄;船舶机务安全系统风险预警研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 焦海涛;机械设计领域自然语言理解知识库构建研究[D];西安电子科技大学;2004年
2 李青海;基于决策树的移动通信离网用户分析器的研究与设计[D];中国海洋大学;2004年
3 王荣;分类技术及其在客户关系管理中的应用[D];浙江大学;2006年
4 吴婷;数据挖掘在信用卡欺诈识别上的应用研究[D];东南大学;2006年
5 李子婷;安康水电站能量指标复核及调度规则研究[D];西安理工大学;2007年
6 路红梅;基于知识粗糙度度量的决策树构造方法研究[D];合肥工业大学;2007年
7 李渊;基于K-means算法的数据挖掘可视化技术的应用研究[D];北京交通大学;2008年
8 庄玮;基于数据挖掘的信用卡欺诈行为识别模型的研究[D];南京航空航天大学;2008年
9 张涛;商业银行信用卡客户忠诚度预测问题研究[D];清华大学;2009年
10 王力;数据挖掘在客户关系管理中的应用研究[D];安徽理工大学;2009年
【参考文献】
中国期刊全文数据库 前5条
1 陈栋,徐洁磐;Knight:一个通用知识挖掘工具[J];计算机研究与发展;1998年04期
2 杨富华,唐常杰,刘欣;用数据查询语言实现关联规则采掘[J];计算机工程与应用;1999年08期
3 曹伯燕,郭莉,黄永慧;在SQL Server 6.0中建立多媒体数据库的一种方法[J];计算机工程与应用;1998年06期
4 庄越挺;潘云鹤;芮勇;ThomasS.Huang;;基于内容的图像检索综述[J];模式识别与人工智能;1999年02期
5 胡侃,夏绍玮;基于大型数据仓库的数据采掘:研究综述[J];软件学报;1998年01期
【共引文献】
中国期刊全文数据库 前10条
1 孙娜;;基于数据仓库技术的电力设备决策系统[J];安徽电气工程职业技术学院学报;2010年01期
2 朱文婕;数据仓库技术及应用[J];安徽电子信息职业技术学院学报;2004年Z1期
3 尹荣章,郑诚;一个基于关系数据库的联机分析处理系统的设计与实现[J];安徽大学学报(自然科学版);2001年01期
4 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
5 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
6 李建洋;倪志伟;刘慧婷;;粗糙集在CBR中的应用研究[J];安徽建筑工业学院学报(自然科学版);2006年01期
7 潘希姣;;多子群粒子群集成神经网络[J];安徽建筑工业学院学报(自然科学版);2007年02期
8 秦宗贵;;OLAP技术及其在电信行业中的应用[J];安徽科技;2006年06期
9 王晓璐;刘海芳;王凡;;基于模糊专家系统的鱼疾病诊断方法[J];安徽农业科学;2008年09期
10 刘秋红;焦仁普;张钰;李娟;王哲;;基于产生式规则和归结原理的农业专家系统[J];安徽农业科学;2008年10期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 宋亚男;刘春和;李新俊;齐俊臣;;导弹贮存可靠性数据仓库的研究与设计[A];中国电子学会可靠性分会第十三届学术年会论文选[C];2006年
3 石志刚;施强;盛刚;;基于案例推理的高速公路紧急救援决策研究[A];第二十九届中国控制会议论文集[C];2010年
4 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
5 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
6 ;Predictive Control Based on Multi-network for a Deep Seabed Mining Robot Vehicle[A];中国自动化学会控制理论专业委员会A卷[C];2011年
7 石志刚;杨秀军;;基于案例推理的高速公路信息发布决策研究[A];中国自动化学会控制理论专业委员会D卷[C];2011年
8 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
9 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
10 杨阳;陈宗海;张海涛;;复杂系统仿真的前端智能化综述[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
4 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
5 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
6 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
7 邬俊;基于交互式语义推理的图像检索算法研究[D];大连海事大学;2010年
8 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
9 杜曼玲;供应链过程管理的分析方法与技术实现[D];北京交通大学;2010年
10 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 郝慧君;CA-MARKOV模型与GIS、RS在土地利用/土地覆盖变化中的应用研究[D];华中农业大学;2010年
2 郑占;基于CA模型的城市用地扩张模拟研究[D];华中农业大学;2010年
3 万成;动态环境下的元胞遗传算法研究[D];南昌航空大学;2010年
4 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
5 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
6 马冉冉;集成学习算法研究[D];山东科技大学;2010年
7 蒲锰;非侵入式矿井提升机PLC电控系统实时故障诊断方法的研究[D];山东科技大学;2010年
8 王萍;语音情感识别研究[D];山东科技大学;2010年
9 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
10 杨新忠;基于案例的地理时空过程表达模型研究[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 欧阳为民,郑诚;KDD研究中的若干问题与方法[J];安徽大学学报(自然科学版);1999年01期
2 郭兴众;基于遗传算法的产生式规则学习机制研究[J];安徽师大学报(自然科学版);1998年01期
3 张济世,康尔泗,蓝永超,陈仁升,姚尽忠,蒲瑞丰,陈满祥;50 a来洮河流域降水径流变化趋势分析[J];冰川冻土;2003年01期
4 黄晓芳;数据挖掘中决策树算法及其应用[J];兵工自动化;2005年02期
5 黄考利,连光耀,魏忠林;基于仿真技术的故障知识获取方法研究[J];兵工学报;2005年04期
6 陈玉保,刘宏,段红彬;营销理论的新发展:客户关系管理(CRM)理论[J];商业研究;2002年14期
7 林少芬,李瑰贤,陈映秋,刘福生;散装货船模糊综合安全性评估的实现方法[J];船舶工程;2000年01期
8 孙才志,孙炳双,林旭,韩凤成;区域水资源开发模式评价指标体系研究——以松嫩盆地为例[J];长春科技大学学报;2001年01期
9 钟平安,李兴学,张初旺,李伟;并联水库群防洪联合调度库容分配模型研究与应用[J];长江科学院院报;2003年06期
10 唐夏燕,邓乾发;综合应用光谱、铁谱、理化分析提高柴油机故障诊断水平[J];柴油机设计与制造;2002年02期
中国重要会议论文全文数据库 前1条
1 彭光华;孙树仁;赵朋;;磨粒分析技术在大型设备工况监测中的应用[A];中国汽车工程学会油料委员会第十届年会论文专辑[C];2002年
中国博士学位论文全文数据库 前10条
1 阳子轩;复杂管道泄漏检测技术研究[D];武汉理工大学;2011年
2 王笑蓉;蚁群优化的理论模型及在生产调度中的应用研究[D];浙江大学;2003年
3 文华;海运安全评价研究[D];武汉理工大学;2003年
4 王顺久;水资源开发利用综合研究[D];四川大学;2003年
5 陈莉;KDD中的几个关键问题研究[D];西安电子科技大学;2003年
6 李仁璞;分类数据挖掘中若干基本问题的研究[D];天津大学;2003年
7 黄考利;军用自动测试系统(ATS)体系结构及智能故障诊断方法研究[D];南京理工大学;2004年
8 刘晓颖;复杂过程的智能故障诊断技术及其在大型工业窑炉中的应用研究[D];中南大学;2003年
9 岳春芳;东南沿海地区水资源优化配置模型及其应用研究[D];新疆农业大学;2004年
10 罗帆;航空灾害成因机理与预警系统研究[D];武汉理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 曾华岚;影响海上交通安全的人为因素分析与评价[D];大连海事大学;2000年
2 李明昌;中海客运发展研究[D];大连海事大学;2001年
3 邹建军;船舶机损事故分析[D];上海海运学院;2003年
4 张文鸽;区域水质—水量联合优化配置研究[D];郑州大学;2003年
5 张丽;基于多分类器动态组合的手写体数字识别[D];南京理工大学;2003年
6 王剑;关中灌区水资源合理调配研究[D];西安理工大学;2003年
7 文专;基于神经网络的分类数据挖掘属性选择和规则抽取研究[D];天津大学;2004年
8 姜卯生;数据挖掘中基于贝叶斯技术的分类问题的研究[D];合肥工业大学;2004年
9 孙燕;CRM数据挖掘中的可拓算法[D];大连海事大学;2004年
10 尹华;数据挖掘项目实施过程研究——基于分类的信用卡挖掘系统应用[D];武汉大学;2004年
【二级引证文献】
中国期刊全文数据库 前10条
1 司占博;郑卫刚;;柴油机排气阀锥面涂层耐磨性的研究[J];叉车技术;2012年01期
2 史慧;麦范金;叶东海;;面向自然语言处理的隐喻知识库的构建[J];桂林航天工业高等专科学校学报;2008年03期
3 周宓;;基于组合分类器的信用卡信誉检测[J];成都大学学报(自然科学版);2012年03期
4 马建琴;魏蕊;张鹏;;基于免疫进化的粒子群算法在灌区水资源优化配置中的应用研究[J];华北水利水电学院学报;2011年05期
5 贺珍瑞;;农产品电子商务环境下的客户关系管理探讨[J];价格月刊;2011年08期
6 傅玥;;多决策树融合在客户关系管理中的应用研究[J];科技信息;2013年22期
7 张宁;康重庆;;风电出力分析中的相依概率性序列运算[J];清华大学学报(自然科学版);2012年05期
8 唐颖;胡洋;杨霞;;数据挖掘在民族地区商场管理中的应用[J];黔南民族师范学院学报;2011年06期
9 司占博;郑卫刚;;柴油机排气阀锥面涂层耐磨性的研究[J];起重运输机械;2012年06期
10 田野;袁成清;王志芳;;基于集对分析的滑动轴承摩擦学系统状态辨识研究[J];润滑与密封;2010年07期
中国博士学位论文全文数据库 前8条
1 林劲松;水电站水力学问题仿真计算及其工程应用研究[D];西北农林科技大学;2011年
2 习树峰;跨流域调水预报优化调度方法及应用研究[D];大连理工大学;2011年
3 卢有麟;流域梯级大规模水电站群多目标优化调度与多属性决策研究[D];华中科技大学;2012年
4 刘光远;基于数据挖掘的移动通信用户流失研究[D];吉林大学;2007年
5 张双虎;梯级水库群发电优化调度的理论与实践[D];西安理工大学;2007年
6 原文林;电力市场环境下梯级水库发电优化调度研究[D];西安理工大学;2009年
7 刘招;水库的洪水资源化理论和方法研究[D];西安理工大学;2008年
8 谢维;水电站(群)优化调度与运行规则研究[D];华北电力大学;2012年
中国硕士学位论文全文数据库 前10条
1 郑慧涛;梯级水电站优化运行研究与应用[D];郑州大学;2010年
2 仇军;基于随机动态规划的清江梯级水库发电优化调度规则研究[D];郑州大学;2010年
3 郭智威;柴油机缸套—活塞环系统状态及其辨识模型[D];武汉理工大学;2010年
4 潘小美;我国客运专线客户分类问题研究[D];北京交通大学;2011年
5 王松;基于学习的恶意网页智能检测系统[D];南京理工大学;2011年
6 王一鸿;体检中心CRM构建及数据挖掘的应用研究[D];华东理工大学;2011年
7 温延超;数据挖掘在高速公路机电设备故障预测中的应用[D];长安大学;2011年
8 于健;电力市场环境下水库发电调度预警决策系统研究[D];郑州大学;2011年
9 胡坤煜;基于ASP协作平台分析型客户关系管理系统的研究与实现[D];西南交通大学;2011年
10 刘建利;基于CRM的高校学生管理系统研究与实现[D];电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前2条
1 庄越挺,潘云鹤,芮勇;用语义联想支撑基于内容的视频检索[J];计算机研究与发展;1999年05期
2 李德毅;发现状态空间理论[J];小型微型计算机系统;1994年11期
【相似文献】
中国期刊全文数据库 前10条
1 吴志丹;;基于知识发现和知识管理的决策支持系统研究[J];科技管理研究;2010年05期
2 方凌云;网络环境下企业客户关系管理的应用研究[J];软科学;2004年01期
3 钱榕,李欣,杨炳儒;经济全球化背景下竞争情报系统的研究[J];重庆工学院学报;2005年02期
4 万星火,檀亦丽;数据挖掘的聚类方法[J];统计与决策;2005年18期
5 刘明;;数据挖掘在社区户型决策的应用[J];甘肃农业;2006年01期
6 阮忠;吴启明;;数据挖掘和数据仓库在网络营销中的应用[J];农业网络信息;2008年05期
7 张丽杰;付宏波;郭建伟;;基于知识发现的数据挖掘技术分析与研究[J];知识经济;2010年23期
8 朱紫茂;;论知识经济时代企业物流信息化建设的发展方向[J];价值工程;2010年36期
9 刘胜华;;利用数据挖掘技术增强企业竞争优势[J];湖北经济学院学报(人文社会科学版);2005年02期
10 李晓辉;景妮;李广莉;;电子商务中的数据挖掘技术[J];商场现代化;2006年19期
中国重要会议论文全文数据库 前10条
1 杨光飞;党延忠;;不完美数据中的知识发现研究综述[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
2 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会论文集[C];1999年
3 张世海;刘晓燕;涂庆;欧进萍;王光远;;知识发现及其在高层结构智能选型中应用[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年
4 万家华;刘冰;江早;;知识发现中的可视化技术[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
5 赵荣珍;杨娟;黄显华;;粗糙集理论的故障知识发现及其工程应用模式研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
6 董伯儒;林少培;王永文;;工程建设MIS中的知识发现和深化[A];中国土木工程学会计算机应用分会第七届年会土木工程计算机应用文集[C];1999年
7 段培俊;周东岱;;数据挖掘研究综述[A];2003年中国智能自动化会议论文集(下册)[C];2003年
8 蒙应杰;张文;吴超;;基于粗集的数据库水印属性选择优化问题[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
9 张文修;徐萍;米据生;吴伟志;;知识系统与知识发现[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年
10 阮鸣梁;陈维默;;数据挖掘技术的发展与应用[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年
2 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年
3 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
4 ;Informix实现商务智能的坚实根基[N];中国计算机报;2000年
5 中国科学院计算技术研究所 刘毅勇 何雄 李金山 廖浩均 孟亮 邓柱中;空间数据挖掘:变数据为知识[N];计算机世界;2005年
6 刘向晨;让文件捉迷藏[N];中国电脑教育报;2003年
7 中青旅尚洋电子技术有限公司 史小六 陈如璇;细看集中技术[N];网络世界;2003年
8 苍苍;教你两手[N];中国电脑教育报;2004年
9 胡虎;突出信息化贡献水平 处理好三个关系[N];人民邮电;2007年
10 陈志楠;挖掘“不为人知的艺术”[N];科技日报;2009年
中国博士学位论文全文数据库 前10条
1 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
2 谢宗霞;太阳宁静区磁场流场特性知识发现的方法研究[D];哈尔滨工业大学;2010年
3 张云中;基于形式概念分析的Folksonomy知识发现研究[D];吉林大学;2012年
4 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
5 李初民;基于网络管理数据库中性能数据的知识发现(KDD)研究[D];重庆大学;2001年
6 李刚;知识发现的图模型方法[D];中国科学院软件研究所;2001年
7 谢志鹏;基于概念格模型的知识发现研究[D];合肥工业大学;2001年
8 吴涛;构造性知识发现方法研究[D];安徽大学;2003年
9 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
10 张敬伟;Web论坛数据抽取[D];华东师范大学;2012年
中国硕士学位论文全文数据库 前10条
1 张冬艳;基于粗糙集合理论的决策树构造算法研究[D];合肥工业大学;2006年
2 薛静;专家信息管理系统在CRM中的研究与应用——基于java技术的构架[D];西北工业大学;2001年
3 陈红叶;Web信息提取及知识发现方法研究[D];合肥工业大学;2002年
4 迟庆云;基于决策树的分类算法研究和应用[D];山东师范大学;2005年
5 王益玲;基于DCS实时信息的智能故障诊断系统的研究与设计[D];南京工业大学;2003年
6 李长源;关联规则挖掘算法研究[D];哈尔滨工程大学;2005年
7 郭国印;数据挖掘技术的研究及其在PLM中的应用[D];西北工业大学;2005年
8 谷宏群;数据挖掘中可视化方法研究[D];武汉大学;2005年
9 梁利莉;数据挖掘技术在CRM中的应用研究[D];首都经济贸易大学;2005年
10 刘娟;中药药对的量化分析与知识发现[D];成都中医药大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026