收藏本站
收藏 | 论文排版

基于数据仓库的聚类数据挖掘工具的研究

李戈  
【摘要】: 数据挖掘是近年来发展快速的信息处理新技术,如何有效地从大量数据中提取出隐藏在其中的有用信息,是该领域的研究核心。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为类或类别的子集,每个类内的对象之间是相似的,但不同类的对象间区别相对较大。聚类分析是根据事物本身的特性研究对被聚类对象进行类别划分的方法。聚类分析依据的原则是使同一类中的对象具有尽可能大的相似性,而不同类中的对象具有尽可能大的差异性;而聚类分析通常是在没有先验知识支持的前提下进行的。聚类分析要解决的就是如何在没有先验知识的前提下,实现满足这种要求的类的聚合。 正是由于聚类分析的重要性和特殊性,近年来在该领域的研究取得了长足的发展,涌现出了许多聚类分析的方法,如分割聚类方法(PartitioningMethod)、层次聚类方法(Hierarchical Method)、基于密度(Density-Based)的聚类方法、基于网格(Grid-Based)的聚类方法、基于模型(Model-Based)的聚类方法等等。这些方法所涉及的领域几乎遍及人工智能科学的方方面面,而且在特定的领域中、特定的情形下取得了良好的效果。但是当处理数据为大数据量、具有复杂数据类型的数据集合时,则仍存在若干尚未解决的问题,有关具体细节将在本论文中详细论述。 本课题在课题组前期完成的数据仓库平台的基础上,主要就基于大规模数据仓库的聚类数据挖掘方法进行了研究。主要工作包括: 1.聚类分析结果的精确性问题。聚类结果的精确性是指聚类分析对原始数据集进行划分后,各子类别间边界的明确性及各被聚类对象所属类别的准确性。现有聚类算法易于对被聚类对象空间分布情况比较规则的数据集合进行聚类,而对于具有复杂分布特征的集合却难以进行精确的聚类分析;现有算法大都仅对小型数据集合能够进行较为精确的聚类,且结果并不理想。所以,本文就如何提高基于划分和基于模型的聚类算法的聚类准确性进行了研究,并对几种现有聚类算法提出了改进方案。 2.时间复杂度和空间复杂度过大的问题。聚类分析所处理的往往是数据库或数据仓库中的大数据量数据集合,而且描述数据集合性质的属性繁多,属性 值之间的关系复杂,山此带来了聚集处理较高的时间复杂性和空间复杂性。本 文在深入分析的基础上,就降低或控制聚类分析的时间复杂度进行了尝试。 3.对现有的各种聚类分析算法的对比性研究。随着数据挖掘技术的迅速发 展及其应用的不断拓展,出现了若干聚类分析算法。本文对现有较为典型且具 有代表性的算法进行了对比性的实验研究,对各种算法的优缺点进行了分析评 价。 4.基于划分的聚类方法的改进。基于划分的方法使聚类分析中较为主要的 方法之一,但是山于它对于先验知识的依赖较强,尤其是需要预先指定聚类分 析的类别数目,给该方法的应用带来了障碍。本文提出了对基于划分的方法的 改进方法。 5.基于神经元网络的聚类分析问题的研究。Kohonen网络是基于模型的数 聚挖掘方法的典型代表,它具有自组织、自适应的忧点,适合于在没有先验知 识的情况下发现数据集合的整体特征,完成聚类分析。但由于Kohonen网络存 在着聚类结果划分不明确,且易出现训练过渡的问题,限制了它的应用。本文 就提高聚类结果表达的明确性,如何解决Kohonen网络训练过度的问题进行了 分析、论证,提出了提高Kohonen网络划分明确性以及解决训练过渡问题的改 进方案。 6.基干数据仓库的数据挖掘的解决方案。由于数据集合规模的不断扩大, 数据库应用对于数据规整性、一致性要求的不断提高,数据仓库的出现为解决 这些问题提供了条件。本文就如何在数据仓库系统的基础上构建分布式数据挖 掘系统,进行了深入的分析和阐述,并且给出了解诀方案。 由于本课题的主要研究工作是研制完成基于大规模数据仓库的聚类数据挖 掘工具,本文从现有的数据挖掘理论、数据仓库系统的分析出发,逐步深入的 对以上内容展开论述,对研究工作过程中的心得体会及经验教D!【进行了总结, 并在此基础上给出了若干结论,在论文的最后对今后的工作进行了分析并提出 了下一步的研究课题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;Sybase顺应仓储建设潮[J];每周电脑报;1997年16期
2 ;NCR SAS全球联盟数据仓库与挖掘二合一[J];每周电脑报;1997年43期
3 何雪梅,唐常杰,王利强,张天庆;基于Web的数据仓库的研究[J];计算机应用;1998年10期
4 Bill lnmon,叶思敏;何为数据仓库?[J];中文信息;1998年06期
5 赵晨;NCR宣传企业形象[J];计算机与网络;1999年09期
6 单莹;数据仓库辅助电信行业决策支持系统的构想[J];电信技术;2000年09期
7 姜建清;加速银行数据仓库建设[J];中国金融电脑;2000年08期
8 马敬春;关于数据仓库及其开发过程的探讨[J];华南金融电脑;2000年01期
9 徐仲;数据仓库技术及其在图书馆中的应用[J];图书馆建设;2001年01期
10 张摘月 ,王峰;数据仓库技术在基层人民银行的应用研究[J];中国金融电脑;2001年08期
11 魏小宁;构建数据仓库系统的技术分析[J];中国金融电脑;2001年09期
12 庞清武;数据仓库与决策支持系统[J];山西财经大学学报(高等教育版);2002年S2期
13 钟川,康显桂,杨群生;数据仓库技术及SQLServer的数据仓库实现[J];现代计算机;2002年04期
14 单树军,夏志澜;基于数据仓库的远程故障诊断系统研究[J];计算机工程与应用;2003年03期
15 朱义军,王乘;应用在电力系统中的数据仓库及其设计[J];广西电力;2003年03期
16 彭岚,周启海,夏锋;从数据库到数据仓库[J];计算机时代;2003年09期
17 ;洞悉运营全貌,掌握致胜先机[J];通讯世界;2003年06期
18 钟珞,马志军,水俊峰,张诚;支持电子商务的高性能数据仓库平台的设计[J];武汉理工大学学报;2003年02期
19 郭斌;电力营销分析决策系统的研究与设计[J];电力信息化;2003年04期
20 陈曦,容太平,邹桂章;数据仓库技术在水文监测方面的应用[J];广东科技;2004年Z1期
中国重要会议论文全文数据库 前10条
1 严哲南;楼荣生;;窗口算法问题的解决方案[A];第十六届全国数据库学术会议论文集[C];1999年
2 杨崇联;谢旭升;;基于数据仓库的政府决策支持服务系统研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 刘刚;付忠广;申鹏飞;郑玲;靳涛;;基于发电厂机组数据仓库的数据挖掘系统的研究[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
4 姚卿达;屈定春;;联邦数据库互操作方法在数据仓库中的应用[A];数据库研究进展97——第十四届全国数据库学术会议论文集(下)[C];1997年
5 唐蕾;张剡;柏文阳;徐洁磐;;数据仓库工具集NGDW-1的设计与实现[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 廖燕玲;卢语丹;阮艳萍;高丽金;;高校教学决策支持系统的数据仓库研究[A];Proceedings of 2010 National Vocational Education of Communications and Information Technology Conference (2010 NVCIC)[C];2010年
7 宋擒豹;沈钧毅;;数据仓库体系结构研究[A];第十六届全国数据库学术会议论文集[C];1999年
8 刘伟宏;李晋晋;何瑷;徐洁磐;;数据仓库及其在OMNIX中的实现[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
9 曹顺良;李荣;张忠平;汪卫;朱扬勇;李亦学;;BioDW:一个整合的生物信息学数据仓库平台[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 毛明志;黄春贤;;一种新的数据仓库ETL框架及其应用[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 孟京辉;经营单位级森林经营数据仓库研建及应用研究[D];中国林业科学研究院;2011年
2 朱传华;三峡库区地质灾害数据仓库与数据挖掘应用研究[D];中国地质大学;2010年
3 陈燕;数据仓库的设计与实现[D];大连理工大学;2000年
4 克里木;自适应数据仓库系统的研究与实现[D];大连理工大学;2003年
5 宋杰;面向多类型数据源的数据仓库构建及ETL关键技术的研究[D];东北大学;2008年
6 曹恒;北京市房山区环境污染突发事件应急决策支持系统研究[D];北京林业大学;2012年
7 陈金玉;数据仓库实体化视图联机—致性维护研究[D];重庆大学;2002年
8 徐小博;客户关系管理系统的安全防护机制[D];吉林大学;2012年
9 麦永浩;数据仓库和数据挖掘方法研究及其在公安信息建设中的应用[D];华东理工大学;2000年
10 曹霄洁;基于时尚知识管理的服装概念设计方法研究[D];东华大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈思维;基于数据仓库的区域环境质量预测分析系统[D];电子科技大学;2010年
2 张艳;维度建模在电信数据仓库中的应用[D];西安电子科技大学;2010年
3 蒋昙飞;面向社区服务的数据仓库关键技术研究与实现[D];西安电子科技大学;2009年
4 彭辛庚;电信企业数据仓库经营分析系统的设计与实现[D];湖南大学;2009年
5 赵在宽;基于数据仓库的气象干旱指标挖掘研究与实现[D];解放军信息工程大学;2009年
6 李慧;基于数据仓库的图书馆决策支持系统[D];天津大学;2010年
7 袁玮;新疆联通经营分析系统中数据仓库的应用[D];电子科技大学;2009年
8 文宇;点击流数据仓库在电子商务中的应用研究[D];电子科技大学;2009年
9 张静波;基于数据仓库的企业决策支持系统的研究与应用[D];电子科技大学;2009年
10 字锦茗;数据仓库技术在机场管理中的应用[D];昆明理工大学;2010年
中国重要报纸全文数据库 前10条
1 段云峰 杨凤年 宋俊德;数据仓库必不可少[N];计算机世界;2002年
2 ;“快钱”的速度[N];网络世界;2005年
3 ;IBM DB2商业智能软件[N];中国计算机报;2007年
4 刘庆;颗粒归“仓”,刀枪入“库”[N];网络世界;2006年
5 本报记者 赵晓涛;中国人保试点数据仓库[N];网络世界;2004年
6 本报记者 潘永花;实时企业的决策引擎[N];网络世界;2005年
7 邹大斌;关注商业智能的性能[N];计算机世界;2007年
8 ;数据仓库向外部用户开放[N];网络世界;2007年
9 本报记者 谌力;心甘情愿的“不归路”[N];网络世界;2005年
10 ;企业范围内部署BI效果更佳[N];网络世界;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978