收藏本站
《江苏大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

空间离群点挖掘技术的研究

薛安荣  
【摘要】: 空间离群点是与其空间邻域中其它空间对象的非空间属性值存在明显差异的空间对象。空间离群点挖掘是空间数据挖掘的一个重要分支,在交通控制、遥感图像分析、气象预报和人口统计数据分析等应用中可揭示重要现象。 随着传感器设备技术的发展,数据采集设备的数量越来越多,精度越来越高,采集的项目也越来越多,因此数据量越来越大,维数越来越高。然而现有的空间离群点挖掘算法主要是针对单维或中低维的中小规模数据量的挖掘,难以适应高维大数据量的挖掘,并且现有算法没有充分考虑空间数据的特点,挖掘的不是真正意义上的空间离群点,而是全局离群点。算法存在用户依赖性大,检测精度低,挖掘效率低等局限。此外,随着网络技术、传感器技术和无线通信技术的发展,数据的采集、收集、保存和处理都呈现分散状态,因此,基于分布环境的数据挖掘也引起人们的关注,但基于分布环境的空间离群点挖掘算法还未见报道。 本文将根据空间数据自身的特点,研究属性划分方法和属性的权值设置方法,空间离群程度的度量方法,实现挖掘精度高、用户依赖性少的高效的空间离群点挖掘算法。针对现有算法主要局限在数值型属性数据处理上的不足,通过将非数值型数据转化为数值型数据,实现基于混合型属性的统一算法。针对高维大数据量,采用剪枝策略、基于子空间的离群点挖掘和集成学习的方法实现高维大数据量的挖掘:针对分布环境下的空间离群点挖掘,提出了基于隐私保护的空间离群点挖掘算法。论文的主要贡献如下: (1)提出基于属性划分的方法解决局部离群点的挖掘问题。一般的局部离群点的挖掘采用的是满维属性的挖掘方法,如LOF(Local Outlier Factor)方法,其结果是局部邻域的确定非常耗时,由于所有维属性不加区分地等同看待,所以离群度度量的准确性受到影响,影响了挖掘的精度和速度。提出将数据对象的属性划分为标识属性、环境属性和固有属性,标识属性起着标识对象的作用,如数据对象名称等;环境属性决定了对象所处环境,如地理位置、时间、序列等,可利用环境属性确定邻域;固有属性是数据对象特有属性,包括行为属性和状态属性,决定了对象的行为和状态特征,可利用该类属性确定对象的离群程度。 (2)提出空间数据对象的离群程度的新的度量方法,即基于空间数据特性的空间局部离群系数SLOF(Spatial Local Outlier Factor)的度量方法;提出基于空间离群度的空间离群点挖掘算法ASLOF(Algodthm based on SLOF)。将数据对象的属性分为标识属性、空间属性和非空间属性,利用空间属性确定空间邻域、建立空间索引,利用非空间属性确定对象的离群程度,并在离群度的度量中引入属性的权值,提高度量精度,据此提出了基于空间离群度的空间离群点挖掘算法。理论证明和实验测试结果表明,ASLOF在挖掘的精度、用户依赖性和算法性能上均优于现有算法。 (3)提出混合属性的统一的空间离群度的度量方法和挖掘算法。从离群点性质入手,通过统计分类属性的频度,将分类属性转化为数值型,并通过属性的权值设置和属性的标准化等处理后,实现基于混合属性的空间离群点的统一挖掘算法。实验结果表明,算法可有效实现混合属性的空间离群度的统一度量计算和有效挖掘。 (4)提出基于集成学习的子空间离群点集成的高维大数据量的空间离群点快速挖掘算法S2OEAHL(Subspace Spatial Outlier Ensemble Algorithm baSed High-dimensional Large data sets)。由于很多空间数据对象的标识属性中含有空间对象所在的地域标识,根据地域标识构建对象的层次编码树,基于层次编码树,实现数据的分区和对象的快速检索,通过计算分区的上下界和使用包围盒检测方法,剪除明显不含有离群点的分区,保留可能含有离群点的分区作为候选分区,实现了分区的快速剪枝,从而降低数据处理数量。对候选分区采用子空间挖掘方法,为避免与属性维度成指数关系的大量搜索,采用指定子空间挖掘和基于子空间权值的集成融合方法来解决高维数据的离群点挖掘问题。算法的实现中采用了基于单维子空间的离群系数挖掘方法,并利用优化计算的方法求得被检测对象所对应的各属性的权值,在此基础上通过集成融合函数求得被检测对象的离群度,根据离群度的排序可获得所求离群点。理论证明和实验结果均表明算法的有效性和计算的高效性。 (5)提出基于分布环境的隐私保护的空间离群点挖掘算法DPPASLOF(DistribuIcd Privacy Preserving Algorithm based on SLOF)。算法中利用空间数据的局部性,发挥各数据方的主动参与的能力,借助于空间索引技术和隐私保护协议以提高搜索能力和隐私保护能力。理论证明算法的安全性,计算的高效性和低通信代价。
【学位授予单位】:江苏大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 王卓君;;一种用于军事情报分析系统的数据分类算法[J];指挥控制与仿真;2011年04期
2 林山;项菲;;模糊决策表的一种改进的属性约简算法[J];计算机工程与应用;2011年26期
3 邓林峰;赵荣珍;;基于粒计算的知识获取方法研究及其应用[J];机械科学与技术;2011年07期
4 王卓君;;基于分类数据挖掘技术的情报分析系统研究[J];情报杂志;2011年S1期
5 冯卫东;唐彦;谭清中;;电信运营商物联网经营策略探讨[J];数字通信;2011年03期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前8条
1 王大威;李建中;;基于并行属性划分存储结构的并行聚集算法[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
2 贾均刚;张炜;高宏;;TIDC:一种基于属性划分的高频度关系数据压缩存储方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 高宏;李建中;何震瀛;;基于压缩的属性划分存储结构及其上OLAP操作[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 巴亮;林俐;郭亚成;沈辉;;地区电网继电保护运行决策专家系统知识结构化表示方法研究[A];2006电力系统自动化学术交流研讨大会论文集[C];2006年
5 冯世荣;王军;;伊犁盆地盆-山构造及流体演化和砂岩型铀成矿关系分析[A];“十五”重要地质科技成果暨重大找矿成果交流会材料三——“十五”地质行业重大找矿成果资料汇编[C];2006年
6 刘婷;苑春荟;;事业部管理模式在通信企业中的应用[A];第三届(2008)中国管理学年会论文集[C];2008年
7 陆建江;宋自林;岳振军;;区间值数据库上语言值关联规则的挖掘和预测方法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
8 高先锋;刘奇志;后小亮;檀宝权;;一种新的数据流页面存储模型[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 刘明中;淄博国有资产开始“因材施管”[N];中国财经报;2006年
2 ;市场仍在调整中[N];上海证券报;2007年
3 胡伟滨;哈飞创新供应管理初见成效[N];中国航空报;2008年
4 冯海波通讯员 卜浩健;广州百名专家农村科技服务团启动[N];广东科技报;2007年
5 周宝来;我国已颁布施行650个国家职业标准[N];北京人才市场报;2007年
6 王唤明;25种全球最流行的企业管理工具(一)[N];民营经济报;2008年
7 海林;国外农业税收制度的基本框架[N];东方城乡报;2006年
8 石映照;《大易识阶》里的道[N];中国图书商报;2007年
9 思哲;山东:艺考的“拐点”有没有到来[N];中国文化报;2008年
10 周军 乔红中;“片会制度”增强基层党组织活力[N];中国石化报;2007年
中国博士学位论文全文数据库 前3条
1 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
2 赵一夫;中国农产品贸易格局的实证研究[D];中国农业大学;2005年
3 李晓伟;风险投资治理的博弈分析[D];大连理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 王大威;基于属性划分存储结构的并行联机分析处理操作算法研究[D];黑龙江大学;2001年
2 张海云;信息系统中属性约简算法研究[D];山西大学;2007年
3 姚林;离群点快速挖掘算法的研究[D];江苏大学;2008年
4 孙龙;中国东部南方样带地表空间属性划分及典型交错区的分析[D];东北林业大学;2002年
5 荆刚;一种基于属性划分的数据库压缩技术研究[D];东北大学;2008年
6 贾均刚;基于BAP的数据压缩、操作与查询处理系统的实现[D];哈尔滨工业大学;2008年
7 贾培艳;形式背景同构判定算法研究及其应用[D];河南大学;2006年
8 谭军;基于CRM数据挖掘的电信客户细分模型分析与设计[D];重庆大学;2005年
9 于秀霞;分布式数据查询优化算法的研究与探讨[D];长春理工大学;2005年
10 王恒娜;基于属性覆盖的关联规则挖掘算法研究[D];合肥工业大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026