收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于密度的不确定数据聚类研究

王莹莹  
【摘要】:随着信息技术的不断发展,人们对数据的要求也不断的提高,体现在数据的多样性、安全性、信息量增大等方面,这些都将导致数据的不确定性问题的出现。为了更好的从不确定数据中获取更准确的信息,不确定数据的聚类就显得尤为重要,这也是本文的研究重点。 论文介绍了国内外对不确定数据聚类算法的相关研究,总结发现这些算法多是通过改进确定的聚类算法来适用于不确定数据的聚类,且改进多是针对基于划分的方法和基于密度的方法。本文为了更好的研究不确定数据聚类,首先对不确定数据进行了合理建模,用O表示一个不确定数据点的集合,表示为D={(o1,p1),(o2,p2),……(oi, pi)……,(on,pn)},其中(oi,pi)(1≤i≤n)是集合中的一个数据点,pi是该数据点oi属性的概率值。提出了针对不确定数据的聚类的EnDBSCAN算法,该算法对DBSCAN算法作了如下改进: 第一,为了体现出聚类中心点的重要程度,本文设计了一个与概率相关的函数来计算聚类的邻域半径使得概率半径Pr能够根据pi进行调整,体现了不确定数据概率信息对聚类结果影响的重要性。 第二,由于数据不确定性的存在,数据点所组成的核心簇的不确定程度也应作为聚类的一个指标。该算法采用信息熵来度量信息的不确定性,并将它作为聚类的一个标准。 第三,算法在处理大规模的数据集时时间复杂度较高,因此本文引入了网格的技术来提高算法的运行效率。并根据网格信息熵的大小,剪掉那些不可能被聚类的数据单元格,减少查询量。 本文通过实验对算法进行验证。首先,为了证明算法的有效性,本文对模拟的不确定数据集应用该算法进行聚类,,计算出了聚类结果的类内紧密度和类间分离度的数值并通过该数值证明聚类的有效性。其次,为了证明算法的实用性,采集了31个省的温度的数据并使用DBSCAN和EnDBSCAN算法分别对其进行聚类并比较聚类结果来说明该算法聚类的准确性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 谢秦川;王方;;一种基于数据聚类技术的情报分析系统研制[J];警察技术;2009年04期
2 徐毓,李锋,金以慧;基于聚类融合的多目标跟踪算法[J];传感器技术;2002年07期
3 金弟;刘杰;贾正雪;刘大有;;基于k最近邻网络的数据聚类算法[J];模式识别与人工智能;2010年04期
4 左珑,谭明峰;基于ART1人工神经网络的数据聚类[J];计算机工程与科学;2002年02期
5 李晓波;闫道儒;顾煜炯;;数据均值聚类在故障模式识别中的应用[J];中国电力教育;2005年S1期
6 宗瑜;金萍;;网络流聚类算法及其在图像处理中的应用[J];皖西学院学报;2005年05期
7 李平;吴佳英;郑金华;胡宁静;;多亲遗传算法的理论分析及其应用研究[J];计算机工程与设计;2006年04期
8 薛方亮,帅典勋;利用广义细胞自动机实现的智能数据聚类[J];计算机与数字工程;2005年06期
9 沙金;张翠肖;贾玉锋;胡迎新;;HGHD:一种基于超图的高维空间数据聚类算法[J];微电子学与计算机;2006年06期
10 侯建花;杨长青;;一种色彩特征的自动提取算法及其软件实现[J];计算机仿真;2007年07期
11 熊拥军;;基于高维聚类分析方法的读者群划分研究[J];情报杂志;2010年01期
12 赵连朋;;数据挖掘技术在案件侦察决策中的应用[J];计算机工程与应用;2006年07期
13 赵连朋;;在案件侦察决策中采用数据挖掘技术[J];计算机工程与科学;2006年06期
14 李强;何衍;蒋静坪;;一种基于随机游动的聚类算法[J];电子与信息学报;2009年03期
15 王树良;邹珊珊;操保华;谢媛;;利用数据场的表情脸识别方法[J];武汉大学学报(信息科学版);2010年06期
16 张蓉,彭宏;一种基于超图模式的高维空间数据聚类方法[J];计算机工程;2002年07期
17 涂珊;;数据挖掘技术在路由选择中的应用研究[J];长沙铁道学院学报(社会科学版);2009年03期
18 胡耀民;刘伟铭;;基于模糊矩阵的蚁群聚类算法研究与应用[J];计算机工程与应用;2011年08期
19 张蓉;彭宏;;一种基于超图模式的高维空间数据聚类方法[J];模式识别与人工智能;2002年02期
20 杨仪;向长城;魏代俊;;可拓K近邻算法在数据聚类分析中的应用[J];计算机工程与应用;2010年21期
中国重要会议论文全文数据库 前10条
1 范晔;周水庚;曹晶;周傲英;;通过数据取样扩展基于密度的聚类算法[A];第十六届全国数据库学术会议论文集[C];1999年
2 张岩;成利荣;;基于相对熵的基因芯片数据聚类分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 娄冬梅;陈明;朱有娜;;一种基于密度的无参数聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
4 张伟;徐远;;两步聚类方法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
5 孙焕良;邱菲;刘俊岭;朱叶丽;;IncSNN——一种基于密度的增量聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 程尊平;周鼎;王晨;周皓峰;汪卫;施伯乐;;SDPHC——基于密度的分割和分层的自校聚类算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 曹晶;周水庚;范晔;周傲英;;数据分区:一种改善基于密度的聚类算法的方法[A];第十六届全国数据库学术会议论文集[C];1999年
9 张皓;;基于密度差别的彩色编码图像——一种简单、直观而有效的评价肺血流灌注的方法[A];中华医学会第十三届全国放射学大会论文汇编(下册)[C];2006年
10 王秋生;高绍坤;崔勇;;基于人工免疫网络和AR模型的聚类与预测算法[A];第三届全国虚拟仪器大会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
2 张志兵;空间数据挖掘关键技术研究[D];华中科技大学;2004年
3 邵非;基于位置感知的移动信息服务若干关键技术研究[D];华东师范大学;2012年
4 张伟;网络核心节点异常流量检测与控制技术研究[D];苏州大学;2008年
5 任斐;基于数据挖掘的自适应异常检测研究[D];吉林大学;2009年
6 许毅平;基于高光谱图像多特征分析的目标提取研究[D];华中科技大学;2008年
7 李强;动点聚类算法及其量子化研究[D];浙江大学;2009年
8 张亮;基于机器学习的信息过滤和信息检索的模型和算法研究[D];天津大学;2007年
9 王晓峰;水平集方法及其在图像分割中的应用研究[D];中国科学技术大学;2009年
10 戴维迪;非监督知识发现过程中若干关键问题研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 王莹莹;基于密度的不确定数据聚类研究[D];长春工业大学;2013年
2 张宁;基于网格和密度的聚类算法研究[D];大连理工大学;2007年
3 李伟雄;基于密度的聚类算法研究[D];湖南大学;2010年
4 程浩;基于密度聚类的时间式网络隐信道设计与检测技术研究[D];南京理工大学;2012年
5 聂跃光;基于密度聚类的空间数据挖掘算法研究[D];太原科技大学;2008年
6 宁晓菊;基于脉冲耦合神经网络的图像检索与数据聚类[D];西安电子科技大学;2004年
7 张园园;基于聚类的入侵检测算法研究与实现[D];吉林大学;2009年
8 白雪;一种基于网格的密度聚类算法研究及应用[D];哈尔滨工程大学;2009年
9 张晓;教师评价中基于聚类算法的异常点分析的研究[D];东北师范大学;2009年
10 邹远强;蚁群聚类算法及其在电信客户分群中的应用[D];湖南大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978