收藏本站
《清华大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类分析算法研究

戴涛  
【摘要】:聚类分析技术就是将数据区分为自然的群体,并给出每个群体特征描述的一种数据挖掘方法,是数据挖掘和知识发现的一种基本方法。在进行基于概率的聚类分析的时候,往往事先假设已知数据将分为K组,然后通过概率聚类算法进行分组,使得一组中的成员彼此相似,而与其他组的成员尽可能的不同。但是,如何在给定的数据集上得到最佳聚类个数?概率聚类算法本身并没有回答这个问题。我们首先分析了通用的自动确定概率聚类个数的方法,然后针对蒙特卡罗交叉验证算法不能解决后验概率分散的问题,提出一种改进的蒙特卡罗交叉验证算法(iMCCV)。进而,我们提出了一种解决确定概率聚类个数的混合途径方法,这种方法结合iMCCV算法和平行坐标可视化技术去确定聚类个数。 一般来说,数据挖掘算法中涉及数据可以归为三种基本的数据类型:人口统计学数据、个体行为数据、心理或态度数据。而在对未来行为的预测能力上,个体行为数据通常比其他类型的数据效果更好。个体的概念非常广泛,人、动物、有机物、组织、自然现象和机械系统等都是个体。个体行为数据的例子很多,如超市数据,信用卡数据,电话数据都是交易数据,甚至可以把整个的商业领域数据都可以视为这种类型。这类数据的共同特征是每个“个体”有多个观察值,而且个体之间的观察值的个数不同。 但是,传统的基于距离或相似度的聚类算法一般都基于“特征矢量”的方法,即把观察数据转化为固定维度的矢量数据来进行处理。这种方法并不适宜用来处理个体数据。如果我们使用传统方法来处理个体数据,往往由于进行了数据矢量转化操作而造成信息丢失,最终可能会导致聚类结果的不准确。所以我们应该对个体数据采取不同的聚类技术而提高聚类结果的准确性。我们根据数据特点和应用需求,提出了有效的挖掘算法的:个体行为数据的模糊高斯混合模型算法和双重高斯混合模型算法。其中模糊高斯混合模型算法结合混合模型算法和模糊算法的思想;而双重高斯混合模型算法主要针对拨号数据的“多峰值”现象。 在理论研究的基础上,我们结合平行坐标可视化技术设计并实现了一个可视化聚类挖掘原型系统,该系统提供友好的图形用户界面和开放的编程接口。
【学位授予单位】:清华大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP301.6

【引证文献】
中国博士学位论文全文数据库 前1条
1 彭光金;小样本工程造价数据的智能学习方法及其在输变电工程中的应用研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 侯德森;一种面向大数据集的部分优先聚类算法[D];华北电力大学(北京);2011年
2 刘雄;基于k-means的改进聚类融合算法的研究与应用[D];中南大学;2011年
3 付金光;电力系统不良数据辨识的实用软件开发[D];郑州大学;2011年
4 曹巧玲;基于网格的聚类融合算法的研究[D];郑州大学;2011年
5 苏喻;基于语义的文本聚类搜索研究[D];安徽大学;2011年
6 查丰;引力聚类及其应用研究[D];安徽大学;2011年
7 张全生;基于聚类—遗传混合算法的物流配送路径优化研究[D];安徽理工大学;2011年
8 符凯;软件架构重构技术的研究与实现[D];西北大学;2007年
9 高燕飞;数据库负载自适应实时在线聚类算法的设计与实现[D];太原理工大学;2008年
10 李晶;数据库负载自适应的体系结构设计及框架软件实现[D];太原理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 张育智;李乔;;基于区间估计的结构损伤识别方法研究[J];四川建筑科学研究;2007年06期
3 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
4 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
5 汪祖柱,程家兴;求解组合优化问题的一种方法—分枝定界法[J];安徽大学学报(自然科学版);2004年01期
6 刘盛东,吴荣新;由冒落孔导高预报煤层顶板导高的回归分析研究[J];安徽地质;2001年01期
7 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
8 项立群;概率方法在一种期权定价中的应用[J];安徽工程科技学院学报(自然科学版);2003年02期
9 董如何,肖必华,方永水;正交试验设计的理论分析方法及应用[J];安徽建筑工业学院学报(自然科学版);2004年06期
10 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
3 李东海;纪瀛皇;李明大;刘京宫;;一类分布参数系统的PID控制器设计[A];中国自动化学会控制理论专业委员会D卷[C];2011年
4 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
5 张宪标;汪沨;乐孟常;戴涛;;采用PIC法SF_6/N_2混合气体中绝缘子沿面放电特性仿真[A];2011中国电工技术学会学术年会论文集[C];2011年
6 张马兵;杨应红;董保华;卢逢刚;;安庆市近50年日照特征变化分析[A];第三届安徽科技论坛农业与气候生态学术研讨会论文集[C];2004年
7 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
8 刘启亮;邓敏;彭东亮;徐震;;基于场论的空间聚类有效性评价方法研究[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
9 唐笑慧;富立;范耀祖;;基于蒙特卡洛方法的惯性元件误差模型分析[A];2005年全国自动化新技术学术交流会论文集[C];2005年
10 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 谭佳琳;粒子群优化算法研究及其在海底地形辅助导航中的应用[D];哈尔滨工程大学;2010年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
5 贺士晶;核动力装置参数优化设计[D];哈尔滨工程大学;2010年
6 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
7 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
8 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
9 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
10 周红军;芳烃型连续重整集总反应动力学模型研究[D];华东理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李坤;参数参与进化的自适应遗传算法研究[D];南昌航空大学;2010年
2 韩福冬;再生混凝土基本力学性能的数理统计分析和可靠度研究[D];山东科技大学;2010年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
5 靳昌田;煤炭集团物料配送优化研究[D];山东科技大学;2010年
6 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
7 牛玲玲;一种层次聚类的簇确认方法研究[D];郑州大学;2010年
8 黄钢;水利建设工程投标报价风险研究[D];山东农业大学;2010年
9 李东起;基于VxWorks的水下目标探测跟踪研究[D];哈尔滨工程大学;2010年
10 程朗;基于多测距仪的AUV三维避碰方法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 赵姝,张燕平,张铃,张媛,陈传明;覆盖聚类算法[J];安徽大学学报(自然科学版);2005年02期
2 王红玲;郑纲;何剑锋;;基于改进粒子群算法的生鲜农产品配送路径优化研究[J];安徽农业科学;2010年31期
3 孟嗣仪;电力系统光缆自动监测系统的设计及实现[J];北方交通大学学报;2002年06期
4 尹阿东,宫雨,吴胜利,武森,高学东,李拥军;增量决策树算法及复杂度分析[J];北京科技大学学报;2004年02期
5 石剑飞;闫怀志;牛占云;;基于凝聚的层次聚类算法的改进[J];北京理工大学学报;2008年01期
6 赵艳厂,谢帆,宋俊德;一种新的聚类算法:等密度线算法[J];北京邮电大学学报;2002年02期
7 赵震宇,王喜臣;C/C++与FORTRAN混合编程技术及其应用研究[J];长春科技大学学报;2001年02期
8 罗菲菲;刘贵全;安景琪;张婷慧;;一种分层聚类方法及其应用研究[J];成都理工大学学报(自然科学版);2005年06期
9 李绪,李光,汪乐,郭宏记,Freeman Walter J.;嗅觉混沌神经网络的研究和应用[J];传感技术学报;2004年02期
10 傅强;李永涛;;基于灰色聚类法的上市公司信用风险评价[J];财会月刊;2006年03期
中国重要会议论文全文数据库 前2条
1 牟廉明;;基于均匀度和相对密度的网格聚类算法[A];第二届中国智能计算大会论文集[C];2008年
2 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 陈昊鹏;软件逆向工程技术研究[D];西北工业大学;2002年
2 徐晓刚;设计结构矩阵研究及其在设计管理中的应用[D];重庆大学;2002年
3 王正群;手写体汉字识别研究[D];南京理工大学;2001年
4 张志猛;面向理解的OORE关键技术研究[D];浙江大学;2004年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 高学;基于运动图像的手写汉字识别研究[D];华南理工大学;2003年
7 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
8 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年
9 胡天磊;自治数据库系统的理论与方法研究[D];浙江大学;2006年
10 李小敬;面向自治数据库的统计信息管理技术研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 侯衍龙;基于UML的面向对象建模技术及应用[D];南京航空航天大学;2002年
2 蔡聪波;混沌系统最大Lyapunov指数的计算及其在脑电数据分析中的应用[D];厦门大学;2001年
3 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
4 张远福;VRP和制造网络流算法的研究[D];山东科技大学;2003年
5 王志斌;哈尔滨电业局客户服务中心管理系统的总体设计与实现[D];东北农业大学;2003年
6 汪芳;模式识别技术及其在文字识别领域的应用研究[D];西北工业大学;2004年
7 张滨;中文文档分类技术研究[D];武汉大学;2004年
8 杜松;数据挖掘在CRM中的应用研究[D];电子科技大学;2004年
9 许宏;基于数据仓库的决策支持系统研究[D];南京工业大学;2004年
10 董爱华;DM4数据库的自调节技术研究[D];华中科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前4条
1 王绵斌;李欢欢;谭忠富;张金良;;基于支持向量机方法的输电工程造价指标评估体系[J];电力建设;2014年03期
2 王园;;客户风险评级管理研究与应用——基于证券CRM管理[J];哈尔滨商业大学学报(社会科学版);2012年02期
3 苗鉴华;;HONET接入网传输故障处理与分析[J];科技传播;2011年21期
4 刘卫东;陆晓芬;于晓彦;刘金朋;劳咏昶;;电网公司基建工程年度投资组合预测研究[J];华东电力;2014年01期
中国重要会议论文全文数据库 前1条
1 徐焜耀;谢兵;杨蕴华;彭光金;曹端;孟卫东;;聚类改进算法在电力工程造价估算中的应用[A];电网工程造价管理优秀论文[C];2011年
中国博士学位论文全文数据库 前1条
1 彭泓;基于数据挖掘与信息融合的瓦斯灾害预测方法研究[D];中国矿业大学(北京);2013年
中国硕士学位论文全文数据库 前10条
1 车少敏;基于逆向工程的工资管理系统的设计与实现[D];南昌大学;2010年
2 王小刚;数据库负载自适应中知识库规则的表示与组织[D];太原理工大学;2011年
3 黄雄伟;基于Web数据挖掘的客户行为分析研究及应用[D];武汉理工大学;2011年
4 肖维;基于有限混合模型的聚类算法及其应用[D];中北大学;2011年
5 王海燕;基层供电公司客户关系管理系统的研究与开发[D];华北电力大学(北京);2009年
6 张凯;一种面向SaaS的软件重构方法的研究[D];吉林大学;2012年
7 白春霞;张掖小水电管理信息系统设计与开发[D];电子科技大学;2012年
8 孙辉;基于CRM的酒店管理信息系统设计与实现[D];电子科技大学;2012年
9 刘会亮;基于软件重构技术的储层地质统计分析系统的研究[D];西安石油大学;2012年
10 陈忠建;基于μC/OS-Ⅱ的ISA模型设计与实现[D];成都理工大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 刘燕,张星明,郭宇聪;基于聚类的大型人脸检索系统[J];计算机工程;2005年15期
2 张迎春;陈洁;张晨希;万忠;张燕平;;聚类在股票研究中的应用[J];计算机技术与发展;2006年04期
3 邹翔;岳振军;贾永兴;闵刚;;基于一乘准则的LMR在声音转换中的应用[J];军事通信技术;2008年01期
4 巩玉玺;罗容;;基于deep web数据库的个性化推荐系统[J];煤炭技术;2009年08期
5 朱嵬鹏;王士同;;基于空间模式聚类的彩色图像分割[J];计算机工程与应用;2009年34期
6 欧卫华;;基于重叠度增量的模糊聚类有效性函数[J];计算技术与自动化;2009年04期
7 周世兵;徐振源;唐旭清;;K-means算法最佳聚类数确定方法[J];计算机应用;2010年08期
8 刘燕驰;高学东;国宏伟;武森;;聚类有效性的组合评价方法[J];计算机工程与应用;2011年19期
9 耿新青;王正欧;;TGFCM:基于模糊聚类的中文文本挖掘的新方法[J];计算机工程;2006年05期
10 唐西西;;一种新的混合遗传聚类算法[J];广西工学院学报;2006年03期
中国重要会议论文全文数据库 前10条
1 高翠芳;吴小俊;;基于二阶差分的聚类数自动确定方法[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 杨青;刘晔;张东旭;刘畅;;快速查找最优初始聚类数K的改进K-means算法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
3 于剑;;聚类有效性与聚类算法的稳定性[A];2003年中国智能自动化会议论文集(下册)[C];2003年
4 左旺孟;朱颢;李乃民;李剑峰;张宏志;;基于流形学习的舌色分析与聚类研究[A];第四次全国中西医结合诊断学术研讨会论文集[C];2010年
5 蔡军;袁华鹏;陈金海;施伯乐;;一种基于相似性分析的聚类新算法:PDS算法[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 饶金通;董槐林;姜青山;;基于孤立因子的层次聚类算法与应用[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 孙长银;李林峰;;基于模糊聚类方法的T-S模糊系统[A];2006中国控制与决策学术年会论文集[C];2006年
8 张勇斌;梁荣华;马杰;马玉书;;神经网络数据挖掘聚类优化算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
9 付振中;赵合计;董玉振;;基于HSL颜色空间的模糊C均值彩色图像分割方法[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国博士学位论文全文数据库 前10条
1 宗瑜;聚类质量改进方法的研究[D];大连理工大学;2010年
2 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
3 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
4 于秀娟;加工过程的质量异常预测与诊断方法研究[D];吉林大学;2011年
5 邱浪波;基因芯片表达数据分析相关问题研究[D];国防科学技术大学;2007年
6 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
7 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年
8 李艳灵;基于聚类的图像分割算法研究[D];华中科技大学;2009年
9 陈伟;群体智能算法及其在基因表达数据聚类中的应用[D];江南大学;2011年
10 覃桂敏;复杂网络模式挖掘算法研究[D];西安电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈奇明;基于投票策略聚类融合算法的研究和实现[D];安徽工业大学;2010年
2 张丽;基于智能算法的DNA聚类研究及应用[D];山东师范大学;2010年
3 张雪;可能性聚类有效性评价研究[D];哈尔滨理工大学;2014年
4 乐华;谱方法和信息熵在聚类中的应用[D];浙江大学;2014年
5 赵兴旺;基于信息熵的聚类个数确定方法研究[D];山西大学;2011年
6 王斐;云搜索中的搜索结果聚类技术研究[D];北京邮电大学;2013年
7 查丰;引力聚类及其应用研究[D];安徽大学;2011年
8 杨凌;聚类分析中聚类数的确定问题[D];武汉科技大学;2001年
9 吴爽;基于群智能机理的PPI网络功能模块聚类[D];陕西师范大学;2012年
10 陈爱平;基于Hadoop的聚类算法并行化分析及应用研究[D];电子科技大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026