收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于主动学习的半监督谱聚类算法研究

刘荣辉  
【摘要】:聚类技术是用于数据分析的最常应用的技术之一,其应用领域涉及统计学、计算机科学、生物学以及社会学等。传统的聚类算法如常见的K-means算法,EM算法等都是建立在凸状分布的样本空间上,当样本空间分布不为凸时,算法就会陷入局部最优,因而此类算法不适合在任意形状分布的样本空间上解决聚类问题。近些年来,谱聚类算法作为一种新颖的聚类方法受到广泛的关注,并成为了机器学习、模式识别等领域的研究热点。谱方法建立在谱图划分理论基础上。与其他传统聚类技术相比,它能够在任意分布形状的样本空间上进行聚类,并且最终能够收敛于全局最优解。谱聚类算法在聚类过程中,通过特征向量构建更加简化的样本数据空间,这样不仅降低了样本数据的维数,而且还使得样本数据的分布结 构在子空间内更为清晰和明显。半监督聚类是指在聚类过程中,利用样本先验信息去指导聚类过程以获得更好的聚类效果。与无监督聚类相比,半监督聚类利用少量的监督信息去指导聚类过程。而半监督聚类算法的性能取决于监督信息。因此,监督信息的选取非常关键。本文首先介绍本课题的研究背景和意义,以及当前谱聚类的研究状况,接着具体介绍了数据挖掘和聚类分析的相关理论,然后着重介绍了谱聚类的相关理论,并对其优势和面临的问题做出分析,最后介绍了本文的研究内容及贡献: ①针对半监督聚类的性能取决于所提供的监督信息这个问题,本文构建了一种新的选取成对约束信息的主动学习策略,该策略在聚类过程中主动的选取信息含量丰富的成对约束信息。其主要思想就是:找出同一类中距离远的数据对象对,记为Must-link;找出不同类中距离近的数据对象对,记为Cannot-link。 ②构造了一种基于主动学习的半监督谱聚类算法,就是在聚类过程中,利用主动学习策略选取得到的成对约束信息,来调整数据对象之间的距离矩阵,使得同一类中各个数据对象分布尽可能紧凑,不同类之间的数据对象分布尽可能分散。通过在UCI数据集上的实验可以证明本文算法的有效性。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前8条
1 王娜;李霞;;基于监督信息特性的主动半监督谱聚类算法[J];电子学报;2010年01期
2 贾建华;焦李成;;空间一致性约束谱聚类算法用于图像分割[J];红外与毫米波学报;2010年01期
3 高琰;谷士文;唐琎;蔡自兴;;机器学习中谱聚类方法的研究[J];计算机科学;2007年02期
4 蔡晓妍;戴冠中;杨黎斌;;谱聚类算法综述[J];计算机科学;2008年07期
5 司文武,钱沄涛;一种基于谱聚类的半监督聚类方法[J];计算机应用;2005年06期
6 胡翰;李永忠;;一种改进的半监督聚类入侵检测算法[J];计算机仿真;2010年03期
7 何婷婷;戴文华;焦翠珍;;基于混合并行遗传算法的文本聚类研究[J];中文信息学报;2007年04期
8 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
中国硕士学位论文全文数据库 前7条
1 高英明;数据挖掘与知识发现(DMKD)及其应用的研究[D];华北电力(北京)大学;2002年
2 李英俊;数据挖掘在电信网络管理中的应用[D];北京交通大学;2007年
3 罗俊玮;基于FCM的类合并聚类算法研究[D];重庆大学;2009年
4 高倩;基于模糊理论的谱聚类算法研究与应用[D];江南大学;2009年
5 张松顺;半监督学习方法及其应用研究[D];江南大学;2009年
6 丁光华;基于BIRCH和GAD的谱聚类算法研究[D];暨南大学;2010年
7 钟洵;谱聚类在离群数据挖掘中的应用研究[D];重庆大学;2010年
【共引文献】
中国期刊全文数据库 前10条
1 王春腾;杨厚群;符传谊;邢洁清;;基于独立成分分析的谱聚类方法[J];安徽电子信息职业技术学院学报;2011年03期
2 赵悦;穆志纯;董洁;付冬梅;何伟;;基于QBC主动学习方法建立电信客户信用风险等级评估模型[J];北京科技大学学报;2007年04期
3 郭新辰;吴希;宋琼;;一种改进相似度参数估计的半监督谱聚类算法[J];东北电力大学学报;2010年06期
4 任大伟;胡正平;高文涛;;基于样本不同属性综合的鲁棒偏倚赖主动学习分类算法研究[J];燕山大学学报;2011年01期
5 田立峰;黄媛;刘俊勇;;电网静态安全的自适应性超实时预测[J];电力自动化设备;2010年04期
6 徐杰,施鹏飞;图像检索中基于最大信息获取量的主动学习算法(英文)[J];Journal of Southeast University(English Edition);2004年04期
7 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期
8 彭厚文;杨爽;何凤成;;基于聚类算法的并行化研究[J];电脑知识与技术;2009年24期
9 王春腾;符传谊;邢洁清;;基于非负约束的谱聚类方法[J];电脑知识与技术;2011年17期
10 徐天顺;;谱聚类算法研究[J];电脑知识与技术;2012年16期
中国重要会议论文全文数据库 前7条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 ;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
3 王会珍;张希娟;朱靖波;张斌;;基于主动学习的自适应话题追踪[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 张希娟;朱靖波;;主动学习中后验概率尖锐现象的平滑处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 缪有栋;邱锡鹏;黄萱菁;;基于主动学习的中文问题类别标注研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 ;Cluster Label Aligning Algorithm Based on Programming Model[A];第24届中国控制与决策会议论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
5 崔卫红;基于图论的面向对象的高分辨率影像分割方法研究[D];武汉大学;2010年
6 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
7 王晓娟;多目标柔性作业车间调度方法研究[D];华中科技大学;2011年
8 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年
9 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
10 张大明;基于图理论的图像分割和分类算法研究[D];安徽大学;2011年
中国硕士学位论文全文数据库 前10条
1 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
2 李静伟;基于共享近邻的自适应谱聚类算法[D];大连理工大学;2010年
3 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
4 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
5 孙玉侠;数据挖掘中的谱聚类算法研究[D];中国海洋大学;2010年
6 梁延峰;基于专家委员会的主动学习算法研究[D];中国海洋大学;2010年
7 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
8 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
9 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
10 李亮;基于语义稀疏表示的不良图像检测算法[D];西安电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 孟洛明;网络管理研究中的问题、现状和若干研究方向[J];北京邮电大学学报;2003年02期
2 廖里,余英泽,吴渝,聂能;数据挖掘和数据仓库及其在电信业中的应用[J];重庆邮电学院学报(自然科学版);2000年04期
3 叶萍;;基于隶属度改进的模糊K-均值算法[J];长春工程学院学报(自然科学版);2007年01期
4 姜立强;邱迎锋;刘光斌;;利用改进微分进化算法实现线性系统逼近[J];电光与控制;2008年05期
5 王涛,沈谦,冯焕清;一种改进的模糊聚类算法[J];电路与系统学报;1999年01期
6 魏立梅,谢维信;对手抑制式模糊C-均值算法[J];电子学报;2000年07期
7 罗敏,王丽娜,张焕国;基于无监督聚类的入侵检测方法[J];电子学报;2003年11期
8 范九伦,吴成茂;FCM算法中隶属度的新解释及其应用[J];电子学报;2004年02期
9 王玲;薄列峰;焦李成;;密度敏感的谱聚类[J];电子学报;2007年08期
10 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期
中国硕士学位论文全文数据库 前1条
1 易星;半监督学习若干问题的研究[D];清华大学;2004年
【相似文献】
中国期刊全文数据库 前3条
1 马秀丽;焦李成;;联合模型初始化独立谱聚类算法[J];西安电子科技大学学报;2007年05期
2 马秀丽;焦李成;;基于分水岭-谱聚类的SAR图像分割[J];红外与毫米波学报;2008年06期
3 蒋勇;谭怀亮;李光文;;基于量子遗传谱聚算法的聚类[J];计算机应用;2011年09期
中国硕士学位论文全文数据库 前2条
1 严俊;谱聚类算法改进及在社交网络中的应用[D];广西师范大学;2014年
2 张胜;谱聚类算法研究及其在图像识别中的应用[D];太原科技大学;2014年
中国知网广告投放
相关机构
>太原科技大学
>广西师范大学
相关作者
>张胜 >严俊
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026