收藏本站
《福建师范大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

聚类技术及其应用研究

陈红  
【摘要】:聚类算法研究是机器学习和数据挖掘的核心研究内容,已经吸引了无数的研究者为之努力。聚类是无监督学习的代表,在聚类算法中,数据之间的相似度是根据描述对象的属性值来计算的,选择适当的相似性度量是保证聚类质量的重要问题。但是,传统的基于距离的相似性度量不适用于高维的、包含混合类型的数据集。同时,传统的机器学习方法大多只考虑有标签数据或者只考虑未标签数据,而在真实问题中往往是二者并存,如何更有效地利用这些数据成为当前的研究热点之一。能够同时利用标签数据和未标签数据的半监督学习应运而生,许多传统的聚类算法被推广为“半监督版本”。经验表明,在半监督学习领域,借鉴和采用聚类思想对推进学习过程和改进学习性能均十分有效。 本文首先针对多数传统聚类算法所采用的基于距离的相似性度量的局限性问题,提出一种适用于聚类领域的基于空间覆盖思想的相似性度量,它利用数据在多维空间中的相互覆盖关系来衡量数据之间的相似性,并进一步实现了基于该相似性度量的层次聚类算法SOHC (a Spatial Overlapping based similarity measure applied to Hierarchical Clustering),通过实验分析验证了该算法的有效性。然后将聚类算法推广应用到半监督学习的不同领域,设计和实现了相应的三种算法:(1)针对具有少量标签数据的极高维数据集,提出基于空间覆盖的半监督特征选择方法SOS-FS (Spatial Overlapping based Semi-supervised Feature Selection);(2)针对人工对大型数据集进行标记的传统监督分类方法可行性低,提出应用于大型数据集上的一种新的半监督分类方法SS-LFL (a novel Semi-Supervised classification applied to Large data sets with very Few Labeled examples);(3)针对特征选择算法的鲁棒性和稳定性问题以及现实中大量的廉价未标签数据的利用问题,提出一种新的双重融合的半监督特征选择算法ESSFS (a novel dual Ensemble based Semi-Supervised Feature Selection method)。在有针对地选择的数据集上对这三种算法分别进行了实验,实验结果表明所提出的算法具有广泛的应用基础和良好的应用前景。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前17条
1 朱帮助;林健;;基于支持向量数据描述的无标签数据多类分类[J];智能系统学报;2009年02期
2 赵婷;房晓阳;张晶;杨辉;杜福德;;地理标签数据的获取与组织管理相关技术的研究[J];测绘与空间地理信息;2017年10期
3 石中伟;文益民;;基于概率相关性的多标签数据流变化检测[J];计算机科学;2015年08期
4 乔健;田庆;;利用最近邻信息快速分类多标签数据[J];计算机工程与应用;2011年32期
5 张文新;邓毅华;谢胜利;;基于嵌入式RFID中间件的标签数据处理[J];微计算机信息;2009年14期
6 汤文伟;于威威;;基于多标签数据的降维与分类算法的研究[J];现代计算机(专业版);2016年14期
7 江秀勤;;半监督极大熵聚类的研究[J];微计算机信息;2009年15期
8 曹鑫磊;冯锋;;轨迹聚类算法及其应用[J];电脑知识与技术;2018年29期
9 司文武,钱沄涛;一种基于谱聚类的半监督聚类方法[J];计算机应用;2005年06期
10 李晓庆;唐昊;司加胜;苗刚中;;面向混合属性数据集的改进半监督FCM聚类方法[J];自动化学报;2018年12期
11 孙卫真;林秋慧;向勇;赵秋香;;海量时空轨迹的梯形带相似聚类[J];小型微型计算机系统;2018年02期
12 王忠民;王晶;张荣;;一种基于人工标签数据的行为识别模型迁移方法[J];西安邮电大学学报;2016年02期
13 王文峰;金倩;;RFID标签数据结构在国际标准中的定义[J];信息技术与标准化;2007年05期
14 李一春;王效东;;两种UHF RFID标准标签数据结构差异对读写器设计的影响[J];物联网技术;2014年10期
15 罗会兰;孔繁胜;李一啸;;基于添加人工数据的高差异性聚类集体生成方法[J];模式识别与人工智能;2008年05期
16 林嘉宜;许剑峰;彭宏;;一种新的中心对称聚类算法[J];计算机科学;2003年06期
17 李明;;浅析机场RFID标签数据协议规范[J];信息技术与信息化;2018年04期
中国重要会议论文全文数据库 前10条
1 赵新池;;浅议车辆标签数据的共享[A];2008北京铁路局技师论文集[C];2008年
2 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 鄂晓征;陈定方;;基于RFID技术的物流单元电子标签系统的设计[A];湖北省机械工程学会设计与传动学会、武汉机械设计与传动学会2008年学术年会论文集(2)[C];2008年
4 张琳;;基于混合聚类方法的科学层级结构分析[A];第九届中国科技政策与管理学术年会论文集[C];2013年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 郑凯;;对快速聚类结果的分析、评估及改进建议[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
7 吴晓璇;倪志伟;倪丽萍;;基于分形维数的选择性聚类融合算法[A];中国系统工程学会第十八届学术年会论文集——A05系统工程理论应用与创新[C];2014年
8 张伟;徐远;;两步聚类方法[A];全国第十届企业信息化与工业工程学术年会论文集[C];2006年
9 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
10 吴亚晶;狄增如;樊瑛;;基于资源分布矩阵的二分网聚类方法[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
中国重要报纸全文数据库 前10条
1 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
2 特约记者 白阳 王刚 颜冬;山东电信开放聚类市场承包经营[N];通信信息报;2012年
3 记者 张梦然;癌症学研究公布最新数据集[N];科技日报;2018年
4 记者 张梦然;最大规模婴儿微生物组数据集建立[N];科技日报;2018年
5 记者 王莉英;行政审批网上全流程办理率年底超80%[N];深圳特区报;2017年
6 记者 金昶 通讯员 陈斯音;我国发布首款全球海洋Argo网格数据集产品[N];中国海洋报;2017年
7 中国青年报·中青在线记者 谢宛霏;为AI领域“造血”[N];中国青年报;2017年
8 记者 罗旭;全球人工智能挑战赛开赛[N];光明日报;2017年
9 记者 刘钊 通讯员 徐文慧 杨溯;自主研发数据集显示今年上半年最热[N];中国气象报;2015年
10 冉瑞奎 刘晓林 戴艳萍;均一化历史气温数据集问世[N];中国气象报;2006年
中国博士学位论文全文数据库 前10条
1 冷明伟;主动半监督聚类及其在社团检测中的应用研究[D];兰州大学;2014年
2 董爱美;带标签和/或无标签数据综合利用的模式分类新方法研究[D];江南大学;2016年
3 张琳;基于期刊聚类的科学结构研究[D];大连理工大学;2010年
4 朱红;粒度聚类方法研究[D];中国矿业大学;2013年
5 迟荣华;不确定时间序列相似性非参数度量方法研究[D];哈尔滨工程大学;2018年
6 李飒;数据流软聚类理论及其在瓦斯灾害预警中的应用[D];辽宁工程技术大学;2014年
7 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
8 张宜浩;基于半监督学习的个性化推荐研究[D];重庆大学;2014年
9 张长青;基于自表达的多视角子空间聚类方法研究[D];天津大学;2016年
10 王振佳;基于基因表达数据的双聚类算法研究[D];山东大学;2016年
中国硕士学位论文全文数据库 前10条
1 陈红;聚类技术及其应用研究[D];福建师范大学;2010年
2 李永春;多标签数据流中新标签发现及其增量学习问题研究[D];南京大学;2018年
3 黄晨;可靠的半监督分类算法研究[D];电子科技大学;2018年
4 汪露露;基于集成的单标签和多标签数据流分类算法研究[D];北京交通大学;2017年
5 王静;多标签数据的降维与分类算法研究[D];大连理工大学;2014年
6 屈伟;多标签数据流分类研究[D];西北农林科技大学;2010年
7 杨冠群;大规模多模态多标签数据哈希方法研究[D];山东大学;2017年
8 王瑶;结合主动学习的半监督分类算法优化研究[D];大连理工大学;2013年
9 刘明;基于先验知识的半监督聚类算法研究[D];大连理工大学;2012年
10 石中伟;多标签数据流分类中的类别增量学习与概念漂移检测的研究[D];桂林电子科技大学;2015年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978