收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

文本聚类集成关键技术研究

徐森  
【摘要】:聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、语音识别、字符识别、图像分割和文本聚类等。另外,在生物学、地质学、地理学、市场营销和异常数据检测等方面也受到越来越多的关注。目前,已有上千种聚类算法,然而没有一种算法可以成功识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。文本数据具有高维、稀疏等特点,这使得许多聚类算法并不适用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。作为传统聚类算法的重要扩展,聚类集成技术具备了传统聚类算法所不具备的诸多优点。目前,聚类集成已经发展成为机器学习领域的研究热点之一。本文以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括: (1)鉴于谱聚类方法的诸多优点,本文将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本文基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。实验结果表明:本文的代数变换方法是切实可行的,代数变换前后算法的运行时间大幅度减少,而且获得的结果非常接近;SMSA和TMSA比基于图划分的聚类集成算法更优越,是解决文本聚类集成问题行之有效的方法。 (2)本文研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明:SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本文进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。实验结果表明,该方法比其它常见的基于图划分的聚类集成方法优越,可以有效解决文本聚类集成问题。 (3)本文将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本文使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本文使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。实验结果表明:使用K均值算法初始化NMF是有效的,NMFK获得了比BNMF算法更加优越、稳定的结果,且运行效率也比BNMF高出许多;NMFKMMP算法可以有效解决文本聚类集成问题,NMFKMMP算法运行高效,并且获得了比其它常见的聚类集成算法更加优越的结果。 (4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本文在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本文设计的聚类集成算法进行集成。实验结果显示,除了基于图划分的聚类集成算法外,基于层次聚类方法的4个聚类集成算法以及本文设计的基于谱聚类方法、基于低维嵌入方法和基于非负矩阵分解方法的多个文本聚类集成算法在使用DM策略后获得的平均规范化互信息(NMI)都有不同程度的提高,这表明DM策略可以有效提高聚类集成算法的聚类质量。
【学位授予单位】:哈尔滨工程大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 李娟;改进相似性测度的谱聚类研究[D];大连理工大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王玲;薄列峰;焦李成;;密度敏感的谱聚类[J];电子学报;2007年08期
2 李乐;章毓晋;;非负矩阵分解算法综述[J];电子学报;2008年04期
3 ;Spectral clustering based on matrix perturbation theory[J];Science in China(Series F:Information Sciences);2007年01期
4 罗四维;赵连伟;;基于谱图理论的流形学习算法[J];计算机研究与发展;2006年07期
5 张长胜;孙吉贵;崔妍;杨凤芹;;一种基于PSO的分割聚类算法[J];吉林大学学报(工学版);2008年06期
6 罗会兰;孔繁胜;李一啸;;聚类集成中的差异性度量研究[J];计算机学报;2007年08期
7 阳琳贇,王文渊;聚类融合方法综述[J];计算机应用研究;2005年12期
8 刘维湘;郑南宁;游屈波;;非负矩阵分解及其在模式识别中的应用[J];科学通报;2006年03期
9 唐伟,周志华;基于Bagging的选择性聚类集成[J];软件学报;2005年04期
10 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
中国博士学位论文全文数据库 前1条
1 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 李广水;宋丁全;;数据分析在森林资源调查中的应用及发展研究[J];安徽农业科学;2009年22期
2 秦洋;王立宏;武栓虎;宋宜斌;;基于拉普拉斯矩阵的DNA序列集相似性分析[J];北京交通大学学报;2009年06期
3 刘利;韦佳;马千里;;基于流形学习的图像检索研究进展[J];北京交通大学学报;2010年05期
4 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
5 ;A New Clustering Algorithm for Categorical Attributes[J];Journal of University of Science and Technology Beijing(English Edition);2000年04期
6 牛万红;潘晨;;基于NMF及其正交投影变换的数字水印算法[J];北京理工大学学报;2011年06期
7 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
8 李晓方;武仲科;樊亚春;周明全;柳勇光;;一种新的用于三维检索的快速邻域搜索方法[J];北京师范大学学报(自然科学版);2011年05期
9 宋殿霞;王艳;邹光辉;;空间数据挖掘聚类算法研究[J];滨州学院学报;2006年06期
10 刘志勇;冯国灿;王珏;;局部线性嵌入及其在人脸表情识别中的应用[J];江西师范大学学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前10条
1 翟素兰;罗斌;郭玉堂;;双向Boosting模糊聚类集成[A];第二十六届中国控制会议论文集[C];2007年
2 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
3 曾成;赵锡均;徐红;;基于量子遗传算法的聚类方法[A];第二十九届中国控制会议论文集[C];2010年
4 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
5 蒋全胜;贾民平;胡建中;许飞云;;一种基于流形学习的故障模式识别方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
6 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
7 傅向华;王志强;赵良辉;杜文峰;;基于拉普拉斯流形正则化的半监督图像检索[A];第四届和谐人机环境联合学术会议论文集[C];2008年
8 ;A Fuzzy Neural Network System Modeling Method Based on Data-driven[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
9 刘保政;汪定伟;;基于多因素的相近距离聚类方法研究[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
10 张立涛;张宇峰;;基于聚类分析的大型桥梁结构健康监测数据异常识别研究[A];第21届全国结构工程学术会议论文集第Ⅱ册[C];2012年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
3 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
4 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
5 宋军;水交换模型的理论方法及应用研究[D];中国海洋大学;2010年
6 徐红波;基于空间填充曲线高维空间查询算法研究[D];哈尔滨理工大学;2010年
7 尹可挺;Internet环境中基于QoS的Web服务组合研究[D];浙江大学;2010年
8 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
9 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
10 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 吴晓婷;基于流形学习的数据降维算法的研究[D];辽宁师范大学;2010年
3 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
4 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
5 丁金凤;基于网格与密度的数据流聚类算法研究[D];哈尔滨工程大学;2010年
6 孟庆海;基于社会书签的个性化查询词扩展技术研究[D];哈尔滨工程大学;2010年
7 张宇飞;加稀疏约束的非负矩阵分解[D];大连理工大学;2010年
8 刘萍;软件体系结构恢复的研究与实现[D];大连理工大学;2010年
9 李静伟;基于共享近邻的自适应谱聚类算法[D];大连理工大学;2010年
10 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前8条
1 王玲;薄列峰;焦李成;;密度敏感的谱聚类[J];电子学报;2007年08期
2 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 戴文华;焦翠珍;何婷婷;;基于并行遗传算法的K-means聚类研究[J];计算机科学;2008年06期
5 王玲;薄列峰;焦李成;;密度敏感的半监督谱聚类[J];软件学报;2007年10期
6 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
7 肖宇;于剑;;基于近邻传播算法的半监督聚类[J];软件学报;2008年11期
8 史小松;黄勇杰;刘永革;;数据挖掘技术中聚类的几种常用方法比较[J];中国科技信息;2009年20期
中国硕士学位论文全文数据库 前3条
1 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
2 高倩;基于模糊理论的谱聚类算法研究与应用[D];江南大学;2009年
3 徐元浩;基于潜在语义分析的专利文献分析与搜索技术的研究[D];浙江大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 黄钢石,张亚非,陆建江,徐宝文;一种受限非负矩阵分解方法[J];东南大学学报(自然科学版);2004年02期
2 陈卫刚,戚飞虎;可行方向算法与模拟退火结合的NMF特征提取方法[J];电子学报;2003年S1期
3 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
4 张振跃,查宏远;线性低秩逼近与非线性降维[J];中国科学(A辑:数学);2005年03期
5 张军平,王珏;主曲线研究综述[J];计算机学报;2003年02期
6 龙海侠;须文波;孙俊;;基于QPSO的数据聚类[J];计算机应用研究;2006年12期
7 ;Nonnegative matrix factorization and its applications in pattern recognition[J];Chinese Science Bulletin;2006年01期
8 唐伟,周志华;基于Bagging的选择性聚类集成[J];软件学报;2005年04期
9 杨剑,李伏欣,王珏;一种改进的局部切空间排列算法[J];软件学报;2005年09期
10 邸凯昌,李德仁,李德毅;从空间数据库发现聚类:一种基于数学形态学的算法[J];中国图象图形学报;1998年03期
【相似文献】
中国期刊全文数据库 前10条
1 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
2 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
3 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
4 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
5 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
6 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
7 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
9 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
10 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 赵方;谢友柏;柏子游;;油液分析多技术集成的特征描述与信息融合[A];第六届全国摩擦学学术会议论文集(上册)[C];1997年
6 岳瑞峰;刘理天;李志坚;;集成MOS力敏运放压力传感器的设计与研究[A];2000全国力学量传感器及测试、计量学术交流会论文集[C];2000年
7 吴泽兵;;石油钻头并行工程中仿真软件的集成[A];2001系统仿真技术及其应用学术会议论文集[C];2001年
8 王鹏程;王珂;朱宝泉;;注塑模CAD/CAM与CAE系统的集成[A];2000年冀晋蒙豫鲁鄂六省区机械工程学会学术研讨会论文集(内蒙古部分)[C];2000年
9 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 赵虎;李萍;于林丽;孟丽霞;濮育麒;居滋培;;过程控制集成实验系统[A];第七届青年学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 钱秀丽;今年全力以赴做好五项重点工作[N];中国海洋报;2010年
2 记者 朱夕子;商业规划师何雨生日本设计师小川浩史加盟集成[N];中国纺织报;2009年
3 安向琦 赵鲜娜;从“孤岛”走向集成[N];中国航空报;2010年
4 本报记者 宋斌斌;研发设计信息化:新时期工业企业创新的源泉[N];中国工业报;2009年
5 证券时报记者 黄婷;宝钢股份自主集成冷轧产线在梅钢投产[N];证券时报;2009年
6 见习记者 石俊;成飞集成缘何成为“第一妖股”[N];中华工商时报;2010年
7 本报记者 同黎娜;集成控股收购日本设计公司始末[N];中国服饰报;2009年
8 ;在MCU中集成模拟和安全技术[N];中国电子报;2009年
9 吴绵;以顾客为中心森歌巡检集成灶[N];中国质量报;2009年
10 本报记者 林铭铭;成飞集成暴涨:讲不完的“锂电”故事?[N];21世纪经济报道;2010年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026