收藏本站
《哈尔滨工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

文本聚类集成关键技术研究

徐森  
【摘要】:聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、信息检索、语音识别、字符识别、图像分割和文本聚类等。另外,在生物学、地质学、地理学、市场营销和异常数据检测等方面也受到越来越多的关注。目前,已有上千种聚类算法,然而没有一种算法可以成功识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。文本数据具有高维、稀疏等特点,这使得许多聚类算法并不适用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。作为传统聚类算法的重要扩展,聚类集成技术具备了传统聚类算法所不具备的诸多优点。目前,聚类集成已经发展成为机器学习领域的研究热点之一。本文以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括: (1)鉴于谱聚类方法的诸多优点,本文将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本文基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。实验结果表明:本文的代数变换方法是切实可行的,代数变换前后算法的运行时间大幅度减少,而且获得的结果非常接近;SMSA和TMSA比基于图划分的聚类集成算法更优越,是解决文本聚类集成问题行之有效的方法。 (2)本文研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明:SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本文进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。实验结果表明,该方法比其它常见的基于图划分的聚类集成方法优越,可以有效解决文本聚类集成问题。 (3)本文将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本文使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本文使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。实验结果表明:使用K均值算法初始化NMF是有效的,NMFK获得了比BNMF算法更加优越、稳定的结果,且运行效率也比BNMF高出许多;NMFKMMP算法可以有效解决文本聚类集成问题,NMFKMMP算法运行高效,并且获得了比其它常见的聚类集成算法更加优越的结果。 (4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本文在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本文设计的聚类集成算法进行集成。实验结果显示,除了基于图划分的聚类集成算法外,基于层次聚类方法的4个聚类集成算法以及本文设计的基于谱聚类方法、基于低维嵌入方法和基于非负矩阵分解方法的多个文本聚类集成算法在使用DM策略后获得的平均规范化互信息(NMI)都有不同程度的提高,这表明DM策略可以有效提高聚类集成算法的聚类质量。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
2 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
3 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
4 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
5 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
6 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
7 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
9 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
10 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
11 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
12 张刚;周昭涛;王斌;;基于主题的分布式信息检索技术研究[J];计算机工程;2006年12期
13 曲皎;李白桦;;基于KL准则层次文本聚类[J];辽宁师范大学学报(自然科学版);2008年01期
14 覃晓;元昌安;;基于遗传算法和自组织特征映射网络的文本聚类方法[J];计算机应用;2008年03期
15 李华云;;基于潜在语义分析的中文文本聚类方法研究[J];科技情报开发与经济;2008年27期
16 叶阳东;张洁;刘东;;一种优化的顺序IB文本聚类算法[J];模式识别与人工智能;2008年03期
17 张骏;郭慧;;基于文件指纹的Web文本挖掘[J];计算机与信息技术;2009年05期
18 李燕;张月国;李生红;;基于蚁群算法的文本分类和聚类[J];信息安全与通信保密;2009年10期
19 赵春艳;;网络检索中的数据挖掘技术理论与应用[J];情报探索;2006年01期
20 郝占刚;王正欧;;基于混沌社会演化算法的文本聚类新方法[J];系统工程学报;2007年01期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 赵方;谢友柏;柏子游;;油液分析多技术集成的特征描述与信息融合[A];第六届全国摩擦学学术会议论文集(上册)[C];1997年
6 岳瑞峰;刘理天;李志坚;;集成MOS力敏运放压力传感器的设计与研究[A];2000全国力学量传感器及测试、计量学术交流会论文集[C];2000年
7 吴泽兵;;石油钻头并行工程中仿真软件的集成[A];2001系统仿真技术及其应用学术会议论文集[C];2001年
8 王鹏程;王珂;朱宝泉;;注塑模CAD/CAM与CAE系统的集成[A];2000年冀晋蒙豫鲁鄂六省区机械工程学会学术研讨会论文集(内蒙古部分)[C];2000年
9 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 赵虎;李萍;于林丽;孟丽霞;濮育麒;居滋培;;过程控制集成实验系统[A];第七届青年学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 记者 钱秀丽;今年全力以赴做好五项重点工作[N];中国海洋报;2010年
2 记者 朱夕子;商业规划师何雨生日本设计师小川浩史加盟集成[N];中国纺织报;2009年
3 安向琦 赵鲜娜;从“孤岛”走向集成[N];中国航空报;2010年
4 本报记者 宋斌斌;研发设计信息化:新时期工业企业创新的源泉[N];中国工业报;2009年
5 证券时报记者 黄婷;宝钢股份自主集成冷轧产线在梅钢投产[N];证券时报;2009年
6 见习记者 石俊;成飞集成缘何成为“第一妖股”[N];中华工商时报;2010年
7 本报记者 同黎娜;集成控股收购日本设计公司始末[N];中国服饰报;2009年
8 ;在MCU中集成模拟和安全技术[N];中国电子报;2009年
9 吴绵;以顾客为中心森歌巡检集成灶[N];中国质量报;2009年
10 本报记者 林铭铭;成飞集成暴涨:讲不完的“锂电”故事?[N];21世纪经济报道;2010年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978