收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

改进的K均值算法在中文文本聚类中的研究

李梅  
【摘要】: 随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文本聚类和文本分类作为一个有效的管理和组织文本的工具,受到了越来越多的重视和研究。 本文以中文文本聚类为研究对象,对中文文本聚类全过程进行了较为深入的研究,包括文本预处理,文本聚类。针对K均值算法(KM)和二分K均值算法(BKM)在聚类分析存在的不足,基于合作聚类思想,提出了一种改进的文本聚类算法:合作二分K均值算法(CBKM)。 本文主要的工作和取得的成果如下: (1)对当前主要的文本聚类方法及代表性算法进行了深入分析和研究,指出了各种代表性算法的优缺点及适用范围。 (2)对文本聚类中文本表示模型、文本间距离的度量和文本预处理等关键技术问题进行了较为深入的探讨。 (3)K均值算法(KM),其聚类效果由于受初始聚类中心的影响,k值选择难以有统一标准,且初始聚类中心的选择会对聚类产生较大影响,孤立点的存在造成很难找到全局最优解。而二分K均值算法(BKM),其在聚类过程中产生的成员碎片难以通过其他方法来进行重新聚类。针对KM算法和BKM算法在聚类中存在的缺陷,作者基于合作聚类的思想,提出了一种合作二分K均值算法(CBKM)。该算法主要分为整体聚类、合作聚类和融合三个阶段。该算法是在BKM产生CF树的过程中与通过KM进行同步的中间合作来实现的。通过引入相似柱状图的概念,其能够直观的反应簇之间元素的粘合性。并根据子类相似的相似柱状图计算出两个子类的融合因子,将融合因子值最大的两个簇进行融合,更新聚类簇。此过程产生的聚类结果能够有效的避免聚类碎片的产生,并且由于是对子类的交集进行合并聚类,所以有效的改善了K均值算法受初始聚类中心影响,该算法得到的是全局最有解,而不是局部最优解。 (4) CBKM算法是建立在KM算法和BKM算法的融合基础上,从性能上来看,CBKM算法的时间复杂度高于KM算法和BKM算法,但低于两者的和。 (5)基于搜狗语料库,分别对KM算法、BKM算法和CBKM算法进行中文文本聚类实验。结果表明:在互信息、纯度、F度量这三个度量标准上,CBKM算法均高于其他两个算法;而在熵值这个度量标准上,CBKM算法明显低于其他两个算法。因此,CBKM的聚类性能优于BKM和KM算法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 谭营军;李翠霞;;加权模糊C均值文本聚类算法研究及仿真[J];计算机仿真;2011年05期
2 杨鑫华;于宽;;基于密度半径自适应选择的K-均值聚类算法[J];大连交通大学学报;2007年01期
3 高劲松;张俊丽;;基于粒子群的模糊C均值文本聚类算法研究[J];图书情报工作;2010年06期
4 冯燕;王洪元;程起才;刘爱萍;;基于LLE-k均值方法的中文文本聚类[J];计算机与数字工程;2010年11期
5 郑吉;;粗糙谱聚类在文本挖掘中的应用[J];电脑知识与技术;2009年07期
6 杜长海;吉根林;;基于微粒群优化算法的文本模糊聚类方法[J];南京师范大学学报(工程技术版);2006年02期
7 尉建兴;崔冬华;宁晓青;;蛙跳算法在Web文本聚类技术中的应用[J];电脑开发与应用;2011年05期
8 修宇;王士同;朱林;宗成庆;;极大熵球面K均值文本聚类分析[J];计算机科学与探索;2007年03期
9 徐森;卢志茂;顾国昌;;解决文本聚类集成问题的两个谱算法[J];自动化学报;2009年07期
10 王胜利;王科欣;;ISOMAP在中文文本聚类分析中的应用[J];微型电脑应用;2009年08期
11 袁赟;张英杰;;基于投影聚类算法的Web文本挖掘证券投资系统[J];邵阳学院学报(自然科学版);2009年04期
12 焦慧;刘迁;王玉英;贾惠波;;优化初始值的K均值中文文本聚类[J];微计算机信息;2009年21期
13 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
14 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
15 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
16 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
17 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
18 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
19 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
20 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
4 季铎;蔡东风;郑伟;于水;;基于相似序列的增量式K均值聚类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
7 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 韩敏;范剑超;;基于半监督改进模糊C均值算法的遥感聚类研究[A];第二十七届中国控制会议论文集[C];2008年
9 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 杨保峰;沈越泓;;模拟信源标量量化的模糊c-均值算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
6 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
9 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 上衍猛;基于模糊C均值算法在文本聚类中的研究与实现[D];东华大学;2013年
7 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
10 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978