收藏本站
《安徽大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

改进的K均值算法在中文文本聚类中的研究

李梅  
【摘要】: 随着信息时代的到来,各种电子文本数据急剧增加,如何对庞杂的数据进行有效的管理并快速的获取需要的信息,已成为一项亟待解决的重要课题。文本聚类和文本分类作为一个有效的管理和组织文本的工具,受到了越来越多的重视和研究。 本文以中文文本聚类为研究对象,对中文文本聚类全过程进行了较为深入的研究,包括文本预处理,文本聚类。针对K均值算法(KM)和二分K均值算法(BKM)在聚类分析存在的不足,基于合作聚类思想,提出了一种改进的文本聚类算法:合作二分K均值算法(CBKM)。 本文主要的工作和取得的成果如下: (1)对当前主要的文本聚类方法及代表性算法进行了深入分析和研究,指出了各种代表性算法的优缺点及适用范围。 (2)对文本聚类中文本表示模型、文本间距离的度量和文本预处理等关键技术问题进行了较为深入的探讨。 (3)K均值算法(KM),其聚类效果由于受初始聚类中心的影响,k值选择难以有统一标准,且初始聚类中心的选择会对聚类产生较大影响,孤立点的存在造成很难找到全局最优解。而二分K均值算法(BKM),其在聚类过程中产生的成员碎片难以通过其他方法来进行重新聚类。针对KM算法和BKM算法在聚类中存在的缺陷,作者基于合作聚类的思想,提出了一种合作二分K均值算法(CBKM)。该算法主要分为整体聚类、合作聚类和融合三个阶段。该算法是在BKM产生CF树的过程中与通过KM进行同步的中间合作来实现的。通过引入相似柱状图的概念,其能够直观的反应簇之间元素的粘合性。并根据子类相似的相似柱状图计算出两个子类的融合因子,将融合因子值最大的两个簇进行融合,更新聚类簇。此过程产生的聚类结果能够有效的避免聚类碎片的产生,并且由于是对子类的交集进行合并聚类,所以有效的改善了K均值算法受初始聚类中心影响,该算法得到的是全局最有解,而不是局部最优解。 (4) CBKM算法是建立在KM算法和BKM算法的融合基础上,从性能上来看,CBKM算法的时间复杂度高于KM算法和BKM算法,但低于两者的和。 (5)基于搜狗语料库,分别对KM算法、BKM算法和CBKM算法进行中文文本聚类实验。结果表明:在互信息、纯度、F度量这三个度量标准上,CBKM算法均高于其他两个算法;而在熵值这个度量标准上,CBKM算法明显低于其他两个算法。因此,CBKM的聚类性能优于BKM和KM算法。
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 刘金岭;宋连友;范玉虹;;基于语义信息的中文短信文本相似度研究[J];计算机工程;2012年13期
中国硕士学位论文全文数据库 前2条
1 甄晓敏;改进K均值算法在数据挖掘中的研究应用[D];河北工业大学;2011年
2 米也塞·艾尼玩;基于Python的维吾尔文文本聚类系统设计与实现[D];新疆大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
2 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
3 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
4 张启宇;朱玲;孙爱娥;;文本相似度的计算[J];电脑知识与技术;2008年34期
5 朱林;王士同;潘永惠;韩斌;;K平面聚类算法的模糊改进及其鲁棒性研究[J];电子与信息学报;2008年08期
6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
7 韦鲁玉;丁华福;;基于Agent的个性化智能信息检索系统[J];信息技术;2007年01期
8 王伟强;高文;段立娟;;Internet上的文本数据挖掘[J];计算机科学;2000年04期
9 郭庆琳;李艳梅;唐琦;;基于VSM的文本相似度计算的研究[J];计算机应用研究;2008年11期
10 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
中国硕士学位论文全文数据库 前3条
1 韦鲁玉;基于Agent的个性化智能信息检索系统[D];哈尔滨理工大学;2007年
2 曾路平;基于相似度的文本聚类算法研究及应用[D];江苏大学;2009年
3 张宇;WEB中文文本聚类分类系统的设计与实现[D];西南交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
3 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
4 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
5 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
6 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
7 卢宏建;高永涛;吴顺川;潘贵豪;;石人沟铁矿露天转地下开采生产规模优化[J];北京科技大学学报;2008年09期
8 李侃,刘玉树;Mercer Kernel Based Fuzzy Clustering Self-Adaptive Algorithm[J];Journal of Beijing Institute of Technology(English Edition);2004年04期
9 宋伟,王举成,马根峰,赵济林;Internet数据挖掘原理及实现[J];重庆邮电学院学报(自然科学版);2001年02期
10 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
5 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
6 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 孙丽华;肖诗斌;施水才;;基于向量空间模型的规则分类技术[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
4 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
5 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
6 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
7 刘秀海;高速滚动轴承动力学分析模型与保持架动态性能研究[D];大连理工大学;2011年
8 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
9 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年
10 李宝红;对应分析方法及其在肿瘤学中的应用研究[D];中南大学;2011年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
3 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
4 刘振广;一种改进的k_means聚类算法研究[D];哈尔滨工程大学;2010年
5 孙丽萍;流形学习算法ISOMAP的改进与实现[D];大连理工大学;2010年
6 刘晨;XML文档聚类的研究[D];大连理工大学;2010年
7 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
8 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
9 李贤;混合属性聚类算法研究[D];长沙理工大学;2010年
10 陈凤萍;寿光人才求职招聘网站中资源检索算法的研究[D];中国海洋大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 王俊鑫;王俊洁;孙英;;K-Means聚类算法在毕业生就业信息分析中的实现[J];楚雄师范学院学报;2009年09期
3 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
4 赵恒,杨万海;一种基于调和均值的模糊聚类算法[J];电路与系统学报;2004年05期
5 王智;;改进K-means算法在职高试卷成绩分析中的应用[J];电脑知识与技术;2010年18期
6 杨昕;彭玉青;;结合蚂蚁算法的K-Means聚类分析[J];河北工业大学学报;2007年03期
7 黄浩;肖立志;张国毅;孙强;;基于模拟退火的K-means算法研究[J];舰船电子对抗;2008年06期
8 冯征;;一种基于粗糙集的K-Means聚类算法[J];计算机工程与应用;2006年20期
9 刘艳丽;刘希云;;一种基于密度的K-均值算法[J];计算机工程与应用;2007年32期
10 范小丽;刘晓霞;;文本分类中互信息特征选择方法的研究[J];计算机工程与应用;2010年34期
中国硕士学位论文全文数据库 前10条
1 涂进;基于模拟退火算法的聚类分析在数据挖掘中的应用[D];重庆大学;2003年
2 郭军华;数据挖掘中聚类分析的研究[D];武汉理工大学;2003年
3 邓晓梅;基于数据挖掘的电信客户细分模型研究[D];大连理工大学;2006年
4 张建辉;K-means聚类算法研究及应用[D];武汉理工大学;2007年
5 韦鲁玉;基于Agent的个性化智能信息检索系统[D];哈尔滨理工大学;2007年
6 方天宇;数据挖掘技术在医院信息系统中的应用[D];哈尔滨工程大学;2007年
7 冯超;K-means聚类算法的研究[D];大连理工大学;2007年
8 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
9 彭丽;数据挖掘中几种划分聚类算法的比较及改进[D];大连理工大学;2008年
10 严勇;数据挖掘中聚类分析算法研究与应用[D];电子科技大学;2007年
【二级引证文献】
中国期刊全文数据库 前1条
1 刘金岭;王新功;;基于中文短信文本聚类的热点事件发现[J];情报杂志;2013年02期
中国硕士学位论文全文数据库 前1条
1 祖丽湖玛尔·马木提江;维吾尔语区分性关键词提取算法研究及其性能分析[D];新疆大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
2 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
3 陈红英,李卫华,刘树勋;智能信息过滤Agent的设计与实现技术[J];广东工业大学学报;2001年03期
4 冯长远,普杰信;一种基于分布式Agent的信息检索模型[J];信息技术;2004年03期
5 王小华,张国煊,陆蓓;文本分类系统的评价因素探讨[J];杭州电子工业学院学报;2002年03期
6 曾次玲,张步涵,谢培元;基于自组织映射神经网络的市场清算电价预测[J];继电器;2005年13期
7 汪晓岩,胡庆生,李斌,庄镇泉;面向Internet的个性化智能信息检索[J];计算机研究与发展;1999年09期
8 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
9 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
10 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
中国博士学位论文全文数据库 前3条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前7条
1 刘树勋;Internet智能搜索Agent研究与实现[D];广东工业大学;2000年
2 韩晓征;基于分布式控制系统的MAS中若干问题研究[D];合肥工业大学;2002年
3 程静;基于Agent和Web挖掘的个性化用户模型研究[D];西南师范大学;2002年
4 汤妹军;基于Agent的信息检索系统的若干问题研究[D];合肥工业大学;2003年
5 盛秋艳;基于Agent的个性化信息检索技术的研究[D];哈尔滨工程大学;2003年
6 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
7 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 谭营军;李翠霞;;加权模糊C均值文本聚类算法研究及仿真[J];计算机仿真;2011年05期
2 杨鑫华;于宽;;基于密度半径自适应选择的K-均值聚类算法[J];大连交通大学学报;2007年01期
3 高劲松;张俊丽;;基于粒子群的模糊C均值文本聚类算法研究[J];图书情报工作;2010年06期
4 冯燕;王洪元;程起才;刘爱萍;;基于LLE-k均值方法的中文文本聚类[J];计算机与数字工程;2010年11期
5 郑吉;;粗糙谱聚类在文本挖掘中的应用[J];电脑知识与技术;2009年07期
6 杜长海;吉根林;;基于微粒群优化算法的文本模糊聚类方法[J];南京师范大学学报(工程技术版);2006年02期
7 尉建兴;崔冬华;宁晓青;;蛙跳算法在Web文本聚类技术中的应用[J];电脑开发与应用;2011年05期
8 修宇;王士同;朱林;宗成庆;;极大熵球面K均值文本聚类分析[J];计算机科学与探索;2007年03期
9 徐森;卢志茂;顾国昌;;解决文本聚类集成问题的两个谱算法[J];自动化学报;2009年07期
10 王胜利;王科欣;;ISOMAP在中文文本聚类分析中的应用[J];微型电脑应用;2009年08期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
4 季铎;蔡东风;郑伟;于水;;基于相似序列的增量式K均值聚类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
7 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 韩敏;范剑超;;基于半监督改进模糊C均值算法的遥感聚类研究[A];第二十七届中国控制会议论文集[C];2008年
9 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 杨保峰;沈越泓;;模拟信源标量量化的模糊c-均值算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
6 王纵虎;聚类分析优化关键技术研究[D];西安电子科技大学;2012年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
9 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 上衍猛;基于模糊C均值算法在文本聚类中的研究与实现[D];东华大学;2013年
7 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
8 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
9 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
10 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026