收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

改进的模糊C-均值算法在文本聚类中的应用研究

王月  
【摘要】:本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对数据清洗过程对稀有词过滤存在误去的情况,提出了对稀有词过滤的新方法。该过滤方法由于保证了文本特征项的完整性和精炼性,所以提高了文本聚类的效果。然后通过采用词频统计的方法对文本向量进行降维处理,从而得以选择最佳的能够反映文本本身类别特征的特征项,将文本集合表示成为向量空间模型。接下来将改进的模糊C-均值(SUB-FCM)算法应用到文本聚类中,解决了模糊C-均值(FCM)算法对初始值敏感而容易陷入局部最优的问题。经验证,SUB-FCM算法比传统FCM算法迭代次数降低、速度更快,获得的初始聚类中心较好;并且在中文文本聚类中,文本所设计的SUB-FCM文本聚类方法同传统FCM文本聚类方法相比较,无论是在类内部的聚合度还是类别间的相似度上都具有更好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 徐斌;张玉峰;;基于语义准则函数的中文评论性文本极性聚类算法研究[J];情报学报;2011年05期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
4 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
5 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
6 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
7 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
8 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
9 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
10 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
11 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
12 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
13 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
14 张刚;周昭涛;王斌;;基于主题的分布式信息检索技术研究[J];计算机工程;2006年12期
15 曲皎;李白桦;;基于KL准则层次文本聚类[J];辽宁师范大学学报(自然科学版);2008年01期
16 覃晓;元昌安;;基于遗传算法和自组织特征映射网络的文本聚类方法[J];计算机应用;2008年03期
17 李华云;;基于潜在语义分析的中文文本聚类方法研究[J];科技情报开发与经济;2008年27期
18 叶阳东;张洁;刘东;;一种优化的顺序IB文本聚类算法[J];模式识别与人工智能;2008年03期
19 李燕;张月国;李生红;;基于蚁群算法的文本分类和聚类[J];信息安全与通信保密;2009年10期
20 肖湘萍;高玉斌;;Web文本挖掘[J];电脑知识与技术(学术交流);2007年09期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
4 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年
6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
9 肖杰;基于频繁项集的文本聚类方法研究[D];中南大学;2009年
10 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
中国重要报纸全文数据库 前10条
1 PALADIN;算法中的NP问题[N];电脑报;2003年
2 ;机器人激活算法和程序设计教学[N];中国电脑教育报;2004年
3 记者 侯建华;会计所算了经济账又算法律账[N];重庆商报;2001年
4 汪蔚;用算法改变世界[N];中国计算机报;2008年
5 PALADIN;算法演义[N];电脑报;2003年
6 南京 朱罕非;一种实用单片机多字节除法的算法[N];电子报;2004年
7 胡英;高安全行业应考虑SSL VPN算法[N];计算机世界;2007年
8 复旦大学国际政治系博士 沈逸;谷歌的权力与生意[N];东方早报;2010年
9 记者 雷敏 张旭东 刘铮;我国人均GDP仍在世界100位之后[N];新华每日电讯;2005年
10 格非;不以“饭量”算“房量”[N];中国房地产报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978