收藏本站
《辽宁工程技术大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

改进的模糊C-均值算法在文本聚类中的应用研究

王月  
【摘要】:本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对数据清洗过程对稀有词过滤存在误去的情况,提出了对稀有词过滤的新方法。该过滤方法由于保证了文本特征项的完整性和精炼性,所以提高了文本聚类的效果。然后通过采用词频统计的方法对文本向量进行降维处理,从而得以选择最佳的能够反映文本本身类别特征的特征项,将文本集合表示成为向量空间模型。接下来将改进的模糊C-均值(SUB-FCM)算法应用到文本聚类中,解决了模糊C-均值(FCM)算法对初始值敏感而容易陷入局部最优的问题。经验证,SUB-FCM算法比传统FCM算法迭代次数降低、速度更快,获得的初始聚类中心较好;并且在中文文本聚类中,文本所设计的SUB-FCM文本聚类方法同传统FCM文本聚类方法相比较,无论是在类内部的聚合度还是类别间的相似度上都具有更好的效果。
【学位授予单位】:辽宁工程技术大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前9条
1 裴继红,范九伦,谢维信;聚类中心的初始化方法[J];电子科学学刊;1999年03期
2 朱克斌,唐菁,杨炳儒;Web文本挖掘系统及聚类分析算法[J];计算机工程;2004年13期
3 肖春景,张敏;基于减法聚类与模糊c-均值的模糊聚类的研究[J];计算机工程;2005年S1期
4 况夯;罗军;;基于遗传FCM算法的文本聚类[J];计算机应用;2009年02期
5 涂承胜,鲁明羽,陆玉昌;Web内容挖掘技术研究[J];计算机应用研究;2003年11期
6 王爱民;沈兰荪;赵忠旭;;监督FCM聚类算法及其在中医舌像自动分类中的应用[J];模式识别与人工智能;1999年04期
7 王立峰;林钢;林吾思;;模糊c-均值聚类法在干港选址中的应用[J];水运工程;2009年05期
8 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
9 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
中国博士学位论文全文数据库 前1条
1 殷瑞飞;数据挖掘中的聚类方法及其应用[D];厦门大学;2008年
中国硕士学位论文全文数据库 前2条
1 黄鑫;无指导学习下基于修正词频库的分词方法研究[D];重庆大学;2006年
2 郑晓亮;基于改进FCM算法的无字典中文文本聚类方法研究[D];浙江大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 华文立;胡学刚;;平衡决策树分类精度与规则简易性研究[J];安徽电子信息职业技术学院学报;2006年04期
2 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
3 李岚;胡学钢;;基于回归分析的COCOMO模型改进[J];安徽建筑工业学院学报(自然科学版);2010年06期
4 邱文教,潘晓卉;数据挖掘技术在教务管理中的应用[J];安徽工业大学学报(社会科学版);2005年03期
5 李优;;Web搜索结果组织与展示的一种机制[J];信息安全与技术;2011年06期
6 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
7 周锐;朱祖林;;基于成绩库的远程学习者流失预测决策树的应用研究[J];安庆师范学院学报(自然科学版);2009年02期
8 徐文权;;基于Symbian OS系统的垃圾短信过滤器设计与实现[J];安庆师范学院学报(自然科学版);2012年02期
9 季越江;吕佳;;基于聚类分析的客户细分研究[J];办公自动化;2009年08期
10 许子君;杜秋;栾超;;Apriori改进算法在军队院校干部考核中的应用[J];兵工自动化;2012年03期
中国重要会议论文全文数据库 前10条
1 魏立新;田学静;王洪瑞;宋阳;;基于改进型模糊聚类的模糊系统辨识方法[A];第二十七届中国控制会议论文集[C];2008年
2 王伟珍;刘春红;张漫;李民赞;刘刚;;基于BP神经网络的温室番茄光合作用速率预测模型研究[A];中国农业工程学会2011年学术年会论文集[C];2011年
3 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
4 刘佑荣;杨连生;康涛;刘林基;;运用模糊数学方法预测广西龟石水库蜈蚣岭滑坡活动趋势[A];中国地质学会工程地质专业委员会2007年学术年会暨“生态环境脆弱区工程地质”学术论坛论文集[C];2007年
5 张乃岳;张力;张学燕;;基于字段匹配的CRM数据挖掘算法与应用[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
6 马莉;章玲;;数据挖掘技术在图书馆领域的应用[A];新环境下图书馆建设与发展——第六届中国社区和乡镇图书馆发展战略研讨会征文集(下册)[C];2007年
7 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
8 谭嘉星;;网络信息挖掘在电子商务系统中的应用[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
9 郭云峰;张集祥;;一种基于位向量的关联规则挖掘算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 曹晖;司刚全;张彦斌;贾立新;;基于聚类分析的模糊控制算法在制粉系统中的应用[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
中国博士学位论文全文数据库 前10条
1 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
2 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
3 王俊杰;基于ArcGIS Server的震害风险管理系统研究[D];中国海洋大学;2010年
4 韩道;基于人体和小动物数据库的生理组M3L平台构建[D];华中科技大学;2010年
5 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
6 罗彬;基于MMOI方法的电信客户流失预测与挽留研究[D];电子科技大学;2010年
7 徐河杭;面向PLM的数据挖掘技术和应用研究[D];浙江大学;2010年
8 单玉红;基于土地生态位和多主体的城市居住空间演化情景模型研究[D];武汉大学;2009年
9 韩燕清;中药治疗多囊卵巢综合征文献数据库的建立及中药疗效的数据分析[D];北京中医药大学;2011年
10 于宏波;阳痿肾阳虚证症状规律及其转录组特征研究[D];成都中医药大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
2 刘建东;基于Web访问信息挖掘的数字图书馆个性化服务研究[D];浙江理工大学;2010年
3 吴正娟;特征变换在组合分类中的应用研究[D];郑州大学;2010年
4 琚长涛;一种带有聚类功能的边界检测算法的研究[D];郑州大学;2010年
5 王勇;一种面向隐私保护的分布式数据流挖掘算法[D];哈尔滨工程大学;2010年
6 徐艳红;基于倾斜时间窗口的频繁项集挖掘算法研究[D];哈尔滨工程大学;2010年
7 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
8 周东海;基于记账凭证的高校教育成本数据挖掘研究[D];哈尔滨工程大学;2010年
9 李丽;基于数据挖掘的用户缴费信用风险评估研究[D];哈尔滨工程大学;2010年
10 邹颖;聚类算法在图书馆馆际互借系统中的应用[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 王秀珍;模糊聚类分析法及其应用[J];长沙大学学报;1999年04期
2 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期
3 赵忠旭,王爱民,沈兰荪;舌像分析仪中彩色校正的研究[J];电子测量与仪器学报;1999年03期
4 白素琴,惠长坤,吴小俊,王士同;一种基于遗传算法的模糊聚类算法及其与FCM算法的结合[J];华东船舶工业学院学报(自然科学版);2001年06期
5 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
6 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
7 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
8 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
9 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
10 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
中国博士学位论文全文数据库 前1条
1 裴继红;基于模糊信息处理的图像分割方法研究[D];西安电子科技大学;1998年
中国硕士学位论文全文数据库 前1条
1 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 徐斌;张玉峰;;基于语义准则函数的中文评论性文本极性聚类算法研究[J];情报学报;2011年05期
2 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
3 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
4 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
5 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
6 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
7 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
8 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
9 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
10 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
4 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
中国重要报纸全文数据库 前10条
1 PALADIN;算法中的NP问题[N];电脑报;2003年
2 ;机器人激活算法和程序设计教学[N];中国电脑教育报;2004年
3 记者 侯建华;会计所算了经济账又算法律账[N];重庆商报;2001年
4 汪蔚;用算法改变世界[N];中国计算机报;2008年
5 PALADIN;算法演义[N];电脑报;2003年
6 南京 朱罕非;一种实用单片机多字节除法的算法[N];电子报;2004年
7 胡英;高安全行业应考虑SSL VPN算法[N];计算机世界;2007年
8 复旦大学国际政治系博士 沈逸;谷歌的权力与生意[N];东方早报;2010年
9 记者 雷敏 张旭东 刘铮;我国人均GDP仍在世界100位之后[N];新华每日电讯;2005年
10 格非;不以“饭量”算“房量”[N];中国房地产报;2005年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 陈远浩;非监督的结构学习及其应用[D];中国科学技术大学;2008年
6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
9 肖杰;基于频繁项集的文本聚类方法研究[D];中南大学;2009年
10 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026