收藏本站
《河南工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于蚁群优化的模糊文本聚类算法研究

王飞  
【摘要】: 随着信息存储技术和通信技术的迅猛发展,人们面临的信息数据呈现爆炸式的增长。人们常常为了发现某些感兴趣的信息,需要对海量的文本进行聚类,从而得到自己所需要的信息。文本聚类是文本挖掘的一个重要的组成部分,旨在于根据某些相似性规则自动的将文本划分为多个相关联的类别,达到实现类间高耦合度、类内的高聚集度。如何利用计算机实现文本的聚类已经成为一个有重要价值的研究课题,并且有着广泛的应用前景。 文本本身的特点是存在二义性、多义性;并且在转换成计算机能够处理的向量模式时可能会形成高维的向量。由于模糊文本聚类(FCM)算法有助于解决文本的词义模糊问题,并且在复杂度上也是线性的。因此,模糊文本聚类是现在文本聚类中的一个重点和热点。 本文基于集群智能算法中的蚁群算法,研究模糊文本聚类算法的缺点的改进方法。主要工作包括以下: (1)对现有的文本聚类算法进行了分析,在对比了多种文本聚类算法的优缺点,在此的基础上提出了一种利用蚁群集群优化聚类算法找到聚类初始中心点的新方法。 (2)通过深入的研究和分析蚁群算法,发现模糊聚类也可有助于解决蚁群优化聚类克服运算非线性等问题。而蚁群聚类可以帮助模糊聚类解决初始中心点敏感问题,进而提出了蚁群优化和模糊聚类的集成方法,以实现二者的优势互补,克服相互存在的不足。 (3)对于聚类中的文本分词过程,提出一种基于熵值计算的文本清洗的算法。 (4)使用通用的中英文文本集合,在windows编程环境下采用vs.net编程工具对本文提出的基于蚁群优化的模糊文本聚类算法进行了实验,实验结果证明了所提出方法的有效性。
【学位授予单位】:河南工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 崔小乐;程伟;李崇仁;;一种峰值功耗约束下的SoC蚁群测试调度算法[J];微电子学与计算机;2011年07期
2 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
3 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
4 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
5 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
6 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
7 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
8 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
9 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
10 金保华;张亮;和振远;;基于最大最小蚂蚁系统的一种应急物流路径规划方法[J];中原工学院学报;2011年02期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 孙灵芳;李纪昌;赵雪;;基于蚁群优化的锅炉汽包水位预测控制[A];第二十九届中国控制会议论文集[C];2010年
3 彭辉;;基于蚁群优化技术的车辆路径问题研究[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
4 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 姜万录;刘伟;张瑞娟;陈海军;;基于蚁群优化的神经网络智能PID控制策略研究[A];中国机械工程学会流体传动与控制分会第六届全国流体传动与控制学术会议论文集[C];2010年
7 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
8 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 唐旭东;庞永杰;李晔;秦再白;;基于蚁群优化的水下机器人FNN控制方法[A];第二十七届中国控制会议论文集[C];2008年
10 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前6条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
3 顿然;电脑计算“学蚂蚁”[N];中国商报;2000年
4 王艳红;蚂蚁教我们新的电脑计算方法[N];云南经济日报;2000年
5 ;蚂蚁激发电脑专家新灵感[N];中国计算机报;2000年
6 王晓舟;航空学会评出29项科学技术奖[N];中国航空报;2009年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 陈祥国;卫星数传调度的蚁群优化模型及算法研究[D];国防科学技术大学;2010年
4 胡小兵;蚁群优化原理、理论及其应用研究[D];重庆大学;2004年
5 王笑蓉;蚁群优化的理论模型及在生产调度中的应用研究[D];浙江大学;2003年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 郑相全;基于负载均衡的无线自组网关键技术与算法研究[D];电子科技大学;2005年
8 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
9 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
10 徐俊杰;元启发式优化算法理论与应用研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026