收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于k-平均算法的文本聚类系统研究与实现

郑韫旸  
【摘要】: 随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效的获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。近年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本聚类技术得到了空前的发展,引起了人们普遍的关注。 文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。 本文以中文文本作为文本聚类的挖掘对象,并对中文文本聚类的全过程进行了研究,包括中文文本预处理、文本聚类,对文中所述方法进行了实验分析,并设计了一个系统,实现了文本聚类的功能。 本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。 其次,分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分,结合退一字回溯扫描的方法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用tfidf评估函数。 接着,针对中文文本的聚类,本文采用了基于k-平均算法的二次文本聚类方法:先对文本集采用k-平均算法进行聚类,其中,参数k的确定是通过计算在一定范围内,k取不同值的情况下,使全体样本点的平均轮廓系数最大化的k值实现的;而初始聚类中心的选择是通过基于样本密度的方法实现的。并且,通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果,若某个簇包含的样本个数大大超过其它簇的样本个数,则对该簇再次进行聚类。 最后,设计了一个文本聚类系统,测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
2 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
3 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
4 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
5 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
6 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
7 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
8 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
9 刘海峰;姚泽清;刘守生;;一种基于模糊加权的改进文本聚类方法[J];微电子学与计算机;2011年09期
10 卢志茂;徐森;刘远超;顾国昌;;使用“分裂-合并"策略改进文本聚类集成算法的研究[J];高技术通讯;2010年07期
11 刘晨晨;徐一新;;长尾理论视角下基于DCA的网络自助出版推荐系统[J];计算机系统应用;2011年07期
12 齐威;刘知一;王仝杰;;面向互联网视频的话题分析技术研究[J];广播与电视技术;2011年07期
13 杜芳芳;;数据挖掘技术在远程教学辅助系统中的应用研究[J];河南科技;2011年12期
14 吴夙慧;成颖;郑彦宁;潘云涛;;K-means算法研究综述[J];现代图书情报技术;2011年05期
15 丁明;熊才权;;群体研讨环境中面向主张的关联规则分析[J];计算机与数字工程;2011年06期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
9 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
10 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 郑韫旸;基于k-平均算法的文本聚类系统研究与实现[D];武汉理工大学;2008年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
7 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
8 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
9 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
10 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978