收藏本站
《杭州电子科技大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于蚁群算法的中文文本聚类研究

沈杰  
【摘要】:在互联网中,以新闻、电子书以及其它形式存在的信息正在高速增长,如何有效地运用海量信息成为人们目前面临的一个关键问题。为了梳理各种杂乱的信息,有监督的分类方法被用于大规模文档分类,但此类方法都有一个内在的缺点,即需要大量的人工干预才能获得比较好的分类结果。为了解决人工干预问题,本文重点研究在文本数据挖掘中引入无监督的大规模文本聚类方法。 首先,本文对文本聚类技术的现状和发展进行了简要的回顾。文中分别对文本信息预处理的相关技术和文本聚类算法作了分析。文本信息预处理主要包括文本分词、文本特征提取和文本相似度计算等部分。文本聚类算法部分主要介绍了目前已有的各种聚类算法并对其进行比较分析,包括K-means聚类算法、凝聚层次聚类算法、基于密度的聚类算法、基于遗传算法的聚类算法和基于蚁群的聚类算法等。本文根据文本聚类算法的特殊性,在快速分词的方法中,采用分级词库的处理方法;在文本信息存储处理中,采用压缩处理的方法。 然后,本文着重研究了基于蚁群算法的文本聚类算法。在改进蚁群算法的同时,将凝聚聚类算法融入蚁群算法框架,进一步提高聚类的速度。在分析蚁群算法在文本聚类中的优缺点基础上,针对蚁群算法放置物体时的分散状况,采用了紧凑算法;针对蚁群对选择物体的随机性问题,提出了基于评估函数的拾起物体算法;针对蚁群算法的终止条件难以估计和不准确的问题,提出了根据用户输入的预期类数和类内、类间距离相结合的判别方法;针对蚁群算法在引入随机计算时的复杂度问题,将放置物体的阈值参数修改为动态可变参数。在分析蚁群算法的框架基础上,利用凝聚聚类算法速度快的特点,融合凝聚聚类算法到蚁群算法,改进了蚁群算法收敛速度慢的问题。 最后,分别使用标准数据集和两个真实语料库对本文提出的基于蚁群和凝聚的混合聚类算法进行了实验,并对测试结果进行了比较和分析,采用基于外部度量的总F-measure方法和聚类时间对聚类结果进行评价。实验结果表明,本文提出的混合聚类算法对于处理大规模文本聚类问题具有较明显的优势。
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
2 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期
3 王国勇,徐建锁;TCBLSA:一种中文文本聚类新方法[J];计算机工程;2004年05期
4 吴斌,郑毅,傅伟鹏,史忠植;一种基于群体智能的客户行为分析算法[J];计算机学报;2003年08期
5 荣秋生,颜君彪,郭国强;基于DBSCAN聚类算法的研究与实现[J];计算机应用;2004年04期
6 任江涛;孙婧昊;施潇潇;黄焕宇;印鉴;;一种用于文本聚类的改进的K均值算法[J];计算机应用;2006年S1期
7 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
8 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
9 郝占刚;王正欧;;基于潜在语义索引和遗传算法的文本特征提取方法[J];情报科学;2006年01期
10 王建会,申展,胡运发;一种实用高效的聚类算法[J];软件学报;2004年05期
中国博士学位论文全文数据库 前1条
1 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
【共引文献】
中国期刊全文数据库 前10条
1 郇正军;赵国富;;基于土地利用的空间数据挖掘系统的设计与实现[J];安徽农业科学;2011年07期
2 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
3 李玉鑑;;基于最小树切割的自适应聚类方法[J];北京工业大学学报;2007年03期
4 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
5 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
6 卢宏建;高永涛;吴顺川;潘贵豪;;石人沟铁矿露天转地下开采生产规模优化[J];北京科技大学学报;2008年09期
7 陈云飞,刘玉树,钱越英,赵基海;一种基于密度的启发性群体智能聚类算法[J];北京理工大学学报;2005年01期
8 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
9 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
10 李侃,刘玉树;Mercer Kernel Based Fuzzy Clustering Self-Adaptive Algorithm[J];Journal of Beijing Institute of Technology(English Edition);2004年04期
中国重要会议论文全文数据库 前10条
1 ;Incremental Clustering for Categorical Data Using Clustering Ensemble[A];第二十九届中国控制会议论文集[C];2010年
2 杨晓霞;朱庆;李海峰;;知识导航的遥感信息处理服务分类选择方法[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
3 刘启亮;邓敏;彭东亮;徐震;;基于场论的空间聚类有效性评价方法研究[A];2009`中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[C];2009年
4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
8 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
9 石艳荣;孙丹宁;贺永强;;一种基于内容的邮件过滤模型的研究与性能分析[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
10 张璐;王景中;;基于HNC语境框架的文本相似度计算[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
2 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
3 李晋江;海量数据点三维重构中一类关键问题研究[D];山东大学;2010年
4 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
5 苏晓珂;基于聚类的异常挖掘算法研究[D];东华大学;2010年
6 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
7 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
8 沈巍;建立股指波动预测模型的方法研究及应用[D];华北电力大学(北京);2011年
9 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
10 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 牛玲玲;一种层次聚类的簇确认方法研究[D];郑州大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
6 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年
7 孙丽萍;流形学习算法ISOMAP的改进与实现[D];大连理工大学;2010年
8 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
9 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
10 刘琼;基于群体智能的聚类算法研究[D];长沙理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 张素兵,吕国英,刘泽民,周正;基于蚂蚁算法的QoS路由调度方法[J];电路与系统学报;2000年01期
2 吴志峰,田学东;人名、机构名在基于概念的文本分类中的应用研究[J];河北大学学报(自然科学版);2004年06期
3 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
4 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
5 吴庆洪,张纪会,徐心和;具有变异特征的蚁群算法[J];计算机研究与发展;1999年10期
6 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
7 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
8 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
9 刘勇国,李学明,张伟,彭军,廖晓峰,吴中福;基于遗传算法的特征子集选择[J];计算机工程;2003年06期
10 盖杰,王怡,武港山;基于潜在语义分析的信息检索[J];计算机工程;2004年02期
中国硕士学位论文全文数据库 前2条
1 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
2 关晓蔷;基于决策树的分类算法研究[D];山西大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 郑吉;;粗糙谱聚类在文本挖掘中的应用[J];电脑知识与技术;2009年07期
2 赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期
3 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
4 王伟;;文本自动聚类技术研究[J];情报杂志;2009年02期
5 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
6 刘泉凤;;ACTC:一种基于改进的蚁群算法的中文文本聚类算法[J];图书情报工作;2009年09期
7 张义军;刘泉凤;;DKTC:一种中文文本聚类方法[J];图书情报工作;2009年01期
8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
9 李伟;黄颖;;文本聚类算法的比较[J];科技情报开发与经济;2006年22期
10 谭营军;李翠霞;;加权模糊C均值文本聚类算法研究及仿真[J];计算机仿真;2011年05期
中国重要会议论文全文数据库 前10条
1 季铎;蔡东风;郑伟;于水;;基于相似序列的增量式K均值聚类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
5 曾依灵;许洪波;吴高巍;程学旗;白硕;;一种基于空间映射及尺度变换的聚类框架[A];第五届全国信息检索学术会议论文集[C];2009年
6 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
7 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 章成志;;基于机器学习的文本聚类描述算法研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 张国英;周俊武;沙芸;;基于约束惩罚的群体智能聚类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前5条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
3 ;视频数据中挖“宝”[N];计算机世界;2002年
4 本报记者 赵凤华 通讯员 戴世勇 陶春明;本科生登上全国学术会议讲坛[N];科技日报;2008年
5 本报记者 于翔;多元管理防范金融风险[N];网络世界;2010年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
4 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
4 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
5 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
6 孙爽;基于语义相似度的文本聚类算法的研究[D];南京航空航天大学;2007年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 李海峰;基于概念格的Web文本聚类过程模型研究[D];吉林大学;2010年
9 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026