收藏本站
《西南交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于自组织映射的文本聚类研究

侯泽民  
【摘要】:随着信息技术的发展,尤其是Internet在全世界的普及和应用,网络信息成为人们取之不尽的信息来源,人们所面临的要问题不再是信息匮乏,而是如何提高信息获取和信息访问的速率。数掘挖掘技术和知识发现技术便应运产生。文本挖掘是数据挖掘中最重要的研究领域之一,文本聚类是文本挖掘中的核心技术之一,近年来文本聚类的研究取得了长足的发展。 自组织映射网络是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。自组织映射聚类的基本思想是通过网络训练,把相似的输入映射到同 个输出结点上,从而实现对输入数据聚类。本文以自组织映射网络作为文本聚类的主要框架,研究探索相关算法的优点、面临的主要问题以及相应的解决方法。本文的主要目的是研究具有更高性能的文本聚类算法。论文的主要研究工作如下: 首先,文本预处理作为文本聚类最重要的基础,许多关键技术直接影响了文本聚类的最终结果。本文对文本聚类预处理中的关键技术:分词、特征提取和文本向量化作了比较系统深入的研究,这为后文的聚类实践打下了坚实的基础。 其次,针对传统SOM聚类算法需要提前确定聚类类别数目的问题,本文改进了一种基于最小最大原则的k-means文本聚类算法,用该算法来计算聚类类别数目。 再次,提出一种新的基于SOM的文本聚类算法,该算法首先用改进的k-means文本聚类算法来计算聚类类别数目,将此值作为SOM网络输出层神经元数目,然后执行SOM算法进行聚类。 最后,对新的文本聚类算法进行实验及分析。
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前8条
1 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
2 廖莎莎;江铭虎;;中文文本分类中基于概念屏蔽层的特征提取方法[J];中文信息学报;2006年03期
3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
4 张毓敏,谢康林;基于SOM算法实现的文本聚类[J];计算机工程;2004年01期
5 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
6 王建会,申展,胡运发;一种实用高效的聚类算法[J];软件学报;2004年05期
7 孙放,胡光锐,高军;SOM结合MLP的神经网络语音识别系统[J];数据采集与处理;1996年02期
8 杨燕,靳蕃,Mohamed Kamel;一种基于蚁群算法的聚类组合方法[J];铁道学报;2004年04期
中国博士学位论文全文数据库 前2条
1 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年
2 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前1条
1 翟静;可扩展的文本分类系统的核心API的设计与实现[D];四川大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 郭秀娟;数据挖掘方法综述[J];吉林建筑工程学院学报;2004年01期
2 高志明,关岩,于洪梅,吴秀红,李井会;人工神经网络在化学中的应用进展[J];鞍山钢铁学院学报;2000年03期
3 徐海兰;刘彦婷;杨磊;;模式识别中三种字符识别的方法[J];中国传媒大学学报(自然科学版);2005年04期
4 柴伟;孙先仿;;一种非线性系统集员辨识算法[J];北京航空航天大学学报;2005年11期
5 郑岩,黄荣怀,战晓苏,周春光;基于遗传算法的动态模糊聚类[J];北京邮电大学学报;2005年01期
6 盛建龙,赵建海;巷道围岩变形的神经网络模型[J];爆破;2005年01期
7 张雪松;郭平;;基于组合神经网络的软件可靠性预测研究[J];北京师范大学学报(自然科学版);2005年06期
8 林玎;刘伟;张治国;;自组织特征映射神经网络在厄尔尼诺事件检验中的应用[J];吉林大学学报(地球科学版);2006年04期
9 梁艳春,聂义勇;从科学研究方法论看人工神经网络研究的发展[J];吉林大学学报(信息科学版);2002年01期
10 王琪;陈宇峰;;基于人工神经网络的交通事件检测[J];成都电子机械高等专科学校学报;2006年02期
中国重要会议论文全文数据库 前10条
1 王海荣;;石油化工企业的静电火灾隐患评估[A];节能环保 和谐发展——2007中国科协年会论文集(四)[C];2007年
2 鲁俐;;高校档案管理工作中的一种决策树分类算法研究[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
3 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
4 ZHANG Xiangsun;LI Zhenping;ZHOU Wenfeng Academy of Mathematics and System Sciences,CAS,Beijing 100080, China Beijing Materials Institute, Beijing 101149, China.;A Neural Network Algorithm for the (m,d)-Coloring Problem of a Graph[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
5 连建勇;;基于数据挖掘的电信客户流失分析[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
6 卢珏;;基于自适应蚁群算法的图像分割[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
7 陆凯峰;彭力;;基于改进蚁群优化算法的机器人路径规划[A];2007中国控制与决策学术年会论文集[C];2007年
8 孙向军;刘凯龙;;工程装备论证知识管理系统技术分析[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
9 武俊;漆德宁;;基于粗集神经网络的目标识别[A];第十七届全国测控计量仪器仪表学术年会(MCMI'2007)论文集(下册)[C];2007年
10 蔡中华;;自组织映射(SOM)在研究地区产业结构聚类分析的应用[A];第九届中国青年信息与管理学者大会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘慷;超临界二氧化碳二元体系临界性质的理论研究[D];北京化工大学;2002年
2 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
3 张道强;基于核的联想记忆及聚类算法的研究与应用[D];南京航空航天大学;2005年
4 潘志松;基于神经网络的入侵检测研究[D];南京航空航天大学;2003年
5 颜学峰;高维复杂模式识别的新方法[D];浙江大学;2002年
6 聂伟荣;多传感器探测与控制网络技术——地面运动目标震动信号探测与识别[D];南京理工大学;2002年
7 王林山;可微动力系统渐近性研究及其在神经网络中的应用[D];四川大学;2002年
8 郭劲松;基于人工神经网络(ANN)的水质评价与水质模拟研究[D];重庆大学;2002年
9 胡剑锋;视网膜外网状层突触可塑性和神经回路研究:实验及模型[D];中国科学院研究生院(上海生命科学研究院);2002年
10 舒朝晖;油水分离水力旋流器分离特性及其软件设计的研究[D];四川大学;2001年
中国硕士学位论文全文数据库 前10条
1 武兆慧;基于遗传算法的聚类方法研究[D];山东师范大学;2006年
2 李卫平;动力学背景下的聚类算法研究[D];郑州大学;2007年
3 黎慧娟;校园网用户行为的分析与研究[D];广西大学;2007年
4 张昭涛;数据挖掘聚类算法研究[D];西南交通大学;2005年
5 吕振洪;幻方问题的智能计算方法研究[D];国防科学技术大学;2005年
6 朱玮;IRT和规则空间在文本分类中的应用研究[D];江西师范大学;2005年
7 苏进;一种分层聚类模型及其在电信行业的应用研究[D];合肥工业大学;2005年
8 荆玲;基于遗传算法的实时个性化推荐研究[D];重庆大学;2003年
9 钱昱;数据挖掘在入侵检测中的应用研究[D];安徽大学;2004年
10 黄海;神经元非模型控制系统设计与应用[D];浙江大学;2002年
【二级参考文献】
中国期刊全文数据库 前10条
1 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
2 王磊,潘进,焦李成;免疫算法[J];电子学报;2000年07期
3 刘静,钟伟才,刘芳,焦李成;免疫进化聚类算法[J];电子学报;2001年S1期
4 陈金山,韦岗;遗传+模糊C-均值混合聚类算法[J];电子与信息学报;2002年02期
5 李未,黄文奇;一种求解合取范式可满足性问题的数学物理方法[J];中国科学A辑;1994年11期
6 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
7 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
8 李莼,罗振声,厉宇航;基于语义相关和概念相关的自动分类方法研究[J];计算机工程与应用;2003年12期
9 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
10 卜东波,白硕,李国杰;聚类/分类中的粒度原理[J];计算机学报;2002年08期
中国博士学位论文全文数据库 前1条
1 李仁璞;分类数据挖掘中若干基本问题的研究[D];天津大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026