收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于近邻传播算法的中文文本聚类的研究

汤明达  
【摘要】:随着信息技术的飞速发展,知识量急剧增长,数据挖掘技术提供了一种从海量数据中寻找所需信息的有效理论。数据挖掘中数据的形式是多样的,本文主要是针对以中文为信息载体的文本,对中文形式的数据进行挖掘,利用近邻传播算法(Affinity Propagation Algorithm,后文简称AP算法)及其相关改进,实现文本集的聚类。本研究设计分为两大部分,第一部分主要是对中文文本的处理工作;第二部分主要是对聚类算法---AP算法进行研究,然后对算法做出改进、更新,最后应用到中文文本挖掘中。 由于中文字符的编码特性,中文词语无空格标识、难切分,以及中文语义导致切分产生歧义、无法识别未登录词等诸多问题,故在挖掘前需对数据进行预处理。本文选用中科院提供的ICTCLAS软件接口实现分词。分词后通过编程实现对文本数据的处理,计算特征向量、特征矩阵、相似度矩阵。最后,将处理结果写入相关文件中。 本文选取AP算法作为聚类核心算法来实现聚类。第一,首先与Kmeans进行对比试验,观察AP算法聚类性能,然后对AP算法做出改进。第二,改变作为该算法输入的相似度矩阵的计算方法,通过降低文本集数据表征的特征向量的维度来提升计算相似度的速度,同时也提升表征文本集间信息的性能。第三,改进算法迭代过程中引入的阻尼因子λ的计算方法,提高对算法收敛的控制及避免算法因数据因素可能产生的震荡干扰,从而增强对算法健壮性的控制。第四,改进偏好参数p的计算方法,根据聚类需要,控制聚类数。整个更新的AP聚类算法在matlab下编程实现,通过与原AP算法对比试验,观察性能的提升状况。 试验对比发现,更新后的AP算法比原AP算法具有更为优越的聚类性能。最后用更新后的AP算法来聚类中文文本集,实现了100篇tet文档的中文文本集的聚类。 本文的实验前部分利用面向对象语言java实现文本的读写、预处理、计算相似度矩阵,并将相似度矩阵写入excel表格中。后部分使用matlab编程实现聚类算法,最终将聚类结果写入excel表格中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王纪川;刘宇;齐勇;侯迪;;一种摄像机采集图像的二值化算法[J];计算机工程与应用;2007年30期
2 练在中;三维隐藏线消除法综述[J];计算机研究与发展;1987年10期
3 刘伯强,曹景森,胡咏梅;浓碱液测量过程中算法的探讨[J];基础自动化;1995年04期
4 杨正瓴;排序问题串行算法复杂性下界关系讨论[J];天津大学学报;1993年06期
5 刘伯强,刘忠国;张力同步系统微机控制算法的实现[J];机械与电子;2000年04期
6 孙杨模;;操作系统常见的几种算法举例分析[J];湖北三峡职业技术学院学报;2010年02期
7 杨锦宣;;重复数据统计算法及在商务网站中的应用[J];科技信息;2011年20期
8 刘伯强;曹景森;;单片机控制系统中算法的处理和应用[J];电气自动化;1995年02期
9 杜玉兰;赵磊;;基于C#的HASH算法探析[J];计算机安全;2007年08期
10 郑向宁;;声呐数据动态显示的线性插值抽值算法[J];声学与电子工程;2010年02期
11 马后永;张守川;靖旭;吴毅;;测量大气相干长度的数据处理算法比对研究[J];大气与环境光学学报;2010年06期
12 江萍;;基于局部信息的图像滤波及边缘锐化算法[J];当代农机;2010年06期
13 刘伯强;多电机系统微机控制技术的研究[J];电机与控制学报;2000年04期
14 刘伯强;多电机系统微机控制技术的研究[J];山东科学;2000年03期
15 俞斌;汤群芳;曹才开;;一种基于DSP的视频图像压缩系统的设计[J];国外电子元器件;2007年04期
16 孙杨模;;《操作系统概论》常见的几种算法[J];恩施职业技术学院学报;2010年01期
17 吕孟军;张纯良;游有鹏;徐峰;;提高莫尔条纹正切法细分精度的改进算法[J];纳米技术与精密工程;2011年03期
18 苏俊宏,陈磊,朱日宏;干涉图空域延拓技术研究[J];红外与激光工程;2005年04期
19 徐盛;樊士伟;庄家礼;;图像信号预处理的一种算法[J];飞行器测控学报;2006年03期
20 施政;;多人视频聊天系统中的视频压缩算法研究[J];中国传媒科技;2005年10期
中国重要会议论文全文数据库 前10条
1 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 黄友锐;赵娜娜;;一种基于小波分析的焊缝识别算法[A];煤矿自动化与信息化——第20届全国煤矿自动化与信息化学术会议暨第2届中国煤矿信息化与自动化高层论坛论文集[C];2010年
3 李易;管庆;;基于DM642的智能视频监控系统[A];2008年中国西部青年通信学术会议论文集[C];2008年
4 侯艳芳;冯红梅;;基于神经网络的调制识别算法的研究[A];武汉(南方九省)电工理论学会第22届学术年会、河南省电工技术学会年会论文集[C];2010年
5 张明慧;;基于模糊蒙片算法的CR图像边缘增强[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
6 程勇新;朱清新;;一种基于边折叠LOD技术的蒙皮动画算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
7 宁佐贵;;模糊控制算法的等价关系[A];中国工程物理研究院科技年报(1999)[C];1999年
8 孙岚;刘雁春;陆秀平;欧阳永忠;李明叁;许家琨;;利用CUBE算法处理多波束测深数据研究[A];中国测绘学会第九次全国会员代表大会暨学会成立50周年纪念大会论文集[C];2009年
9 孙岚;刘雁春;陆秀平;欧阳永忠;李明叁;许家琨;;利用CUBE算法处理多波束测深数据研究[A];第二十一届海洋测绘综合性学术研讨会论文集[C];2009年
10 张越;张爱敏;高小珣;马秀兰;赵科佳;;基于SR620实现的多路比相测量系统[A];2009全国时间频率学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 黄亮;社会网络中的社区发现与链接预测算法研究[D];华中科技大学;2012年
3 石斌斌;高自由度GNSS抗干扰技术研究[D];国防科学技术大学;2011年
4 李一明;基于传导闭包图结构的布图算法研究[D];电子科技大学;2011年
5 樊玲;微弱目标检测前跟踪算法研究[D];电子科技大学;2013年
6 郭玉坤;某些正反散射问题的快速算法研究[D];吉林大学;2010年
7 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
8 周玉宇;基于Memetic算法的套料与切割优化方法研究[D];华中科技大学;2012年
9 张琦;基于聚合场模型的数据竞争算法及其应用研究[D];哈尔滨工程大学;2013年
10 杨春宇;数据流上的聚类与分类算法[D];清华大学;2009年
中国硕士学位论文全文数据库 前10条
1 陈志强;基于经验模态分解算法的列车超偏载检测[D];中南大学;2010年
2 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
3 余港;改进PSO算法及其应用[D];成都理工大学;2010年
4 余兵;基于枝条相关性的人工植物算法[D];太原科技大学;2013年
5 李亚龙;改进量子蚁群算法的研究及应用[D];安徽大学;2014年
6 段奇志;元器件光学检测系统的算法研究与实现[D];哈尔滨工业大学;2011年
7 庞秀立;基于色散算法的超宽带微波肿瘤检测技术研究[D];西安电子科技大学;2013年
8 史世泽;局部敏感哈希算法的研究[D];西安电子科技大学;2013年
9 石丽红;基于SOM算法的高维数据可视化[D];燕山大学;2013年
10 葛军;一种重叠社区发现算法及其在MapReduce上的实现[D];西安电子科技大学;2013年
中国重要报纸全文数据库 前10条
1 张韵萍苏小兰 李宾;对抗“震魔”的科技武器[N];中国经营报;2008年
2 赵艳秋李映;DSP核供应商灵活应对潜力应用[N];中国电子报;2007年
3 韩霁;高新技术在抗震救灾中得到应用[N];经济日报;2008年
4 ;系统加密防破解[N];中国计算机报;2008年
5 李晓萍;探测生命的“四种武器”[N];人民公安报;2008年
6 张显峰;机载干涉SAR系统掀起测绘革命[N];中国矿业报;2004年
7 ;22寸宽屏典范[N];电子资讯时报;2007年
8 苗得雨;挺进图像搜索时代[N];电脑报;2008年
9 本报记者 王繁泓;定华:破解储罐液位测量难题[N];中国化工报;2006年
10 记者 董映璧;人类活动影响全球气温[N];科技日报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978