收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本聚类算法分析与研究

黄文江  
【摘要】: 文本聚类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对文本聚类问题的文本聚类算法进行了深入的讨论和研究,设计并实现了基于新算法的中文文本聚类系统。 在传统聚类算法及各种文本聚类系统研究的基础之上,本文提出了以下几方面创新: 第一,改进了传统文本聚类算法在任意聚类簇形状发现方面的不足,成功的将基于划分、基于密度的和基于层次的文本聚类思想相结合。 第二,通过理论和实验的手段证明了新算法在聚类形状发现方面较传统算法存在优势,同时证明新算法兼顾了文本聚类时间效率和形状发现方面的优势。实验数据表明,新的文本聚类算法较传统文本聚类算法在准确度方面提高了4%。 第三,在传统的中文文本聚类模型的基础上提出了简洁的中文文本聚类模型,并且将新的文本聚类算法应用在新的中文本聚类模型之中。 第四,对新算法进行了一定的理论方面的阐明,并给出了新算法具体的实现过程。 最后,根据文本空间向量模型和新的文本聚类算法,实现了中文文本聚类系统。在系统实验中,通过对比K-means算法、Chameleon算法和K-C三种聚类算法对多类的文档进行了测试并验证了文本向量空间维数大小及不同的领域对聚类效果的影响,实验结果表明,本文所设计的中文聚类系统及K-C算法,表现出了良好的性能和稳定性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张义军;刘泉凤;;DKTC:一种中文文本聚类方法[J];图书情报工作;2009年01期
2 刘泉凤;;ACTC:一种基于改进的蚁群算法的中文文本聚类算法[J];图书情报工作;2009年09期
3 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
4 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
5 刘金岭;;基于《现代汉语语义分类词典》的文本聚类方法[J];情报杂志;2010年11期
6 朱红灿;唐毅;;一种基于DASOM的两阶段中文文本聚类方法[J];情报杂志;2007年09期
7 朱林;王士同;修宇;;鲁棒的模糊方向相似性聚类算法[J];智能系统学报;2008年01期
8 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
9 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
10 赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期
11 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
12 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
13 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
14 刘泉凤;;一种基于文本聚类的开放式信息自动归类方法[J];情报杂志;2009年06期
15 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
16 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
17 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
18 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
19 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期
20 孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期
中国重要会议论文全文数据库 前10条
1 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
3 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
4 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
5 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
8 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
9 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
10 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前10条
1 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
2 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
3 许君宁;基于知网语义相似度的中文文本聚类方法研究[D];西安电子科技大学;2010年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
6 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
7 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
10 李正林;中文文本数据分类研究[D];上海师范大学;2004年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
8 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
9 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
10 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978