中文文本聚类算法分析与研究
【摘要】:
文本聚类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对文本聚类问题的文本聚类算法进行了深入的讨论和研究,设计并实现了基于新算法的中文文本聚类系统。
在传统聚类算法及各种文本聚类系统研究的基础之上,本文提出了以下几方面创新:
第一,改进了传统文本聚类算法在任意聚类簇形状发现方面的不足,成功的将基于划分、基于密度的和基于层次的文本聚类思想相结合。
第二,通过理论和实验的手段证明了新算法在聚类形状发现方面较传统算法存在优势,同时证明新算法兼顾了文本聚类时间效率和形状发现方面的优势。实验数据表明,新的文本聚类算法较传统文本聚类算法在准确度方面提高了4%。
第三,在传统的中文文本聚类模型的基础上提出了简洁的中文文本聚类模型,并且将新的文本聚类算法应用在新的中文本聚类模型之中。
第四,对新算法进行了一定的理论方面的阐明,并给出了新算法具体的实现过程。
最后,根据文本空间向量模型和新的文本聚类算法,实现了中文文本聚类系统。在系统实验中,通过对比K-means算法、Chameleon算法和K-C三种聚类算法对多类的文档进行了测试并验证了文本向量空间维数大小及不同的领域对聚类效果的影响,实验结果表明,本文所设计的中文聚类系统及K-C算法,表现出了良好的性能和稳定性。
|
|
|
|
1 |
张义军;刘泉凤;;DKTC:一种中文文本聚类方法[J];图书情报工作;2009年01期 |
2 |
刘泉凤;;ACTC:一种基于改进的蚁群算法的中文文本聚类算法[J];图书情报工作;2009年09期 |
3 |
赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期 |
4 |
朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期 |
5 |
刘金岭;;基于《现代汉语语义分类词典》的文本聚类方法[J];情报杂志;2010年11期 |
6 |
朱红灿;唐毅;;一种基于DASOM的两阶段中文文本聚类方法[J];情报杂志;2007年09期 |
7 |
朱林;王士同;修宇;;鲁棒的模糊方向相似性聚类算法[J];智能系统学报;2008年01期 |
8 |
朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期 |
9 |
张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期 |
10 |
赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期 |
11 |
李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期 |
12 |
李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期 |
13 |
毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期 |
14 |
刘泉凤;;一种基于文本聚类的开放式信息自动归类方法[J];情报杂志;2009年06期 |
15 |
龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期 |
16 |
张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期 |
17 |
葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期 |
18 |
郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期 |
19 |
许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期 |
20 |
孙晋文,肖建国;基于SVM的中文文本分类反馈学习技术的研究[J];控制与决策;2004年08期 |
|