收藏本站
《上海交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本聚类算法分析与研究

黄文江  
【摘要】: 文本聚类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对文本聚类问题的文本聚类算法进行了深入的讨论和研究,设计并实现了基于新算法的中文文本聚类系统。 在传统聚类算法及各种文本聚类系统研究的基础之上,本文提出了以下几方面创新: 第一,改进了传统文本聚类算法在任意聚类簇形状发现方面的不足,成功的将基于划分、基于密度的和基于层次的文本聚类思想相结合。 第二,通过理论和实验的手段证明了新算法在聚类形状发现方面较传统算法存在优势,同时证明新算法兼顾了文本聚类时间效率和形状发现方面的优势。实验数据表明,新的文本聚类算法较传统文本聚类算法在准确度方面提高了4%。 第三,在传统的中文文本聚类模型的基础上提出了简洁的中文文本聚类模型,并且将新的文本聚类算法应用在新的中文本聚类模型之中。 第四,对新算法进行了一定的理论方面的阐明,并给出了新算法具体的实现过程。 最后,根据文本空间向量模型和新的文本聚类算法,实现了中文文本聚类系统。在系统实验中,通过对比K-means算法、Chameleon算法和K-C三种聚类算法对多类的文档进行了测试并验证了文本向量空间维数大小及不同的领域对聚类效果的影响,实验结果表明,本文所设计的中文聚类系统及K-C算法,表现出了良好的性能和稳定性。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 刘文;基于聚类算法和支持向量机算法的文本分类算法研究[D];江苏科技大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 张冉;夏素萍;;一种基于空间向量模型的主题PageRank算法[J];电脑知识与技术;2009年04期
2 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
3 徐常青,苑立平;关于平面点集的凸分解[J];华中师范大学学报(自然科学版);2003年04期
4 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
5 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
6 陈龙;范瑞霞;高琪;;基于概念的文本表示模型[J];计算机工程与应用;2008年20期
7 陈江锋;于建军;;基于扩展VSM的Web服务发现[J];计算机工程;2008年12期
8 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
9 邓琦;苏一丹;曹波;闭剑婷;;中文文本体裁分类中特征选择的研究[J];计算机工程;2008年23期
10 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期
中国硕士学位论文全文数据库 前2条
1 钟配蓉;基于Web挖掘的文本预处理研究及应用[D];湖南大学;2006年
2 于宽;改进K-Means算法在文本聚类中的应用[D];大连交通大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
3 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
4 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
5 李玉鑑;;基于最小树切割的自适应聚类方法[J];北京工业大学学报;2007年03期
6 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
7 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
8 ;A New Clustering Algorithm for Categorical Attributes[J];Journal of University of Science and Technology Beijing(English Edition);2000年04期
9 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
10 左国才;周荣华;符开耀;;基于DBSCAN算法的电信客户分类的应用研究[J];北京联合大学学报(自然科学版);2012年03期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七届中国控制会议论文集[C];2008年
3 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 于健;陈子军;李霞;李炜;;一种新的多密度聚类算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
6 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
7 余琳;邓玲;;常见聚类算法的比较以及DSS系统中的应用[A];湖北省通信学会、武汉通信学会2009年学术年会论文集[C];2009年
8 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
10 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 冯光升;面向认知网络的自适应QoS感知与配置方法[D];哈尔滨工程大学;2009年
4 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
5 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
6 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
7 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
8 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
9 吕青;思维进化和支持向量机理论及其在炼焦配煤优化中的应用研究[D];太原理工大学;2011年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
2 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
3 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
4 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
7 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
8 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
9 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
10 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
2 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 姚力群;陶卿;;局部线性与One-Class结合的科技文本分类方法[J];计算机研究与发展;2005年11期
5 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
6 郝秀兰;陶晓鹏;徐和祥;胡运发;;kNN文本分类器类偏斜问题的一种处理对策[J];计算机研究与发展;2009年01期
7 江涛;陈小莉;张玉芳;熊忠阳;;基于聚类算法的KNN文本分类算法研究[J];计算机工程与应用;2009年07期
8 应伟;王正欧;安金龙;;一种基于改进的支持向量机的多类文本分类方法[J];计算机工程;2006年16期
9 吴定海;张培林;任国全;陈非;;基于支持向量的单类分类方法综述[J];计算机工程;2011年05期
10 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
中国博士学位论文全文数据库 前2条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前8条
1 石佑红;基于支持向量机的文本分类的研究[D];北京交通大学;2007年
2 孟祥国;多类文本分类的支持向量机网络[D];山东大学;2007年
3 谭冠群;基于多类软间隔支持向量机的文本分类问题研究[D];哈尔滨理工大学;2008年
4 蔡崇超;文本分类新方法的研究与应用[D];江南大学;2008年
5 张睿;基于k-means的中文文本聚类算法的研究与实现[D];西北大学;2009年
6 刘彧;基于贝叶斯理论的文本分类技术的研究与实现[D];吉林大学;2009年
7 闫晨;KNN文本分类研究[D];燕山大学;2010年
8 孙庆嘉;多类支持向量机的研究与分析[D];北京交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
2 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
3 景丽萍,黄厚宽;Web文本挖掘及特征选择[J];电脑与信息技术;2002年01期
4 徐建斌,施亚东;基于概念的文本自动分类研究的综述[J];福建电脑;2005年02期
5 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
6 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
7 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
8 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
9 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
10 宫秀军,孙建平,史忠植;主动贝叶斯网络分类器[J];计算机研究与发展;2002年05期
中国博士学位论文全文数据库 前1条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
中国硕士学位论文全文数据库 前2条
1 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
2 庞剑锋;基于向量空间模型的自反馈的文本分类系统的研究与实现[D];中国科学院研究生院(计算技术研究所);2001年
【相似文献】
中国期刊全文数据库 前10条
1 张义军;刘泉凤;;DKTC:一种中文文本聚类方法[J];图书情报工作;2009年01期
2 刘泉凤;;ACTC:一种基于改进的蚁群算法的中文文本聚类算法[J];图书情报工作;2009年09期
3 赵鹏;蔡庆生;;一种基于《知网》的中文文本聚类算法的研究[J];计算机工程与应用;2007年12期
4 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
5 刘金岭;;基于《现代汉语语义分类词典》的文本聚类方法[J];情报杂志;2010年11期
6 朱红灿;唐毅;;一种基于DASOM的两阶段中文文本聚类方法[J];情报杂志;2007年09期
7 朱林;王士同;修宇;;鲁棒的模糊方向相似性聚类算法[J];智能系统学报;2008年01期
8 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
9 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
10 赵万磊,王永吉,张学杰,李娟;一种优化初始中心点的K平均文本聚类算法[J];计算机应用;2005年09期
中国重要会议论文全文数据库 前10条
1 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
2 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
4 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
6 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
8 逯波;王国仁;;一种有效的半监督视频镜头聚类算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
8 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
9 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
10 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
3 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
4 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
5 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
8 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
9 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
10 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
中国硕士学位论文全文数据库 前10条
1 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
2 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
3 许君宁;基于知网语义相似度的中文文本聚类方法研究[D];西安电子科技大学;2010年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
6 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
7 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
10 李正林;中文文本数据分类研究[D];上海师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026