收藏本站
《上海交通大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的中文文本聚类方法的研究

姚清耘  
【摘要】: 文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。 本文对基于空间向量模型的中文文本聚类算法做了较深入的讨论。利用开源语料库,实现并讨论了现有比较流行的多种算法的优劣,并基于语料库的实际聚类效果,就维度确定、特征选择、文本表示等方面提出优化方案。 本文首先回顾了中文文本聚类领域的已有成果,列举了文本聚类领域在文本表示、文本相似度衡量、文本信息特征集缩减等方面的基础研究工作。另外,本文回顾了现有的中文文本聚类算法,以及常用的文本聚类效果评价指标。 在回顾了已有成果的基础上,本文针对向量空间表示模型,基于搜狐研发中心搜狗实验室的开源语料,设计并实现了几种比较流行的聚类算法,并根据实验结果,对这几种算法在多个层面上做了比对。实验表明,层次法的聚类效果较好,但时间消耗较大;而划分法在聚类效果的表现上不够稳定,但时间消耗相对较小。 在对实验结果进行分析后,本文还针对现有算法存在的一些问题,在维度确定、特征选择、文本表示等多方面提出了改进,改变了传统的空间向量模型单纯依靠词条进行统计的缺点,考虑了词条本身所蕴含的含义以及词与词之间的关系,这些改进在基于语料库的文本聚类实验中有效地提高了聚类的效果。在两种流行的聚类有效性评价指标PP与PR的表现上,分别最多提高了11.4%与20.5%。这表明,基于词条更多隐藏信息的文本聚类可以得到较好的聚类结果。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前4条
1 刘承真;;基于数据挖掘的图书馆部署决策研究[J];农业图书情报学刊;2010年08期
2 张丽萍;刘呈龙;刘东升;;基于AST的多语言代码抄袭检测方法研究[J];内蒙古师范大学学报(自然科学汉文版);2012年04期
3 刘承真;;基于数据挖掘的图书部署决策系统设计[J];图书馆学刊;2010年08期
4 卢修配;齐向伟;艾斯卡尔;;维吾尔文网络舆情研究现状及几个关键问题[J];新疆师范大学学报(自然科学版);2012年02期
中国博士学位论文全文数据库 前1条
1 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 张晓艳;面向农业信息服务平台的挖掘技术研究[D];湖南工业大学;2010年
2 郭茜;搜索引擎结果冗余信息消解算法的研究与应用[D];东华大学;2011年
3 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
4 王驰;基于海量网络舆情信息的热点发现[D];电子科技大学;2011年
5 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
6 王浩成;基于细菌觅食优化的k-medoids文本聚类方法[D];河北大学;2011年
7 季文韬;基于数据挖掘的博客球聚类研究[D];西南石油大学;2011年
8 李芳;改进的支持向量聚类算法及其应用研究[D];大连理工大学;2010年
9 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
10 汪磊锋;基于频繁特征词语集的文本聚类研究[D];安徽大学;2010年
【参考文献】
中国期刊全文数据库 前2条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
2 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
3 ;A New Clustering Algorithm for Categorical Attributes[J];Journal of University of Science and Technology Beijing(English Edition);2000年04期
4 顾益军,樊孝忠,王建华,汪涛,黄维金;中文停用词表的自动选取[J];北京理工大学学报;2005年04期
5 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期
6 屈赟;杨捧;张文静;;基于信息粒度的主题相似性信息检索[J];河北农业大学学报;2011年01期
7 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
8 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
9 许志凯;徐志明;李栋;李生;;面向互联网新闻的话题检测与追踪[J];智能计算机与应用;2011年03期
10 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
中国重要会议论文全文数据库 前6条
1 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
3 王珍;维尼拉·木沙江;赵丽红;;维、哈、柯文搜索引擎中自动分类技术的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 赵燕平;李超;;网络安全信息挖掘中的特征选择与专利分析研究[A];2004年中国管理科学学术会议论文集[C];2004年
5 刘勘;刘萍;;一种对学术论文关键词权值的动态调整方法[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 于翔;基于网格的数据流聚类方法研究[D];哈尔滨工程大学;2010年
4 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 胡晓;支持机械产品概念设计的功能知识聚类方法研究[D];上海交通大学;2011年
8 孙佳龙;近海雷达卫星测高数据质量改善及在南海海潮模型中的应用研究[D];山东科技大学;2011年
9 王健;基于隐私保护的数据挖掘若干关键技术研究[D];东华大学;2011年
10 苏健;基于粗糙集的数据挖掘与决策支持方法研究[D];浙江大学;2002年
中国硕士学位论文全文数据库 前10条
1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
2 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
3 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
4 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
5 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
6 柳建芳;基于小波消噪的聚类模式挖掘在股票收益率预测中的应用[D];武汉理工大学;2010年
7 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
8 李慧;基于贝叶斯分类方法的中文问句分类研究[D];石家庄铁道学院;2010年
9 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
10 巩军全;文本分类算法的研究与改进[D];西安电子科技大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 叶良艳;;基于改进后的K-means聚类算法的网吧用户行为聚类[J];安徽科技学院学报;2009年04期
2 李文斌;刘椿年;陈嶷瑛;;基于特征信息增益权重的文本分类算法[J];北京工业大学学报;2006年05期
3 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
4 纪秋颖;林健;;基于核方法的聚类算法及其应用[J];北京航空航天大学学报;2006年06期
5 赵长海;晏海华;金茂忠;;基于编译优化和反汇编的程序相似性检测方法[J];北京航空航天大学学报;2008年06期
6 李虎;刘超;刘楠;李晓丽;;Java源代码字节码剽窃检测方法及支持系统[J];北京航空航天大学学报;2010年04期
7 王立伟;;数据挖掘研究现状综述[J];图书与情报;2008年05期
8 赵耀红;;基于向量空间模型的信息检索系统的研究与实现[J];长春大学学报;2009年08期
9 吕佳;;核聚类算法及其在模式识别中的应用[J];重庆师范大学学报(自然科学版);2006年01期
10 叶晓波;;一种基于二进制编码的频繁项集查找算法[J];楚雄师范学院学报;2009年03期
中国重要会议论文全文数据库 前2条
1 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
2 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 陈向东;网络环境下的跨学科知识共享[D];华东师范大学;2005年
4 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
5 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
6 魏玖长;危机事件社会影响的分析与评估研究[D];中国科学技术大学;2006年
7 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
8 谭松波;高性能文本分类算法研究[D];中国科学院研究生院(计算技术研究所);2006年
9 熊赟;生物序列模式挖掘与聚类研究[D];复旦大学;2007年
10 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 朴红吉;基于分布式多索引融合的专利信息检索研究[D];大连理工大学;2010年
2 武丽平;基于语用信息的中文专利检索系统[D];北京邮电大学;2011年
3 孔旗;基于并行机器学习的大规模专利分类[D];上海交通大学;2011年
4 殷风景;面向网络舆情监控的热点话题发现技术研究[D];国防科学技术大学;2010年
5 孙守杰;江苏高校专利技术成果转化方式研究[D];江苏科技大学;2011年
6 柳枫;基于统计的数据挖掘技术在CRM系统中的应用研究[D];大连理工大学;2003年
7 李志军;分布式结构与组件技术的应用研究[D];南京理工大学;2004年
8 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
9 田逢春;基于知识发现的案例推理研究[D];武汉理工大学;2004年
10 吴文妹;基于改进关联规则和聚类算法在数据挖掘中的应用[D];福州大学;2005年
【二级引证文献】
中国期刊全文数据库 前7条
1 张世博;周义明;;一种优化初始化中心的k均值web信息聚类算法[J];北京石油化工学院学报;2011年04期
2 胡小丽;徐远纯;;基于python的博客分层聚类研究与分析[J];福建电脑;2012年05期
3 张世博;;基于优化初始中心点的K-means文本聚类算法[J];计算机与数字工程;2011年10期
4 李亚婷;马费成;;基于标签共现的社会网络分析研究[J];情报杂志;2012年07期
5 高新陵;王正兴;;“十一五”期间我国文献情报领域知识发现研究综述[J];图书情报工作;2011年24期
6 冯研;王馨;;国内图书馆数据挖掘技术实践应用进展分析[J];图书馆学研究;2011年20期
7 石进;胡广伟;;企业竞争情报系统建设中的舆情监控研究[J];图书情报工作;2012年24期
中国硕士学位论文全文数据库 前5条
1 艾明;面向海量数据的云存储系统实现与应用研究[D];南京理工大学;2012年
2 陈爱平;基于Hadoop的聚类算法并行化分析及应用研究[D];电子科技大学;2012年
3 朱彦杰;基于搜索引擎的舆情分析系统研究与实现[D];电子科技大学;2012年
4 潘庆;矿井提升机变频器谐波抑制的BFA最优控制[D];湖南科技大学;2012年
5 时睿;面向短文本的网络舆情分析[D];西安电子科技大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
2 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
3 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
4 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
5 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
6 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
7 胥桂仙,苏筱蔚,陈淑艳;中文文本挖掘中的无词典分词的算法及其应用[J];吉林工学院学报(自然科学版);2002年01期
8 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
9 厉宇航,罗振声,程慕胜;基于概念层次的英文文本自动分类研究[J];计算机工程与应用;2004年11期
10 蒋澄,马范援,蒋思杰;中英文WWW搜索引擎的信息处理[J];计算机工程;1999年04期
【相似文献】
中国期刊全文数据库 前10条
1 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
2 毛嘉莉;;基于K-means的文本聚类算法[J];计算机系统应用;2009年10期
3 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
4 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
5 索红光;王玉伟;;一种用于文本聚类的改进k-means算法[J];山东大学学报(理学版);2008年01期
6 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
7 张立文;徐家宁;李进;李孝闯;;基于免疫网络和SOM的文本聚类算法研究[J];计算机应用与软件;2010年05期
8 尉景辉,何丕廉,孙越恒;基于K-Means的文本层次聚类算法研究[J];计算机应用;2005年10期
9 朱红灿;唐毅;;一种基于DASOM的两阶段中文文本聚类方法[J];情报杂志;2007年09期
10 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
7 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
8 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
9 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
10 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
2 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
6 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
7 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
8 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
9 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
10 ;探索普通话自然连续语音之规律[N];光明日报;2001年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
3 王俭;基于语料库的海明威小说评论研究[D];上海外国语大学;2012年
4 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
5 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
6 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
7 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
8 何婷婷;语料库研究[D];华中师范大学;2003年
9 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
10 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
2 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
3 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
4 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
5 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
6 王冬;基于语义特征的文本聚类的研究与实现[D];吉林大学;2008年
7 陈小丽;基于SOM算法的中文文本聚类[D];南京理工大学;2008年
8 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
9 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
10 肖杰;基于频繁项集的文本聚类方法研究[D];中南大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026