收藏本站
《华北电力大学(北京)》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本相似度的中文文本聚类的研究

李艳梅  
【摘要】: 文本聚类是文本挖掘和信息检索领域的重要研究课题,而中文自动分词、特征选择和相似度计算等是中文文本聚类研究的关键技术。本文详细综述了文本聚类技术的相关研究;研究了中文未登录词识别和歧义消解;研究和分析比较了常用的特征选择方法和特征抽取方法;研究并改进了TF-IDF算法,并通过实验证明改进后的算法能够取得更好的效果;研究并分析了文本聚类的常用方法以及效果评价方法,并利用文本相似度矩阵进行文本聚类,实验证明改进的算法能够有效地改进文本聚类的准确性,尤其是文本集合比较小的时候;最后,深入分析了多文档文摘的关键技术,以及在文本聚类中的应用。本文的研究对中文文本聚类技术的具体应用诸如文本挖掘、信息检索等都具有借鉴意义。
【关键词】:文本聚类 未登录词识别 特征选择 文本相似度 多文档文摘
【学位授予单位】:华北电力大学(北京)
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
  • 摘要3
  • Abstract3-7
  • 第一章 绪论7-10
  • 1.1 研究背景和意义7
  • 1.2 本文工作7-8
  • 1.3 论文组织8-10
  • 第二章 中文自动分词10-22
  • 2.1 引言10-11
  • 2.2 中文未登录词的识别11-18
  • 2.2.1 未登录词的研究现状11-12
  • 2.2.2 基于统计的中文姓名识别12-17
  • 2.2.3 实验结果及分析17-18
  • 2.3 歧义消解18-21
  • 2.3.1 歧义产生的根源18-19
  • 2.3.2 歧义的类型19-21
  • 2.3.2.1 交集型歧义消解20
  • 2.3.2.2 多义组合型歧义消解20-21
  • 2.4 本章小结21-22
  • 第三章 降维技术相关研究22-37
  • 3.1 文档表示22-23
  • 3.2 特征项类别选择23-24
  • 3.2.1 字特征23
  • 3.2.2 词特征23-24
  • 3.2.3 n-gram特征24
  • 3.3 特征选择主要方法的分析选择24-28
  • 3.3.1 信息增益(IG)24-25
  • 3.3.2 x~2统计(CHI)25-26
  • 3.3.3 互信息(MI)26
  • 3.3.4 文档频率(DF)26-27
  • 3.3.5 特征增强(TS)27
  • 3.3.6 基于熵的特征排序(En)27-28
  • 3.3.7 特征贡献(TC)28
  • 3.4 常用特征选择方法在中文文本聚类中的应用实验研究28-31
  • 3.5 特征抽取比较分析31-36
  • 3.5.1 主成分分析法(PCA)31-32
  • 3.5.2 隐含语义标引(LSI)32-33
  • 3.5.3 多维标度法(MDS)33-34
  • 3.5.4 局部线性嵌入(LLE)34-36
  • 3.5.5 词聚类36
  • 3.6 本章小结36-37
  • 第四章 中文文本相似度计算37-41
  • 4.1 引言37
  • 4.2 向量空间模型37
  • 4.3 中文文本相似度计算的主要方法37-39
  • 4.3.1 基于VSM的TF-IDF算法38
  • 4.3.2 改进的TF-IDF算法38-39
  • 4.4 相似度计算39
  • 4.5 实验结果及分析39-40
  • 4.6 本章小结40-41
  • 第五章 基于VSM的文本聚类41-52
  • 5.1 主要文本聚类算法比较41-45
  • 5.1.1 层次聚类算法41-42
  • 5.1.2 划分聚类算法42-43
  • 5.1.3 基于密度的聚类算法43
  • 5.1.4 基于网格的聚类算法43-44
  • 5.1.5 基于模型的聚类算法44
  • 5.1.6 模糊聚类算法44-45
  • 5.2 聚类效果评定45-46
  • 5.3 实验设计及结果分析46-51
  • 5.3.1 研究资源46-47
  • 5.3.2 总体设计47
  • 5.3.3 组织聚类47-50
  • 5.3.3.1 文本预处理47-48
  • 5.3.3.2 相似度计算48-49
  • 5.3.3.3 基于编网法的模糊文本聚类49-50
  • 5.3.4 实验结果及其分析50-51
  • 5.4 本章小结51-52
  • 第六章 文本聚类在多文档自动文摘中应用52-63
  • 6.1 引言52-53
  • 6.2 关键技术53-58
  • 6.2.1 句子相似度53-57
  • 6.2.1.1 基于词权重的相似度计算54-55
  • 6.2.1.2 基于潜在语义分析的句子相似度计算55
  • 6.2.1.3 基于词义距离的句子相似度计算55-56
  • 6.2.1.4 基于语义依存的句子相似度计算56-57
  • 6.2.2 文摘句抽取57
  • 6.2.3 文摘句排序57-58
  • 6.3 评价技术58-59
  • 6.4 实现过程及效果分析59-62
  • 6.4.1 多文档自动文摘的实现59-61
  • 6.4.2 实验结果及分析61-62
  • 6.5 本章小结62-63
  • 第七章 总结与展望63-65
  • 7.1 本文总结63
  • 7.2 进一步的工作63-65
  • 参考文献65-70
  • 致谢70-71
  • 在学期间发表的学术论文和参加科研情况71

【相似文献】
中国期刊全文数据库 前10条
1 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
2 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
3 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
4 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
5 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
6 申兵一;巩青歌;;中文分词技术在搜索引擎中的应用研究[J];计算机与网络;2010年01期
7 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
8 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
9 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
10 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 曾依灵;许洪波;;网络热点信息发现研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
7 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 雷静;张舵;冯霞;;基于构成模式的汉语机构名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 简艳;基于潜在语义的中文文本聚类及其应用[D];东北大学;2008年
2 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
3 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
4 梁维铿;基于Hadoop的分布式文本聚类研究[D];华南理工大学;2011年
5 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
6 于丽丽;基于DK-Means算法的文本聚类的研究与实现[D];东北大学;2008年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
9 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026