收藏本站
《解放军信息工程大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

LSA与SOM相结合的文本聚类算法应用研究

张春炉  
【摘要】:随着互联网的发展,信息的规模越来越巨大,增加速度越来越快,信息的类型和结构越来越复杂多样。人类所面临的问题由以前无法有效地从分散且不成规模的信息中获取有用的信息,转变成现在难于从海量而复杂的信息中高效而准确地获取和访问信息。作为数据挖掘领域的一个重要分支,文本聚类具有较强的灵活性和自动处理能力,已经广泛应用于许多领域。文本聚类通过高效的聚类、重新组织和导航文本数据,可以提高查询效率和精度。可以说,文本聚类的研究具有重要的理论意义和实际应用价值。 本文在对文本聚类的整个流程深入研究的基础上,利用潜在语义分析(Latent Semantic Analysis,LSA)在语义处理和空间降维方面的优势,以及自组织映射(Self-Organizing Maps,SOM)聚类算法在自组织、自适应、自动化、易于可视化和聚类效果好等方面的优良特性,探索和研究了潜在语义分析和自组织映射算法在文本聚类中的应用,并在实验语料库中进行验证分析。本文的主要研究内容如下: 首先,本文研究了文本预处理关键技术。文本预处理是文本聚类的基础,直接影响文本聚类的效果。主要包括:摘要内容提取,词性筛选,停用词过滤,和向量空间构建。摘要内容提取采用基于文档对象模型(Document Object Modal,DOM)解析网页,提取出摘要内容。词性筛选采用基于规则方法进行词性标注,然后利用正则表达式工具去除不重要词性,保留名词性、动词性和形容词性等意义丰富的词性成分。向量空间采用词频作为权值的向量空间模型构建。 其次,研究了潜在语义分析模型。潜在语义分析模型能够较好的消除同义词和多义词等语义问题,并且可以利用奇异值分解(Singular Value Decomposition,SVD)有效的降低向量空间的规模。本文在对多种权值计算方法进行分析的基础上,选择出比较适合本语料库的权值计算方法。在此基础上进行奇异值分解,得到新的文本的近似语义空间。再次,研究了自组织映射聚类算法。针对的自组织映射算法聚类效果不佳的情况,本文对经典的自组织映射算法进行改进,将训练过程分成粗糙训练和精细训练两个步骤,提高训练的针对性,得到较好的聚类效果。 最后,通过对预处理后的语料库进行聚类实验,并对实验结果进行比较分析。验证了潜在语义分析模型对文本空间进行高效的降维,可以提高了后续聚类效率,降低时间复杂度,并且可以通过数学方法间接解决自然语言处理中的部分语义问题。同时验证了相较于k-means方法,本文改进的自组织映射方法聚类结果的有效性和优越性。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
2 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
3 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
4 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
5 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
6 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
7 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
8 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
9 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
10 崔时珍;;纯文本数据在VFP中导入导出[J];电脑学习;2009年01期
中国重要会议论文全文数据库 前10条
1 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 戴腊梅;曹亦薇;;关于LSA对主观题自动评分的效度评价[A];全国教育与心理统计与测量学术年会暨第八届海峡两岸心理与教育测验学术研讨会论文摘要集[C];2008年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 李博;基于LDA和LSA的医学文本和影像分析模型及应用研究[D];吉林大学;2012年
3 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
4 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
5 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
6 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
7 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
10 王智慧;可还原式数据嵌入技术的研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 暴自强;结合LSA的文本谱聚类算法研究[D];重庆大学;2010年
2 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
3 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
4 张春炉;LSA与SOM相结合的文本聚类算法应用研究[D];解放军信息工程大学;2010年
5 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
6 李正林;中文文本数据分类研究[D];上海师范大学;2004年
7 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
8 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
9 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
10 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026