收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于潜在语义索引的文本聚类算法研究

王礼礼  
【摘要】: 随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效地组织和导航的重要手段。 本文是在对文本聚类的整个过程深入研究的基础上,利用潜在语义索引(Latent Semantic Indexing,LSI)在处理语义和降维方面的优势,以目前常用K-means聚类算法为主要框架,探索和研究潜在语义索引在文本聚类中的应用。本文的目的是研究具有更高效性能的文本聚类算法,并尝试从语义上更好的对文本进行聚类。 本文的主要研究工作如下: 首先,文本预处理作为文本聚类最重要的基础,许多关键技术直接影响了文本聚类的最终结果。本文对文本聚类预处理中的关键技术:关键词抽取和文本向量化作了比较系统深入的研究,这为后文的聚类实践打下了坚实的基础。 其次,针对传统K-means聚类算法聚类结果不稳定的问题,本文对该算法进行了改进。改进包括:(1)采用一种基于最小最大原则的K-means初始分布选择方法来自动选择该算法的k参数;(2)用向量之间的余弦相似度而不是欧氏距离作为文档之间的相似度;(3)增加迭代收敛条件,使得最终的聚类结果能够趋于稳定,即使是随机选取聚类初始中心。 再次,作为一种重要的自然语言处理应用,文档聚类具有高维和语义相关的特点,因此影响文档聚类结果的因素除了文档聚类算法的选择以外,还包括语义问题的处理和降维问题,如何有效地降维已经成为文本聚类效率提高的难点和热点。本文将潜在语义索引应用于文本聚类当中,通过奇异值分解(Singular Value Decomposition,SVD)和半离散矩阵分解(Semi-DiscreteDecomposition,SDD)方法分别对文本预处理后的向量文件进行分解,再对消除噪声后的向量空间进行聚类,试验结果验证了该方法的有效性。 本文最后通过对多个预处理后的语料进行聚类实验,并对实验结果进行比较分析。多次试验结果证明了上述对现有文本聚类算法改进的有效性。实验证明,基于潜在语义索引的文本聚类算法绕过了现有语言规则,通过规则与统计相结合更好地实现了自然语言理解。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
2 罗洋;战学刚;迟呈英;;SDD方法在信息检索中的应用[J];计算机应用与软件;2008年07期
3 熊忠阳;暴自强;李智星;张玉芳;;结合LSA的中文谱聚类算法研究[J];计算机应用研究;2010年03期
4 王晓斌;温春;石昭祥;;基于独立分量分析的隐蔽Web领域聚类[J];计算机工程;2009年07期
5 陈涛,宋妍,谢阳群;基于IIG和LSI组合特征提取方法的文本聚类研究[J];情报学报;2005年02期
6 秦春秀;刘怀亮;赵捧未;;一种基于本体论和潜在语义索引的文本语义处理方法[J];现代图书情报技术;2006年09期
7 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
8 况夯;罗军;;基于遗传FCM算法的文本聚类[J];计算机应用;2009年02期
9 刘洋;张秋余;;基于LSI和SVM相结合的文本分类研究[J];计算机工程与设计;2007年23期
10 李华云;;基于潜在语义分析的中文文本聚类方法研究[J];科技情报开发与经济;2008年27期
11 张玉芳;朱俊;熊忠阳;;改进的概率潜在语义分析下的文本聚类算法[J];计算机应用;2011年03期
12 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期
13 马国俊,贠卫国;基于潜在语义索引的中文文本聚类的研究[J];现代电子技术;2005年10期
14 张虹;徐群益;苏晨;;基于隐式反馈的LSI个性化信息过滤方法的研究[J];电脑知识与技术;2008年12期
15 徐森;卢志茂;顾国昌;;解决文本聚类集成问题的两个谱算法[J];自动化学报;2009年07期
16 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
17 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
18 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
19 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
20 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
中国重要会议论文全文数据库 前10条
1 郑伟;季铎;蔡东风;;潜在语义索引中特征优化技术的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 岳红;蒋慰孙;;基于奇异值分解的改进Bayes集员辨识递推算法[A];1995中国控制与决策学术年会论文集[C];1995年
3 张友民;陈洪亮;戴冠中;;基于奇异值分解的固定区间平滑新方法[A];1995年中国控制会议论文集(上)[C];1995年
4 曾建国;陈光梦;;基于张量分解的动态纹理合成技术研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
5 吴晓颖;吴俊;董滨江;;TK方法在γ谱分析中的应用[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
6 王修运;柏森;李秀;刘阳;粘永健;;基于图像直方图不变矩和奇异值分解的图像认证方法[A];第三届全国数字成像技术及相关材料发展与应用学术研讨会论文摘要集[C];2004年
7 徐慧英;朱信忠;赵建民;殷建平;;基于分块奇异值分解的数字水印算法及实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
8 李蓓;金聪;;基于奇异值分解的数字水印算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 曾亮;;时变参数的全最小二乘递推辨识法[A];1996中国控制与决策学术年会论文集[C];1996年
10 杨莲;杨虎;;关于泛岭估计的影响分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 从飞云;基于滑移向量序列奇异值分解的滚动轴承故障诊断研究[D];上海交通大学;2012年
2 赵艳菊;强噪声背景下机械设备微弱信号的提取与检测技术研究[D];天津大学;2009年
3 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 吕连港;东海PN断面黑潮区域的声层析研究[D];中国科学院研究生院(海洋研究所);2002年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 郭文彬;奇异值分解及其在广义逆理论中的应用[D];华东师范大学;2004年
8 张前前;东海典型赤潮藻检测的荧光光谱特征研究[D];中国海洋大学;2005年
9 伍俊良;实四元数体上代数特征值分布与估计及奇异值分解研究[D];重庆大学;2008年
10 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 王礼礼;基于潜在语义索引的文本聚类算法研究[D];西南交通大学;2008年
2 郑伟;基于潜在语义索引的文本聚类技术研究[D];沈阳航空工业学院;2009年
3 全德;基于潜在语义索引的文本分类技术的研究[D];东北大学;2005年
4 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
5 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
6 乐兵;基于遗传算法的文本聚类技术研究[D];江西师范大学;2006年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
9 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978