收藏本站
《西安建筑科技大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

潜在语义索引在中文文本聚类中的应用研究

马国俊  
【摘要】: 本文对潜在语义索引模型进行系统的研究和探讨,包括奇异值分解等相关矩阵理论、词-文档矩阵等;同时本文研究和探讨了潜在语义索引模型在中文文本聚类中的具体应用和实现,包括文本间相似度的度量、词-文档矩阵、奇异值分解的具体实现;同时本文对中文文本聚类所涉及的其他一些中文处理技术,包括向量空间模型、电子字典、切词、k-means聚类算法等也进行了研究和探讨。提出改进的电子字典结构、改进的切词算法,和相应的具体的聚类算法;提出了基于潜在语义索引模型的文本聚类系统的结构;同时作者在windows下用VC++实现了一个中文文本聚类系统,该系统采用作者提出提出的电子词表结构和切词方法来实现切词,该系统支持潜在语义模型和常用的向量空间模型,该系统采用作者提出的具体的基于k-means的聚类算法进行聚类分析;本文对采用传统的向量空间模型的聚类效果和采用潜在语意索引模型的聚类效果进行了相应的实验比较研究;给出了聚类效果的评估方法和实验结果,以及对试验结果的具体分析。
【学位授予单位】:西安建筑科技大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 张祥;石广田;;基于聚类优化的支持QOS语义web服务发现框架研究[J];硅谷;2011年17期
2 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
3 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
4 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
5 颜子夜;陆耀;李建武;马跃;;一种基于核主成分分析的图像超分辨率算法[J];山东大学学报(工学版);2011年04期
6 畅春华;赵汗青;秦博;;基于激光雷达的移动机器人实时位姿估计算法[J];装甲兵工程学院学报;2011年04期
7 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
8 潘鸿飞;梁栋;陈军宁;唐俊;王年;杨海蓉;;基于谱图理论的形状聚类仿真(英文)[J];系统仿真学报;2011年07期
9 李优;;Web搜索结果组织与展示的一种机制[J];信息安全与技术;2011年06期
10 戴菲;;数据挖掘技术在电子商务中的应用[J];电脑知识与技术;2011年21期
中国重要会议论文全文数据库 前10条
1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
3 杜方键;杨宏晖;;K均值聚类优化集成学习[A];2011'中国西部声学学术交流会论文集[C];2011年
4 穆向禹;浦剑涛;张树武;徐波;;基于状态子空间聚类的多层MLLR自适应算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
6 杨广林;赵云峰;王书理;;Gabor滤波器及其在图像特征提取方面的优化算法[A];2005年中国智能自动化会议论文集[C];2005年
7 冯又层;蔡勖;;基于自组织特征映射的证券市场聚类[A];第二届全国复杂动态网络学术论坛论文集[C];2005年
8 张刚;刘悦;;基于查询空间的分布式文档集合划分算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 高阳;赵瑞娜;赵志强;阿杉;;基于自组织特征映射网络的全国地级市城市地价区域分类研究[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年
中国重要报纸全文数据库 前10条
1 王云鹤 熊立;武汉电信直销中心剑指聚类市场[N];人民邮电;2009年
2 记者 肖卓;聚类市场:想挖金矿不容易[N];人民邮电;2009年
3 张秋;突破聚类市场的信息化盲区[N];中国计算机报;2007年
4 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
5 符信;30个指标评价社会发展水平[N];南方日报;2005年
6 记者 李远治 通讯员 邹超 敖翔;重庆号百传媒探索聚类市场新模式[N];人民邮电;2009年
7 本报记者 薛海滨;四大概念技术秀[N];计算机世界;2005年
8 长江期货 韩锦 邹云峰 高华;基于RFM模型的聚类分析算法在期货公司客户分类中的应用[N];期货日报;2008年
9 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
10 本报记者 许愿;顾客的终生价值[N];机电商报;2005年
中国博士学位论文全文数据库 前10条
1 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
2 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
3 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
4 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
5 雷景生;神经网络的分类、聚类功能及其规则抽取研究[D];新疆大学;2003年
6 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
7 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
8 贾俊杰;空间数据挖掘中若干关键技术研究[D];长安大学;2009年
9 黄发良;Web信息网络社区挖掘的关键技术研究[D];华南理工大学;2011年
10 贺琳;基于数据挖掘的道路运行安全风险分析[D];大连海事大学;2012年
中国硕士学位论文全文数据库 前10条
1 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
2 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
3 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
4 刘晓燕;基于聚类的入侵检测系统研究[D];青岛大学;2006年
5 于世东;多维数据可视化技术的研究及应用[D];沈阳工业大学;2006年
6 戴金;改进K-MEANS算法及在Ⅰ型糖尿病血糖值的聚类应用[D];北京交通大学;2011年
7 孙会岭;移动环境中基于聚类的个性化推荐算法研究[D];燕山大学;2011年
8 郑国荣;基于电信CRM系统的客户消费模式研究[D];重庆大学;2005年
9 王清江;基于力学的聚类算法[D];大连理工大学;2006年
10 张锦;关于一种混合式入侵检测系统的研究与设计[D];沈阳工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026