收藏本站
《天津大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

文本聚类分析若干问题研究

高茂庭  
【摘要】: 面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的若干问题进行了较深入的研究,主要包括如下几个方面: 提出了一种基于投影寻踪的文本聚类新算法,该方法利用遗传算法寻找最优投影方向,将文本特征空间投影到一维空间上,从而以直观的方式显示出数据的结构特征,实现文本聚类分析的可视化。 针对文本特征向量维数高和k-means等方法需要预先确定聚类数的问题。提出了基于LSA、CI、RP及NMF的RPCL文本聚类算法,先运用LSA等方法对文本特征矩阵进行降维处理,再运用RPCL算法进行文本聚类,这些新方法不仅可以有效地降维,还可克服k-means等方法需要预先确定聚类数的困难。 基于向量空间模型,提出了一种基于双词关联的文本特征选择新模型,这种模型在向量空间模型的基础上,增加了文本的双词关联信息,使得向量空间模型中所包含的文本特征信息更加丰富、更加准确,结合隐含语义分析方法降维后,不仅有效地降低了维数,还进一步减少噪声凸现文本的语义特征,从而提高文本挖掘的质量。 基于文档标引图特征模型,提出了一种新的基于短语的相似度计算方法,并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性,从而更加有利于文本的聚类分析、分类等处理。 将基于后缀树的聚类方法用于中文文本聚类中,这种方法将文本看成是一些短语的集合,通过后缀表达文本的相似关系,实现文本聚类。这种方法可以解决多主题的文本聚类问题,并克服了k-means等硬聚类算法将文本严格划分类问题,实现文本的软聚类。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
2 朱大虎;;关于提高web信息检索系统服务水平的探索[J];齐齐哈尔师范高等专科学校学报;2011年02期
3 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
4 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
5 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
6 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
7 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
8 张骏;郭慧;;基于文件指纹的Web文本挖掘[J];计算机与信息技术;2009年05期
9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
10 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
11 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
12 郭玉滨;;Web文本挖掘技术及其应用的研究[J];电脑知识与技术(学术交流);2006年08期
13 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
14 赵康;陆介平;倪巍伟;王桂平;;一种基于密度的文本聚类挖掘算法[J];计算机应用研究;2009年01期
15 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
16 毛嘉莉;;文本聚类中的特征降维方法研究[J];西华师范大学学报(自然科学版);2009年04期
17 张宏松;刘建辉;;面向Web的文本信息挖掘研究[J];计算机系统应用;2006年09期
18 余刚,陈华月,朱征宇,高原;基于词同现频率的文本特征描述[J];计算机工程与设计;2005年08期
19 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
20 马素琴;施化吉;;阈值优化的文本密度聚类算法[J];计算机工程与应用;2011年17期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[A];第三届科技政策与管理学术研讨会暨第二届科教发展战略论坛论文汇编[C];2007年
3 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
8 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
5 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
6 汪洋 编译;BI平民化[N];计算机世界;2004年
7 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
8 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
9 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
10 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
2 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
3 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
6 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
10 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 蔡坤;基于特征词的文本聚类算法研究[D];河南大学;2009年
2 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
3 芦立华;基于后缀树的中文文本聚类算法研究[D];上海海事大学;2005年
4 谭颖;文本挖掘中的聚类算法研究[D];吉林大学;2009年
5 陆鹏;投影寻踪模型在文本聚类算法中的应用研究[D];上海海事大学;2007年
6 李伯阳;文本聚类方法研究及其应用[D];厦门大学;2008年
7 郑韫旸;基于k-平均算法的文本聚类系统研究与实现[D];武汉理工大学;2008年
8 初永玲;数据挖掘在智能答疑系统中的应用与研究[D];沈阳工业大学;2008年
9 祝翠玲;基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[D];山东大学;2005年
10 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978