收藏本站
《北京化工大学》 2010年 博士论文
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘若干关键技术研究

李芳  
【摘要】: 随着网络信息技术的飞速发展,能获得的文本信息集合出现了爆炸性的增长。人们在为如此海量、丰富的文本资源欣喜之余,又不得不为难以驾驭如此庞大的信息而惋惜。文本挖掘技术就在这样的背景下应运而生并受到越来越多的关注。作为一个新的正在迅速成为热点的研究领域,文本挖掘致力于从庞大的文本资源中找到“金矿”,为用户服务。 文本挖掘从数据采集到知识的发现是一个复杂而又繁琐的过程。要经历数据的准备、模型的建立、文本的挖掘、结果的展示等一系列的过程。本文就其中的关键步骤和难点问题进行了研究,主要内容如下: 本文首先研究了向量空间模型建模的整个过程,针对两个标准的benchmark数据集TanCorp(中文)和Reuters(英文)建立了向量空间模型,作为后续研究的基础。同时,针对向量空间模型所使用的关键词集过于庞大而导致的模型高维性问题,引入关联规则方法对其进行简化,并给出了对文本数据进行关联分析的具体实现方案以及当有新的文档到达时的增量更新方法。 本文重点研究了文本数据的聚类方法。对基于非负矩阵分解的聚类相关理论和算法进行了深入地分析和探讨。为了进一步提高非负矩阵分解方法的收敛性能,提出了两种新的基于矩阵变换的非负矩阵分解算法,并从相关理论分析和性能仿真的角度对其进行了验证。仿真试验表明,基于矩阵变换的NMF算法,具有和现有方案类似的计算复杂度,却可以有效提高非负矩阵分解的收敛速度。 同时,针对文本数据中高度相关难以划分的问题,引入核聚类方法,在对核函数的基本理论进行总结的基础上,深入研究了核聚类算法、模糊核聚类算法以及基于语义核的局部自适应聚类算法,在此基础上,将高斯核与语义信息结合起来,提出基于高斯语义核的局部自适应聚类算法,以提高核聚类算法的性能。并分别结合人工生成数据集以及Reuters文本数据集合进行了仿真评估。 在此基础上,针对文本数据中存在大量层次类别关系的问题,研究了划分和凝聚相结合的层次聚类思想,重点分析了基于NMF的层次聚类算法,对于如何确定层次聚类的数目进行了讨论,提出了两种不同的基于NMF的层次聚类处理方法。结合TanCorp多层数据集的研究和仿真表明:基于特征-文本矩阵V进行凝聚层次聚类的算法可以在不影响聚类效果的前提下大大降低计算复杂度。此外,还研究了聚类结果的两种表示方法,对基于NMF的聚类表示和基于testor理论的聚类表示进行了深入的分析。 最后,将所研究的文本挖掘方法应用到科研信息领域,设计并架构了用于进行科研信息自动建议的原型系统,并给出了初步的仿真结果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期
2 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期
3 李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期
4 张群;;文本挖掘技术及其在专利信息分析中的应用[J];现代情报;2006年03期
5 王珍珍;;关于文本挖掘中文本分类与文本聚类的研究[J];科技信息;2007年06期
6 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
7 康曙光;裴志利;孔英;;基于改进遗传算法的WEB文本挖掘系统[J];内蒙古民族大学学报;2009年02期
8 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
9 易丽萍;李红霞;;HowNet在文本挖掘中的应用[J];电脑知识与技术;2009年12期
10 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
11 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
12 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
13 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
14 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
15 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
16 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
17 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
18 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
19 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
20 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
4 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
5 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
7 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
8 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
9 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 郝占刚;基于遗传算法等技术的数据与文本聚分类研究[D];天津大学;2006年
5 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
3 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
4 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
5 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
6 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 李伯阳;文本聚类方法研究及其应用[D];厦门大学;2008年
9 高娟;基于K-means算法的文本聚类的研究与实现[D];江西理工大学;2010年
10 宋太杰;粗糙集理论在文本挖掘中的应用研究[D];长春理工大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 本报记者 张承东;挖潜无极限[N];网络世界;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978