收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘中若干关键问题的研究

胡佳妮  
【摘要】: 文本挖掘是指从文本数据中获取可理解的、可用的知识的过程,其涉及数据挖掘、模式识别、信息检索、自然语言处理等多个领域的内容。本文针对文本挖掘中的若干关键问题,例如文本分类的特征抽取、聚类分析以及查询扩展等,展开了如下的研究: (1)基于鉴别语义分析的文本特征抽取。本文提出一个适用于高维数据的鲁棒线性鉴别模型RDM(Robust linear Discriminant analysisModel)。该模型采用正则化方法提高传统鉴别分析模型的泛化能力,并引入能量自适应准则自动选择正则化参数,从而避免了复杂的模型参数选择问题。在RDM基础之上,本文提出一种鉴别语义特征抽取DSF(Discriminative Semantic Feature extraction)算法,该算法在文本的潜在语义空间内进行鲁棒鉴别分析,从而抽取出最能体现分类信息的语义特征。文本分类实验表明DSF算法性能优于常用的线性鉴别分析算法,并且其性能不受潜在语义空间维度大小的影响,从而验证了RDM的鲁棒性。 (2)基于局部鉴别索引的文本特征抽取。本文研究面向分类的流形建模方法,提出一个新的文本特征抽取算法——局部鉴别索引LDI(Locality Discriminating Indexing)。该算法用近邻图来描述语义空间中文本类内的局部邻近结构,同时提出入侵图的概念,并用其自适应地描述不同类别流形在局部区域内的交叠。LDI算法通过求解广义特征值问题得到一个在增强类内流形结构紧致性的同时减少不同类流形间交叠的最优线性子空间。LDI算法成功地使用流形学习的思想来提高文本的类别可分性,文本分类实验结果表明局部鉴别索引算法优于其它基于流形学习的特征抽取算法。 (3)基于子类合并的文本聚类。针对传统聚类算法无法发现复杂文本类别结构的不足,本文提出一个新的自适应子类合并ASM(Adaptive Subcluster Merging)算法。该算法首先将文本集划分成若干个相似粒度的子类,而后根据类中心密度大于类边缘密度的假设将部分子类合并,从而得出聚类结果。在合成数据和文本数据上的聚类实验结果表明ASM算法的聚类有效性明显优于最大方差聚类算法,同时也避免了基于密度聚类算法的复杂的参数选择过程。 (4)基于局部一致和全局平滑假设的文本半监督聚类。无监督的聚类的结果很难与数据的真实类别结构一致。为了解决这一问题,本文提出一种基于局部一致和全局平滑LCGS(Local Consistency andGlobal Smoothing)的半监督聚类算法。LCGS算法将已知的少量标注信息用一个约束等式表示,将局部一致和全局平滑思想体现在目标函数中,从而将半监督聚类问题转化为一个带约束的二次优化问题,并最终得到一个全局最优的聚类结果。在文本数据上的实验表明当标注数据仅占数据总量的2%时,LCGS算法的聚类有效性就可比无监督聚类算法高60%。 (5)融合词语相关性与语义相似度的查询扩展。在文本检索系统中,查询短小和查询词与索引词不匹配现象会降低系统的检索精度。为了解决这个问题,本文首先提出一种基于全局分析GA(GlobalAnalysis)的查询扩展算法。GA算法通过统计语料集中词对的互信息和距离得到索引词间的相关性,从而扩展出与原始查询最为相关的词。而后,本文将统计分析得出的词语相关性与通过知识库——《知网》得到的语义相似度融合,提出基于相关性和相似度融合RSI(Relevance and Similarity Intergrating)的扩展算法,从而确保扩展词不仅与查询相关并且与查询的主旨相近。实验结果表明GA算法的性能优于局部伪反馈算法,而RSI算法的检索精度又高于GA算法。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
2 李燕;张月国;李生红;;基于蚁群算法的文本分类和聚类[J];信息安全与通信保密;2009年10期
3 王昌厚;罗永莲;;基于突发事件新闻网页的文本分类方法研究[J];长治学院学报;2006年02期
4 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
5 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
6 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
7 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
8 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
9 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
10 任克强;张国萍;赵光甫;;基于向量空间模型的特征抽取技术分析[J];科技广场;2007年09期
11 刘海峰;姚泽清;刘守生;王倩;;文本分类中基于核的非线性判别[J];应用科学学报;2008年06期
12 奉国和;郑伟;;文本分类特征降维研究综述[J];图书情报工作;2011年09期
13 王正平;朱玉文;刘万春;;基于类别核心特征词的文本分类[J];计算机与信息技术;2005年03期
14 周剑;王晓军;杨明珠;;中文文本的特征抽取和分类算法[J];科技信息(科学教研);2007年28期
15 刘海峰;姚泽清;王元元;张述祖;;一种基于散度差组合型文本特征降维方法[J];微电子学与计算机;2008年08期
16 刘海峰;姚泽清;王元元;张述祖;;一种基于散度差组合型文本特征降维方法[J];微电子学与计算机;2009年04期
17 张宏松;刘建辉;;面向Web的文本信息挖掘研究[J];计算机系统应用;2006年09期
18 张筱丹;;Web文本挖掘的研究[J];科技信息;2009年04期
19 湛燕,陈昊,袁方,王丽娟;文本挖掘研究进展[J];河北大学学报(自然科学版);2003年02期
20 韩红旗;朱东华;汪雪锋;;类关联词约束的K-Means半监督文本聚类方法[J];微计算机信息;2010年15期
中国重要会议论文全文数据库 前10条
1 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 薛永刚;朱靖波;魏刚;;基于核主成分分析的文本分类[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
3 记者 龚杰;IBM推出电子商务数据库[N];计算机世界;2000年
4 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
5 特约撰稿人 郑优军 甄浩;文稿输入让键盘走开[N];电脑报;2001年
6 燕舞;大地上的那些往事[N];中华读书报;2008年
7 贺慧宇;声发射监测把脉桥梁安全[N];中国建设报;2008年
8 本报记者 洪奇;手写笔:21世纪的主流输入技术[N];计算机世界;2001年
9 朱冰;网络言论分析技术让机器读懂好恶[N];中国高新技术产业导报;2008年
10 孙定;产品与服务[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
2 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
9 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
10 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 蒋冀翔;基于非负矩阵分解的信息获取方法研究[D];东南大学;2006年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
6 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
7 袁野;基于Vague集的网络舆情研究[D];西安电子科技大学;2010年
8 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
9 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
10 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978