收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

文本挖掘中若干关键问题的研究

胡佳妮  
【摘要】: 文本挖掘是指从文本数据中获取可理解的、可用的知识的过程,其涉及数据挖掘、模式识别、信息检索、自然语言处理等多个领域的内容。本文针对文本挖掘中的若干关键问题,例如文本分类的特征抽取、聚类分析以及查询扩展等,展开了如下的研究: (1)基于鉴别语义分析的文本特征抽取。本文提出一个适用于高维数据的鲁棒线性鉴别模型RDM(Robust linear Discriminant analysisModel)。该模型采用正则化方法提高传统鉴别分析模型的泛化能力,并引入能量自适应准则自动选择正则化参数,从而避免了复杂的模型参数选择问题。在RDM基础之上,本文提出一种鉴别语义特征抽取DSF(Discriminative Semantic Feature extraction)算法,该算法在文本的潜在语义空间内进行鲁棒鉴别分析,从而抽取出最能体现分类信息的语义特征。文本分类实验表明DSF算法性能优于常用的线性鉴别分析算法,并且其性能不受潜在语义空间维度大小的影响,从而验证了RDM的鲁棒性。 (2)基于局部鉴别索引的文本特征抽取。本文研究面向分类的流形建模方法,提出一个新的文本特征抽取算法——局部鉴别索引LDI(Locality Discriminating Indexing)。该算法用近邻图来描述语义空间中文本类内的局部邻近结构,同时提出入侵图的概念,并用其自适应地描述不同类别流形在局部区域内的交叠。LDI算法通过求解广义特征值问题得到一个在增强类内流形结构紧致性的同时减少不同类流形间交叠的最优线性子空间。LDI算法成功地使用流形学习的思想来提高文本的类别可分性,文本分类实验结果表明局部鉴别索引算法优于其它基于流形学习的特征抽取算法。 (3)基于子类合并的文本聚类。针对传统聚类算法无法发现复杂文本类别结构的不足,本文提出一个新的自适应子类合并ASM(Adaptive Subcluster Merging)算法。该算法首先将文本集划分成若干个相似粒度的子类,而后根据类中心密度大于类边缘密度的假设将部分子类合并,从而得出聚类结果。在合成数据和文本数据上的聚类实验结果表明ASM算法的聚类有效性明显优于最大方差聚类算法,同时也避免了基于密度聚类算法的复杂的参数选择过程。 (4)基于局部一致和全局平滑假设的文本半监督聚类。无监督的聚类的结果很难与数据的真实类别结构一致。为了解决这一问题,本文提出一种基于局部一致和全局平滑LCGS(Local Consistency andGlobal Smoothing)的半监督聚类算法。LCGS算法将已知的少量标注信息用一个约束等式表示,将局部一致和全局平滑思想体现在目标函数中,从而将半监督聚类问题转化为一个带约束的二次优化问题,并最终得到一个全局最优的聚类结果。在文本数据上的实验表明当标注数据仅占数据总量的2%时,LCGS算法的聚类有效性就可比无监督聚类算法高60%。 (5)融合词语相关性与语义相似度的查询扩展。在文本检索系统中,查询短小和查询词与索引词不匹配现象会降低系统的检索精度。为了解决这个问题,本文首先提出一种基于全局分析GA(GlobalAnalysis)的查询扩展算法。GA算法通过统计语料集中词对的互信息和距离得到索引词间的相关性,从而扩展出与原始查询最为相关的词。而后,本文将统计分析得出的词语相关性与通过知识库——《知网》得到的语义相似度融合,提出基于相关性和相似度融合RSI(Relevance and Similarity Intergrating)的扩展算法,从而确保扩展词不仅与查询相关并且与查询的主旨相近。实验结果表明GA算法的性能优于局部伪反馈算法,而RSI算法的检索精度又高于GA算法。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2008
【分类号】:TP311.13

【引证文献】
中国博士学位论文全文数据库 前3条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
3 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
中国硕士学位论文全文数据库 前5条
1 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
2 高希瑞;基于文本挖掘的企业危机预警研究[D];华东师范大学;2011年
3 魏龙;GML时空序列模式挖掘研究[D];江西理工大学;2011年
4 刘东鑫;基于主题模型的个性化短信过滤技术研究[D];北京邮电大学;2010年
5 甘甜甜;基于文本挖掘的财经领域趋势分析技术研究[D];北方工业大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
3 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
4 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
5 秦志光;罗琴;张凤荔;;一种混合的垃圾邮件过滤算法研究[J];电子科技大学学报;2007年03期
6 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
7 富羽鹏;张敏;马少平;;企业与内联网信息检索方法概述[J];广西师范大学学报(自然科学版);2007年02期
8 何明;冯博琴;马兆丰;傅向华;;一种基于高斯混合模型的无监督粗糙聚类方法[J];哈尔滨工业大学学报;2006年02期
9 卢苇;彭雅;;几种常用文本分类算法性能比较与分析[J];湖南大学学报(自然科学版);2007年06期
10 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
中国博士学位论文全文数据库 前8条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
7 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
8 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
4 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
5 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
6 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期
7 刘奎;赵晓静;;一种支持QOS约束面向语义的web服务发现机制[J];安庆师范学院学报(自然科学版);2010年03期
8 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
9 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
10 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
3 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
4 ;A Hybrid Clustering Algorithm Based on Grid Density and Rough Sets[A];第二十七届中国控制会议论文集[C];2008年
5 陈红英;;基于广义表概念树的Web服务匹配[A];第二十七届中国控制会议论文集[C];2008年
6 白琳;魏峻;;一种面向Mashup自动构造的目标分解方法[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
7 张玉军;李心科;;面向自然语言描述的Web服务组合[A];2011中国仪器仪表与测控技术大会论文集[C];2011年
8 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 哈斯那顺乌日图;;蒙古文WordNet名词同义词集合构建算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
5 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
6 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
7 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
8 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
9 陈雁;可见光遥感图像分割与提取研究[D];中国科学技术大学;2010年
10 汤义;智能交通系统中基于视频的行人检测与跟踪方法的研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
3 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
4 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
5 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
6 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
7 齐静;数据挖掘在煤炭企业人力资源管理系统中的应用[D];山东科技大学;2010年
8 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
9 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
10 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李菁菁,胡鹏,赵锐;房地产企业营销组织预警管理指标体系设计[J];四川建筑科学研究;2004年01期
2 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
3 张光卫;康建初;李鹤松;李德毅;;基于云模型的全局最优化算法[J];北京航空航天大学学报;2007年04期
4 孙健,王伟,钟义信;基于K-最近距离的自动文本分类的研究[J];北京邮电大学学报;2001年01期
5 来向武;赵战花;;利用网络传播进行危机预警的优势与方式[J];今传媒;2010年03期
6 王修力;马利平;;文本信息检索的代数模型综述[J];吉林大学学报(信息科学版);2007年05期
7 兰小机,闾国年,刘德儿,张书亮;基于XQuery的GML查询语言研究[J];测绘科学;2005年06期
8 张琪;手机短信:第五媒体的崛起[J];传媒;2005年01期
9 陈术;;文本挖掘技术在新闻研究与报业竞争中的应用——紫光新闻分析与评报系统[J];中国传媒科技;2010年09期
10 刘辉;邵良杉;;Web文本分类中特征项权重的研究[J];科技和产业;2010年02期
中国博士学位论文全文数据库 前10条
1 周海燕;空间数据挖掘的研究[D];中国人民解放军信息工程大学;2003年
2 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
5 张志兵;空间数据挖掘关键技术研究[D];华中科技大学;2004年
6 兰秋军;金融时间序列隐含模式挖掘方法及其应用研究[D];湖南大学;2005年
7 王占全;基于地理信息系统空间数据挖掘若干关键技术的研究[D];浙江大学;2005年
8 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
9 欧阳继红;时空推理中一些问题的研究[D];吉林大学;2005年
10 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 杜俊卫;基于聚类的文本迁移学习算法研究及应用[D];山西财经大学;2011年
2 江叶婵;手机阅读内容研究[D];安徽大学;2011年
3 刘凯军;支持向量机研究及其在货币识别中的应用[D];西安理工大学;2004年
4 孙英慧;基于向量空间模型的数据挖掘技术的研究[D];东北师范大学;2005年
5 吴强;空间数据挖掘中的分类方法及其应用研究[D];山东大学;2005年
6 胡海波;复杂网络拓扑结构的研究[D];西安理工大学;2006年
7 苏力华;基于向量空间模型的文本分类技术研究[D];西安电子科技大学;2006年
8 牛洪琦;空间数据挖掘分类算法的研究[D];大连海事大学;2006年
9 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
10 赵国富;基于聚类的空间数据挖掘方法与应用研究[D];山东理工大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 王兴起;王维才;谢宗晓;丘东;;文本挖掘技术在信息安全风险评估系统中的应用研究[J];情报理论与实践;2013年04期
中国硕士学位论文全文数据库 前1条
1 涂安龙;一种CM-RS文本特征提取方法研究[D];华中师范大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 吕安民,林宗坚,李成名;数据挖掘和知识发现的技术方法[J];测绘科学;2000年04期
2 郑柯,冯桂炎;道路交通事故多发点道路状态的技术分析[J];长沙交通学院学报;2000年01期
3 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
4 张俐,李晶皎,胡明涵,姚天顺;中文WordNet的研究及实现[J];东北大学学报;2003年04期
5 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
6 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
7 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
8 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
9 王飞,刘大有,卢奕南,虞强源;基于遗传算法的动态Bayesian网结构学习的研究[J];电子学报;2003年05期
10 吴春明;陈治;姜明;;蚁群算法中系统初始化及系统参数的研究[J];电子学报;2006年08期
中国重要会议论文全文数据库 前1条
1 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前2条
1 肖明;WWW科技信息资源自动标引的理论与实践研究[D];中国科学院文献情报中心;2001年
2 吴健;基于Web服务的网络化产品配置技术研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前1条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
2 李燕;张月国;李生红;;基于蚁群算法的文本分类和聚类[J];信息安全与通信保密;2009年10期
3 王昌厚;罗永莲;;基于突发事件新闻网页的文本分类方法研究[J];长治学院学报;2006年02期
4 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
5 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
6 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
7 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
8 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
9 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
10 任克强;张国萍;赵光甫;;基于向量空间模型的特征抽取技术分析[J];科技广场;2007年09期
中国重要会议论文全文数据库 前10条
1 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
6 薛永刚;朱靖波;魏刚;;基于核主成分分析的文本分类[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
8 朱慕华;朱靖波;陈文亮;;面向支持向量机的降维方法比较分析[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
3 记者 龚杰;IBM推出电子商务数据库[N];计算机世界;2000年
4 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
5 特约撰稿人 郑优军 甄浩;文稿输入让键盘走开[N];电脑报;2001年
6 燕舞;大地上的那些往事[N];中华读书报;2008年
7 贺慧宇;声发射监测把脉桥梁安全[N];中国建设报;2008年
8 本报记者 洪奇;手写笔:21世纪的主流输入技术[N];计算机世界;2001年
9 朱冰;网络言论分析技术让机器读懂好恶[N];中国高新技术产业导报;2008年
10 孙定;产品与服务[N];计算机世界;2001年
中国博士学位论文全文数据库 前10条
1 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
2 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
3 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
6 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
9 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
10 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 蒋冀翔;基于非负矩阵分解的信息获取方法研究[D];东南大学;2006年
2 陈治纲;基于向量空间模型的文本分类系统研究与实现[D];天津大学;2005年
3 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
6 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
7 袁野;基于Vague集的网络舆情研究[D];西安电子科技大学;2010年
8 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
9 贾淑芳;基于用户日志聚类的查询扩展[D];北京邮电大学;2010年
10 王水利;基于互信息的语义查询扩展技术研究[D];河南科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026