收藏本站
《西安理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于LDA模型的文本分类研究

宋志理  
【摘要】: 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。它是信息检索、机器学习和自然语言处理的热点和关键技术之一。近几年,人们开始将机器学习的方法应用到文本自动分类领域。文本分类系统主要包括文本表示、预处理、特征降维、分类方法和效果评估5个部分。 本文应用LDA(Latent Dirichlet Allocation)概率增长模型,对文档集进行主题建模。克服了采用特征抽取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题。本文主要工作及创新点在于: 1.针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,本文提出了一种基于LDA模型的文本分类方法。在判别模型SVM框架中,应用LDA (Latent Dirichlet Allocation)概率增长模型,对文档集进行主题建模。利用MCMC (Markov chain Monte Carlo)中的Gibbs抽样进行推理,间接计算模型参数,获取文本在主题集上的概率分布。在文档集的隐含主题一文本矩阵上训练SVM(Support Vector Machine),构造文本分类器。在中英文语料库上进行分类实验,验证基于LDA模型的分类方法的有效性和优越性。 2.针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题。本文参考基于密度的聚类算法DBSCAN中计算样本密度的思想来度量主题之间的相关性,提出了基于DBSCAN的最优主题数选择算法。在本文搭建的自动文本分类系统的实验平台上,将分别采用贝叶斯理论的标准方法和基于DBSCAN的最优主题数选择方法,寻找语料库的LDA模型的最优主题数T。实验结果表明,与贝叶斯中标准方法和基于HDP的最优主题数选择方法相比,本文提出的基于DBSCAN的最优主题数选择方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构。
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 范宇;符红光;文奕;;基于LDA模型的专利信息聚类技术[J];计算机应用;2013年S1期
【参考文献】
中国期刊全文数据库 前6条
1 伍建军;康耀红;;文本分类中特征降维方式的研究[J];海南大学学报(自然科学版);2007年01期
2 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期
3 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
4 刘美茹;;基于LSI和SVM的文本分类研究[J];计算机工程;2007年15期
5 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
6 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
【共引文献】
中国期刊全文数据库 前10条
1 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
2 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
3 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
4 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
5 黄文良;李石坚;刘菊新;徐从富;;一个大规模垃圾短信实时过滤系统[J];北京邮电大学学报;2008年03期
6 柯丽;王明文;何世柱;黎佳;罗远胜;;基于频率共现熵的跨语言网页自动分类研究[J];江西师范大学学报(自然科学版);2011年03期
7 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
8 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
9 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
10 沈竞;蒋侨;;DSTFA分布式短文本过滤算法[J];四川兵工学报;2011年10期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 周永健;郑玉明;廖湖声;;基于模糊聚类的文本分类器[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王辉;左万利;;利用质心向量构建增量式分类器(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 刘健;张维明;;基于文本概念序列的非线性分析方法初探[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 ;Text Feature Automatic Selection Algorithm Based on Cloud Model[A];第五届全国信息检索学术会议论文集[C];2009年
10 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 解文杰;基于中层语义表示的图像场景分类研究[D];北京交通大学;2011年
5 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
8 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
9 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
10 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
【同被引文献】
中国期刊全文数据库 前8条
1 陈东晓;陈庆奎;;基于密度优化的KNN算法的研究[J];上海理工大学学报;2010年05期
2 崔春生;吴祈宗;;基于Vague集的内容推荐算法研究[J];计算机应用研究;2010年06期
3 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[J];中文信息学报;2008年01期
4 马芳;王效岳;;基于数据挖掘技术的专利信息分析[J];情报科学;2008年11期
5 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
6 许海玲;吴潇;李晓东;阎保平;;互联网推荐系统比较研究[J];软件学报;2009年02期
7 岑咏华,甘利人,丁晟春;基于内容的Web个性化推荐技术研究[J];图书情报工作;2003年08期
8 方曙;张娴;肖国华;;专利情报分析方法及应用研究[J];图书情报知识;2007年04期
【二级引证文献】
中国期刊全文数据库 前2条
1 崔君君;于林森;李鹏;;协同视觉信息与标注信息图像聚类[J];哈尔滨理工大学学报;2014年02期
2 周萍;秦永彬;黄瑞章;;结合seeds集和LDA的半监督文本聚类算法[J];计算机工程与设计;2014年06期
【二级参考文献】
中国期刊全文数据库 前7条
1 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期
2 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
5 张启蕊,张凌,董守斌,谭景华;训练集类别分布对文本分类的影响[J];清华大学学报(自然科学版);2005年S1期
6 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
【相似文献】
中国期刊全文数据库 前10条
1 张军华;试论电视新闻的文本结构特征[J];广西师范学院学报(哲学社会科学版);2004年02期
2 薛翠芳,郭炳炎;汉语文本结构的自动分析[J];情报学报;2000年04期
3 李静月;李培峰;朱巧明;;一种改进的TFIDF网页关键词提取方法[J];计算机应用与软件;2011年05期
4 金艳;;手机短信的文本功能及特征分析[J];今传媒;2011年07期
5 魏丽霞;郑家恒;;基于网页文本结构的网页去重[J];计算机应用;2007年11期
6 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
7 朱荷香;曲维光;卢俊之;李素建;邵艳秋;;面向自动文摘的文本结构划分[J];南京大学学报(自然科学版);2008年02期
8 李丽娟;;敦煌写本临圹文研究[J];首都师范大学学报(社会科学版);2010年S1期
9 刘晓畅;;新闻的话语与话语的新闻——解读《作为话语的新闻》[J];湖北社会科学;2006年01期
10 陈翼;张计龙;宓詠;;一种跨领域的信息资源的描述标准——基于都柏林核心元数据的高校管理信息标准的研究与应用[J];情报学报;2008年03期
中国重要会议论文全文数据库 前10条
1 段娅;;论社会学批评的人本主义——评析戈德曼和齐马对社会学批评的发展[A];福建省外国语文学会2008年年会论文集[C];2008年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 坂井洋史;;记忆·历史·文本——与周立民君商榷[A];细读《随想录》[C];2008年
4 王应云;谭见初;;汉语韵文英译方法论[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
5 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 王冬梅;;文学性与文学翻译[A];中国英汉语比较研究会第七次全国学术研讨会论文集[C];2006年
7 周小甲;周庆利;;中文病历文本中时间信息自动标注[A];2011年浙江省医学会医学工程学分会第九届学术年会论文汇编[C];2011年
8 陈炯;;立法语言的规范与创新[A];修辞学新视野——汉语修辞与汉文化学术研讨会论文集[C];2004年
9 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
10 孟祥荣;;石碣、太尉及其它——漫议《水浒传》的叙事结构与主旨[A];水浒争鸣(第十一辑)[C];2009年
中国重要报纸全文数据库 前10条
1 湖南省长沙铁路第一中学 黄福清;“多元解读”莫遭到误读[N];中国教育报;2006年
2 张磷;伦敦桥与翻译[N];中华读书报;2003年
3 ;采用国际标准管理办法[N];中国国门时报(中国出入境检验疫报);2002年
4 马洋;随心所欲建论坛[N];中国计算机报;2002年
5 程惠哲;《文学语言学》简评[N];光明日报;2005年
6 天津大学管理学院 张水波;FIDIC合同文本的发展与应用[N];国际商报;2007年
7 张稔穰;文学阅读与阐释的新视野[N];光明日报;2006年
8 刘绍艳;出口企业采用国际标准须关注的几个问题[N];宁波日报;2006年
9 冯光华;推动制度创新 奠定金融衍生产品市场坚实制度基础[N];中国证券报;2007年
10 本报记者 王玮;主旋律图书的模样[N];光明日报;2000年
中国博士学位论文全文数据库 前10条
1 王丹丹;森佩尔三个文本的形式原则比较研究[D];南京大学;2013年
2 温有奎;基于语义挖掘的文本知识元模型与应用研究[D];武汉大学;2010年
3 刘生良;《庄子》文学研究[D];陕西师范大学;2003年
4 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
5 钱纪芳;和合翻译观照下的服装文字语言翻译[D];上海外国语大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 王媛;《今文尚书》文本结构研究[D];首都师范大学;2008年
8 贾学鸿;《庄子》结构艺术研究[D];华东师范大学;2007年
9 蒋斌;文本载体信息隐藏及相关技术研究[D];解放军信息工程大学;2008年
10 唐晓云;用自己的声音言说[D];华中科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 华秀丽;文本抄袭检测方法研究[D];苏州大学;2012年
2 张年东;非连续性文本及其阅读和表达研究[D];西南大学;2014年
3 梁旭;评论文本的对立观点摘要的研究[D];北京交通大学;2013年
4 郑勤勤;面向专业领域的文本矩阵模型[D];华南理工大学;2012年
5 王来涛;网络短文本话题发现与趋势预测研究[D];北京工业大学;2013年
6 张娴;张洁小说语言音乐美试析[D];延边大学;2004年
7 乔宝辉;《德意志意识形态》第一章文本研究[D];黑龙江大学;2009年
8 史良;一种基于特征选择的层次化文本分类算法[D];哈尔滨工程大学;2013年
9 庄明;装备发展战略研究信息化平台中汉语文本信息提取技术的研究[D];国防科学技术大学;2003年
10 刘立胜;从读者接受的角度看文学翻译对等[D];重庆大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026