收藏本站
《山西财经大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于W-BTM的短文本主题挖掘及文本分类应用

张雅君  
【摘要】:随着互联网和各类社交网站以及电子商务的快速兴起,以文本信息为代表的非结构化信息大量涌现,从中挖掘出有价值的信息变得越来越重要,但同时复杂的语义也使得信息价值的提取变得越来越困难。尤其是短文本信息,其稀疏性和不完整性也给文本挖掘带来了新的巨大挑战。因此,对于文本信息挖掘的研究逐步转向了对于短文本信息挖掘的研究。BTM是一个针对短文本的主题挖掘模型,在处理短文本的稀疏性和不完整性问题上相对于其它主题模型有很大的优势。但包括BTM模型在内的现有文本挖掘模型,模型中都没有特殊的参数设置等对其进行处理,只是在数据预处理时加载停用词表对其进行删除操作。而不同的语料选择会有差异性,千篇一律的使用同样的停用词表并不具有科学性。因此,对于不同的语料集,应该找出可以反映其文本特征的停用词。基于对上述短文本特点和停用词处理的考虑,以差异系数作为权重模型,表示文本中词语的权重,然后将其作为BTM模型的一个参数形成最终的W-BTM模型,从而消除短文本和停用词对文本主题挖掘的影响。模型中使用吉布斯抽样对参数进行估计,从潜在变量的先验分布中抽样,对后验参数进行估计。最后将模型应用于当当网图书简介数据,使用支持向量机对W-BTM模型产生的结果矩阵进行分类,并对比不同模型的分类结果,证明W-BTM模型的优越性。W-BTM模型在整个语料集中寻找“词对”的前提是“词对”中每个词在整个文档中的权重即差异系数已知。在这种情况下,“词对”有了更深层次的含义,它不再只是单一的表示文档中同时出现的两个词语,而且还代表着词语本身的性质,即是否为停用词。这就可以消除停用词的不恰当选择对于文本信息挖掘准确性的影响。为了验证W-BTM的有效性和科学性,以LDA模型和BTM模型做对比进行文本分类实验和应用,从主题挖掘和文本分类两个角度对整个的实验结果进行评价,最终证明了W-BTM模型的分类效果优于LDA模型和BTM模型。本文的创新之处如下:(1)对于停用词的处理,抛弃传统的选择停用词表并将停用词直接去除的方法,而是使用权重模型取而代之,使得文本挖掘的结果更加科学和准确。(2)将权重模型与BTM模型相结合,形成新的主题模型W-BTM,既可以用于短文本的分类,解决短文本的稀疏性问题,也弥补了数据预处理时停用词处理的漏洞。(3)将W-BTM模型应用于当当网图书简介分类,赋予模型更加实际的现实意义。通过对数据不平衡性的处理、W-BTM模型的使用以及支持向量机对于文本-主题矩阵的分类,最终验证了W-BTM模型的有效性。针对分类结果,将W-BTM模型与LDA模型和BTM模型进行对比,验证了W-BTM模型的优越性。
【学位授予单位】:山西财经大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

免费申请
【参考文献】
中国期刊全文数据库 前10条
1 鞠哲;曹隽喆;顾宏;;用于不平衡数据分类的模糊支持向量机算法[J];大连理工大学学报;2016年05期
2 魏亚利;刘丽;项雪琰;齐绪停;;基于支持向量机的不平衡样本集分类算法[J];山东师范大学学报(自然科学版);2016年02期
3 李振兴;王松;;基于卡方特征和BTM融合的短文本分类方法[J];兰州交通大学学报;2016年01期
4 史庆伟;从世源;;基于mRMR和LDA主题模型的文本分类研究[J];计算机工程与应用;2016年05期
5 郑诚;吴文岫;代宁;;融合BTM主题特征的短文本分类方法[J];计算机工程与应用;2016年13期
6 韩冬煦;常宝宝;;中文分词模型的领域适应性方法[J];计算机学报;2015年02期
7 李珍香;王文剑;郭虎升;;处理多类不平衡数据的SVM分类算法[J];计算机工程与设计;2014年07期
8 丁福利;孙立民;;基于支持向量机的不平衡样本分类研究[J];科学技术与工程;2014年03期
9 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
10 李岩;韩斌;赵剑;;基于短文本及情感分析的微博舆情分析[J];计算机应用与软件;2013年12期
中国博士学位论文全文数据库 前3条
1 张静静;基于不平衡数据集的支持向量机模型与算法研究[D];中国农业大学;2015年
2 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年
3 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 卢兴;基于统计方法的中文短文本情感分析[D];北京理工大学;2016年
2 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
3 皮丽琴;基于AdaBoost-GASVM算法和LDA主题模型的短文本分类研究[D];华南理工大学;2015年
4 张超;一种词性标注LDA模型的文本分类方法研究[D];华中师范大学;2015年
5 代宁;短文本挖掘中的主题模型扩展[D];安徽大学;2015年
6 马治涛;文本分类停用词处理和特征选择技术研究[D];西安电子科技大学;2014年
7 洪淑芳;基于支持向量机的不平衡数据分类算法研究[D];江苏科技大学;2014年
8 郭剑飞;基于LDA多模型中文短文本主题分类体系构建与分类[D];哈尔滨工业大学;2014年
9 庄鸿鸿;SVM算法在不平衡数据集中的应用研究与改进[D];福州大学;2014年
10 张涛;基于支持向量机的不平衡数据分类方法研究与应用[D];西安建筑科技大学;2014年
【共引文献】
中国期刊全文数据库 前10条
1 董苑;钱丽萍;;基于语义词典和词频信息的文本相似度计算[J];计算机科学;2017年S2期
2 李湘东;阮涛;刘康;;基于维基百科的多种类型文献自动分类研究[J];数据分析与知识发现;2017年10期
3 李骏亮;李耕;张曙;;命名实体识别在无效文本过滤中的应用——过滤影视作品中的无效评论[J];电子技术;2017年09期
4 敖银辉;黄晓鹏;袁敏正;陈希隽;方恩权;;基于非平衡数据的车辆轮对状态集成分类方法[J];西南交通大学学报;2017年05期
5 成建国;张鸿星;唐彦;王汪送;张进;李晓东;冯钧;;突发涉水事件的舆情分析研究[J];水利信息化;2017年04期
6 晏敬东;杨彩霞;张炜南;;基于生命周期理论的微博舆情引控研究[J];情报杂志;2017年08期
7 苏婧琼;刘建霞;谢珺;郝洁;任密蜂;;面向新闻文档的子话题划分方法研究[J];小型微型计算机系统;2017年08期
8 王文娟;马建霞;;基于LDA的科研项目主题挖掘与演化分析——以NSF海洋酸化研究为例[J];情报杂志;2017年07期
9 杜利敏;徐扬;;基于Biased-SVM的非平衡半监督分类算法[J];河南大学学报(自然科学版);2017年04期
10 陈鸿光;唐亚敏;金彪;;编程类课程实验报告自动生成与批改方案研究[J];实验室科学;2017年03期
中国博士学位论文全文数据库 前10条
1 胡文心;视频点播量定量预测若干算法研究[D];华东师范大学;2016年
2 李虎;面向互联网应用的不平衡数据分类技术研究[D];国防科学技术大学;2016年
3 张金松;基于引文上下文分析的文献检索技术研究[D];大连海事大学;2013年
4 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
5 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
6 彭柳青;高维高噪声数据聚类中关键问题研究[D];西安电子科技大学;2011年
7 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
8 梁艳红;基于专利挖掘的创新设计关键技术研究[D];河北工业大学;2011年
9 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
10 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 何流;计算机辅助定密系统关键技术研究与实现[D];北京交通大学;2017年
2 卢薇冰;基于CNN的陆空通话语义识别方法[D];中国民航大学;2017年
3 路玉君;基于RNN的陆空通话语义描述与度量方法[D];中国民航大学;2017年
4 张松;同一新闻事件识别研究[D];河北大学;2017年
5 姜保强;微博的舆情发现与分析研究[D];河北地质大学;2017年
6 高玉娟;智能搜索引擎关键技术研究及应用[D];浙江理工大学;2017年
7 洪铭;基于SVM的不平衡数据分类算法研究及其应用[D];华侨大学;2017年
8 马京苗;网购用户评论中隐式评价对象的提取方法研究[D];北京交通大学;2017年
9 张雅君;基于W-BTM的短文本主题挖掘及文本分类应用[D];山西财经大学;2017年
10 于秀开;基于标题与正文的文本分类和评价对象抽取方法研究[D];安徽大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 李锋刚;梁钰;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分类研究[J];计算机应用研究;2015年01期
2 许翠云;业宁;;基于类向心度的模糊支持向量机[J];计算机工程与科学;2014年08期
3 吕超镇;姬东鸿;吴飞飞;;基于LDA特征扩展的短文本分类[J];计算机工程与应用;2015年04期
4 刘艳;钟萍;陈静;宋晓华;何云;;用于处理不平衡样本的改进近似支持向量机新算法[J];计算机应用;2014年06期
5 姚明海;王娜;齐妙;李妍;;改进的最大相关最小冗余特征选择方法研究[J];计算机工程与应用;2014年09期
6 刘智;杨宗凯;刘三(女牙);王泰;孟文婷;王胜明;;采用动态特征选择的中文情感识别研究[J];小型微型计算机系统;2014年02期
7 马雯雯;魏文晗;邓一贵;;基于隐含语义分析的微博话题发现方法[J];计算机工程与应用;2014年01期
8 刘德喜;万常选;;社会化短文本自动摘要研究综述[J];小型微型计算机系统;2013年12期
9 李岩;韩斌;赵剑;;基于短文本及情感分析的微博舆情分析[J];计算机应用与软件;2013年12期
10 刘露;彭涛;左万利;戴耀康;;一种基于聚类的PU主动文本分类方法[J];软件学报;2013年11期
中国博士学位论文全文数据库 前2条
1 田野;基于微博平台的事件趋势分析及预测研究[D];武汉大学;2012年
2 唐明珠;类别不平衡和误分类代价不等的数据集分类方法及应用[D];中南大学;2012年
中国硕士学位论文全文数据库 前10条
1 郑丽洁;小文本语料库在Hadoop平台上的存储策略研究[D];华中师范大学;2014年
2 董露露;基于特征选择及LDA模型的中文文本分类研究与实现[D];安徽大学;2014年
3 贾玉生;基于Hadoop的分布式文本分类研究[D];北京工业大学;2013年
4 金鹏;基于Hadoop的SKNN文本分类算法的设计与实现[D];华中师范大学;2013年
5 杨国营;基于MapReduce模型文本分类算法的研究[D];辽宁大学;2013年
6 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
7 谢静;基于LDA与SVM的文本分类研究[D];河北大学;2012年
8 杨新佳;基于神经网络的教学质量评价模型研究[D];西安科技大学;2011年
9 刘军;基于神经网络的教师教学质量评价模型的研究与实现[D];长春师范学院;2011年
10 赵文娟;基于支持向量机的不平衡数据分类研究及应用[D];重庆理工大学;2011年
【相似文献】
中国硕士学位论文全文数据库 前1条
1 张雅君;基于W-BTM的短文本主题挖掘及文本分类应用[D];山西财经大学;2017年
中国知网广告投放
相关机构
>山西财经大学
相关作者
>张雅君
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026