收藏本站
《苏州大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于上下文的主题模型

常东亚  
【摘要】:主题模型是分析大规模文档集合最有效的工具,它能够有效的从大量的非结构化文本数据中提取出有用的语义信息。自从潜在狄利克雷分配(LDA)主题模型被提出来之后,就吸引了很多学者对它的研究,并提出来了很多不同的求解方法。这些模型通过不断改进已经应用在很多领域,并且有很好的实践效果。LDA是一个无监督模型,能够自动提取出文本中的语义信息,挖掘背后的语义关联。同时它也是一个基于“Bag-of-Word”假设的模型,这种方法假设文档是单词词频的组合,不考虑文档中单词之间的顺序关系,造成了单词之间的语义混淆,例如同一文档中前后相同的单词由于其上下文信息不同,可能具有不同的含义。这种方法虽然简化了模型的复杂度,但是造成了模型的预测能力较低,为模型的改进提供了契机。本文针对原有主题模型基于“Bag-of-Word”的假设造成预测能力较低等问题,提出了两种新的主题模型,这两种模型都不再单单是把文档看作词频的向量组合,而是把文档中单词之间的顺序关系也考虑了进去。(1)基于滑动窗口的主题模型(SWTM):这种模型根据窗口和滑动位移,把文档切割为粒度更小的片段,并对每个窗口内的所有单词计算主题概率分布。其基本思想是文档中一个单词的主题与其附近若干单词的主题关系更为紧密,受附近单词主题的影响最大。文档中的每个单词由于所在的窗口不同,因此也就具有不同的上下文信息。实验结果表明,基于滑动窗口的主题模型在混淆度(Perplexity)上平均减少了25%~54%,并且收敛速度也有提高。(2)基于中心词的上下文主题模型(CCTM):基于滑动窗口的主题模型并没有完全排除“词袋”的假设,因此提出了基于中心词的上下文主题模型。这种模型在计算每个单词的主题概率分布时,以这个词为中心,前后扩展若干个词作为其上下文信息,通过其上下文信息来计算主题概率分布。文档中相同的单词由于其上下文信息不同,所以其主题概率分布也不同。实验结果表明,基于中心词的上下文主题模型在混淆度(Perplexity)上相对于SWTM平均减少了9%。(3)上述两种模型都是针对离线数据的,特点是一次性把所有的数据都加载到内存中计算,当数据量大的时候,就会造成内存资源不足、训练时间长等情况。针对数据流,在基于滑动窗口主题模型和基于中心词的上下文主题模型的基础上提出了在线滑动窗口主题模型(OSWTM)和在线中心词上下文主题模型(OCCTM)。在四个数据集上的实验结果表明,OSWTM和OCCTM在混淆度(Perplexity)上相对其它在线主题模型平均减少24%~55%和37%~63%。
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前4条
1 楼小帆;吴军;马严;林昭文;;基于LDA模型的高校论坛热点提取系统[J];华中科技大学学报(自然科学版);2016年S1期
2 蒋铭初;潘志松;尤峻;;基于PLSA主题模型的多标记文本分类[J];数据采集与处理;2016年03期
3 陈兴蜀;高悦;江浩;杜敏;王海舟;何建云;;基于OLDA的热点话题演化跟踪模型[J];华南理工大学学报(自然科学版);2016年05期
4 蒋卓人;陈燕;高良才;汤帜;刘晓钟;;一种结合有监督学习的动态主题模型[J];北京大学学报(自然科学版);2015年02期
【共引文献】
中国期刊全文数据库 前10条
1 李湘东;阮涛;潘练;;融合去噪技术和动态主题数的新闻话题分析框架研究[J];情报科学;2018年04期
2 朱杰;;基于改进的TF-IGM热词提取算法研究[J];信息技术;2018年03期
3 蒋建洪;王珂;;基于SA-LDA模型的美食热点发现研究[J];美食研究;2017年04期
4 孙凌;韩立新;勾智楠;;基于变分自动编码器的动态主题模型[J];河北工业科技;2017年06期
5 陈斌;马静;;基于HLDA-IDF模型的网络文本主题挖掘研究[J];情报理论与实践;2017年10期
6 王金丽;冯立波;;新媒体环境下高校舆情监管机理及应对策略研究[J];吉林工程技术师范学院学报;2017年09期
7 蒋卓人;高良才;赵星;刘晓钟;袁珂;汤帜;;中英文科技主题排序相关性的比较研究:以计算机领域为例[J];情报学报;2017年09期
8 裴可锋;陈永洲;马静;;基于OLDA的可变在线主题演化模型[J];情报科学;2017年05期
9 余本功;张卫春;王龙飞;;基于改进的OLDA模型话题检测及演化分析[J];情报杂志;2017年02期
10 桂小庆;张俊;张晓民;于鹏飞;;时态主题模型方法及应用研究综述[J];计算机科学;2017年02期
【二级参考文献】
中国期刊全文数据库 前10条
1 陈晓美;高铖;关心惠;;网络舆情观点提取的LDA主题模型方法[J];图书情报工作;2015年21期
2 钟荣飞;;基于主题模型的网络舆情监控系统设计[J];电脑知识与技术;2015年07期
3 张敏灵;;偏标记学习研究综述[J];数据采集与处理;2015年01期
4 李志欣;卓亚琦;张灿龙;周生明;;多标记学习研究综述[J];计算机应用研究;2014年06期
5 邸鹏;段利国;;一种新型朴素贝叶斯文本分类算法[J];数据采集与处理;2014年01期
6 林萍;黄卫东;;基于LDA模型的网络舆情事件话题演化分析[J];情报杂志;2013年12期
7 江浩;陈兴蜀;杜敏;;基于主题聚簇评价的论坛热点话题挖掘[J];计算机应用;2013年11期
8 江雨燕;李平;王清;;基于共享背景主题的Labeled LDA模型[J];电子学报;2013年09期
9 章建;李芳;;基于局部和全局的LDA话题演化分析[J];上海交通大学学报;2012年11期
10 任昭春;马军;陈竹敏;;基于动态主题建模的Web论坛文档摘要[J];计算机研究与发展;2012年11期
【相似文献】
中国期刊全文数据库 前1条
1 邹瑜;;ASP.NET技术基本分析[J];现代商贸工业;2011年14期
中国博士学位论文全文数据库 前5条
1 徐猛;N人雪堆博弈模型的第三种策略引入及其影响探究[D];浙江大学;2017年
2 黄毅敏;主辅制造商协同生产系统博弈模型研究[D];天津大学;2016年
3 冯玉磊;黑洞蒸发的一种幺正模型[D];浙江大学;2017年
4 王鹏;基于细观有限元模型的多胞材料中的局部应力计算方法及应用[D];中国科学技术大学;2017年
5 李璐;水冷反应堆主回路腐蚀产物活化及迁移模型的研究[D];华北电力大学(北京);2017年
中国硕士学位论文全文数据库 前10条
1 常东亚;基于上下文的主题模型[D];苏州大学;2017年
2 徐步霄;社会阶层对不诚实行为的影响:一个有中介的调节模型[D];华中师范大学;2017年
3 胡小雪;新手咨询师朋辈互助团体督导模型的构建与研究[D];江西师范大学;2017年
4 陈瑶;连续时间复合二项模型的最优分红问题[D];河北工业大学;2015年
5 康凯;基于Skewed-T Realized GARCH模型的沪深300指数波动性研究[D];天津商业大学;2017年
6 胡云凤;基于主题模型的在线评论分析方法研究[D];西安电子科技大学;2017年
7 覃利华;若干个双险种风险模型破产问题的研究[D];广西大学;2017年
8 刘冬冬;RF LDMOS功率晶体管的特性分析与模型研究[D];电子科技大学;2017年
9 孙福云;一类相依结构的稀疏风险模型的周期分红研究[D];曲阜师范大学;2017年
10 李海霞;支付破产时刻赤字的连续时间复合二项模型的最优分红问题[D];河北工业大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026