收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于上下文的主题模型

常东亚  
【摘要】:主题模型是分析大规模文档集合最有效的工具,它能够有效的从大量的非结构化文本数据中提取出有用的语义信息。自从潜在狄利克雷分配(LDA)主题模型被提出来之后,就吸引了很多学者对它的研究,并提出来了很多不同的求解方法。这些模型通过不断改进已经应用在很多领域,并且有很好的实践效果。LDA是一个无监督模型,能够自动提取出文本中的语义信息,挖掘背后的语义关联。同时它也是一个基于“Bag-of-Word”假设的模型,这种方法假设文档是单词词频的组合,不考虑文档中单词之间的顺序关系,造成了单词之间的语义混淆,例如同一文档中前后相同的单词由于其上下文信息不同,可能具有不同的含义。这种方法虽然简化了模型的复杂度,但是造成了模型的预测能力较低,为模型的改进提供了契机。本文针对原有主题模型基于“Bag-of-Word”的假设造成预测能力较低等问题,提出了两种新的主题模型,这两种模型都不再单单是把文档看作词频的向量组合,而是把文档中单词之间的顺序关系也考虑了进去。(1)基于滑动窗口的主题模型(SWTM):这种模型根据窗口和滑动位移,把文档切割为粒度更小的片段,并对每个窗口内的所有单词计算主题概率分布。其基本思想是文档中一个单词的主题与其附近若干单词的主题关系更为紧密,受附近单词主题的影响最大。文档中的每个单词由于所在的窗口不同,因此也就具有不同的上下文信息。实验结果表明,基于滑动窗口的主题模型在混淆度(Perplexity)上平均减少了25%~54%,并且收敛速度也有提高。(2)基于中心词的上下文主题模型(CCTM):基于滑动窗口的主题模型并没有完全排除“词袋”的假设,因此提出了基于中心词的上下文主题模型。这种模型在计算每个单词的主题概率分布时,以这个词为中心,前后扩展若干个词作为其上下文信息,通过其上下文信息来计算主题概率分布。文档中相同的单词由于其上下文信息不同,所以其主题概率分布也不同。实验结果表明,基于中心词的上下文主题模型在混淆度(Perplexity)上相对于SWTM平均减少了9%。(3)上述两种模型都是针对离线数据的,特点是一次性把所有的数据都加载到内存中计算,当数据量大的时候,就会造成内存资源不足、训练时间长等情况。针对数据流,在基于滑动窗口主题模型和基于中心词的上下文主题模型的基础上提出了在线滑动窗口主题模型(OSWTM)和在线中心词上下文主题模型(OCCTM)。在四个数据集上的实验结果表明,OSWTM和OCCTM在混淆度(Perplexity)上相对其它在线主题模型平均减少24%~55%和37%~63%。


知网文化
【相似文献】
中国期刊全文数据库 前1条
1 邹瑜;;ASP.NET技术基本分析[J];现代商贸工业;2011年14期
中国博士学位论文全文数据库 前5条
1 徐猛;N人雪堆博弈模型的第三种策略引入及其影响探究[D];浙江大学;2017年
2 黄毅敏;主辅制造商协同生产系统博弈模型研究[D];天津大学;2016年
3 冯玉磊;黑洞蒸发的一种幺正模型[D];浙江大学;2017年
4 王鹏;基于细观有限元模型的多胞材料中的局部应力计算方法及应用[D];中国科学技术大学;2017年
5 李璐;水冷反应堆主回路腐蚀产物活化及迁移模型的研究[D];华北电力大学(北京);2017年
中国硕士学位论文全文数据库 前10条
1 常东亚;基于上下文的主题模型[D];苏州大学;2017年
2 徐步霄;社会阶层对不诚实行为的影响:一个有中介的调节模型[D];华中师范大学;2017年
3 胡小雪;新手咨询师朋辈互助团体督导模型的构建与研究[D];江西师范大学;2017年
4 陈瑶;连续时间复合二项模型的最优分红问题[D];河北工业大学;2015年
5 康凯;基于Skewed-T Realized GARCH模型的沪深300指数波动性研究[D];天津商业大学;2017年
6 胡云凤;基于主题模型的在线评论分析方法研究[D];西安电子科技大学;2017年
7 覃利华;若干个双险种风险模型破产问题的研究[D];广西大学;2017年
8 刘冬冬;RF LDMOS功率晶体管的特性分析与模型研究[D];电子科技大学;2017年
9 孙福云;一类相依结构的稀疏风险模型的周期分红研究[D];曲阜师范大学;2017年
10 李海霞;支付破产时刻赤字的连续时间复合二项模型的最优分红问题[D];河北工业大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978