收藏本站
《吉林大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

主题模型的快速吉布斯采样主题推断算法研究

周晓堂  
【摘要】:随着智能手机的逐渐普及以及互联网尤其是移动互联网的飞速发展,网络上文本类型数据的数量呈现爆炸式地增长,政府、企业以及个人对智能文本挖掘方法的需求越来越强。为解决这些需求,学术界相继提出了一系列智能文本挖掘方法。在已提出的众多文本挖掘方法中,主题模型是一种能够有效地挖掘和发现文本数据中潜在语义主题的非监督学习方法。采用主题模型准确地并快速地挖掘文本数据中的潜在主题能够在较大程度上满足我们在较高概念层次上对大量文本进行组织和管理的需求。因此,在主题模型研究领域中,提高挖掘主题的“准确性”和“时效性”是两个关键的基本问题。其中,在兼顾“准确性”的前提下提高挖掘主题过程的“时效性”是一个较为重要的研究方向。本文主要针对主题模型挖掘过程的“时效性”进行研究,在不改变算法结果“准确性”的前提下提出时效性更高的快速吉布斯采样主题推断算法:~1)针对潜在狄利克雷分配(~(Latent Dirichlet Allocation,LDA))这种较具有代表性和一般性的主题模型,本文提出了一种更适用于长文本数据集主题推断的快速吉布斯采样算法(~(ESparseLDA));~2)针对用于短文本数据集主题挖掘的双词主题模型(~(Biterm Topic Model,BTM)),本文提出了两种快速吉布斯采样主题推断算法(~(SparseBTM)和~(ESparseBTM))。详细地,本文的主要工作内容如下:(1)针对~(LDA)模型的~(SparseLDA)算法在主题推断过程中存在的“重用计算”问题,我们基于~(SparseLDA)算法提出了一种精确的和时效性更高的用于~(LDA)模型主题推断的快速吉布斯采样算法——~(ESparseLDA)算法。~(SparseLDA)算法是用于~(LDA)模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻词项的词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。~(ESparseLDA)算法解决这个问题的核心想法是:首先根据词型重排每个文本内的词项,以使得文本内词型相同的词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。~(ESparse LDA)算法完成和~(SparseLDA)算法同样的任务,并且保证结果的精确度不变。我们从理论分析和对比实验两个方面验证了~(ESparse LDA)算法思路的正确性、结果的精确性和收敛速度的时效性。理论上,~(ESparse LDA)算法的时间复杂度低于~(SparseLDA)算法。相应的对比实验结果表明,在实验使用的不同数据集上~(ESparseLDA)算法的时效性能够高于SparseLDA算法~(31.85%)。从实际情况来看,~(ESparseLDA)算法更适用于文本内词型数相对较少且词项数相对较多的长文本数据集(比如小说、专利和学术论文等)。此外需要说明的是,~(ESparseLDA)算法中的核心想法具有一定的一般性,也可以用来为部分其他的主题模型提出相应的快速吉布斯采样主题推断算法。(2)针对~(BTM)模型主题推断过程中存在的“时间复杂度较高”、“收敛时间较长”问题,我们提出了一种精确的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(SparseBTM)算法。~(BTM)模型是一种有效地用于短文本数据集主题挖掘的主题模型,但是它的标准吉布斯采样算法(~(StdBTM)算法)存在“时间复杂度较高”、“收敛时间较长”问题。针对这个问题,我们基于~(StdBTM)算法提出了一种精确的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(SparseBTM)算法。SparseBTM算法的主要想法是通过重用中间计算结果和利用~(BTM)模型中主题~-词型计数矩阵~(NT)W的稀疏性来减少~(StdBTM)算法中不必要的计算,并最终达到降低推断算法时间复杂度和减少模型收敛时间的目的。本质上,~(SparseBTM)算法在时间开销和空间开销上进行了权衡,即通过增加部分空间开销来减少部分时间开销。理论上,~(SparseBTM)算法的时间复杂度低于~(StdBTM)算法。相应的对比实验结果表明,在较大的主题个数(~K为~(1000))设置下,~(SparseBTM)算法的收敛速度可以达到~(StdBTM)算法的~(18)倍。(3)为解决~(BTM)模型的~(SparseBTM)算法在短本文主题推断过程中存在的“重用计算”问题,我们基于~(SparseBTM)算法提出了一种精确的和时效性更高的用于~(BTM)模型主题推断的快速吉布斯采样算法——~(ESparseBTM)算法。SparseBTM算法是~(BTM)模型的一种精确的和快速的吉布斯采样主题推断算法。然而,由于在主题推断过程中“相邻双词词项的双词词型通常是不同的”导致它“不能重用更多的中间计算结果”。因此,它的时效性受到了限制而不能进一步地得到提高。~(ESparseBTM)算法解决这个问题的核心想法是:首先根据双词词型重排整个双词数据集内的所有双词词项,以使得数据集内双词词型相同的所有双词词项聚集在一起;然后采用缓存策略以重用更多的中间计算结果,并最终达到提高算法时效性的目的。~(ESparseBTM)算法完成和~(SparseBTM)算法同样的任务,并且保证结果的精确度不变。我们从理论分析和对比实验两个方面验证了ESparseBTM算法结果的精确性和收敛速度的时效性。理论上,~(ESparseBTM)算法的时间复杂度低于~(SparseBTM)算法。相应的对比实验结果表明,~(ESparseBTM)算法的时效性高于~(SparseBTM)算法,尤其是在双词词型个数与双词词项个数比率较小的数据集上。具体地,在对比实验使用的不同数据集上,~(ESparseBTM)算法的时效性能够高于~(SparseBTM)算法~(39.5%)。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 熊蜀峰;姬东鸿;;面向产品评论分析的短文本情感主题模型[J];自动化学报;2016年08期
2 蒋锐滢;崔磊;何晶;周明;潘志庚;;基于主题模型和统计机器翻译方法的中文格律诗自动生成[J];计算机学报;2015年12期
3 怀宝兴;宝腾飞;祝恒书;刘淇;;一种基于概率主题模型的命名实体链接方法[J];软件学报;2014年09期
4 魏强;金芝;许焱;;基于概率主题模型的物联网服务发现[J];软件学报;2014年08期
【共引文献】
中国期刊全文数据库 前10条
1 张海洋;;基于语义选择的机器翻译方法研究[J];自动化与仪器仪表;2018年08期
2 李燊;夏晨曦;马敬东;;主题模型在临床文本挖掘中的应用现状[J];医学信息学杂志;2018年05期
3 彭云;万红新;钟林辉;;一种语义弱监督LDA的商品评论细粒度情感分析算法[J];小型微型计算机系统;2018年05期
4 刘作国;陈笑蓉;;面向文本聚类的实体—动作关联模型研究[J];中文信息学报;2018年05期
5 王旭阳;姜喜秋;;基于上下文信息的中文命名实体消歧方法研究[J];计算机应用研究;2018年04期
6 张雄;陈福才;黄瑞阳;;基于双词主题模型的半监督实体消歧方法研究[J];电子学报;2018年03期
7 乔霈;王素格;陈鑫;谭红叶;陈千;王元龙;;基于词语关联的散文阅读理解问题答案获取方法[J];中文信息学报;2018年03期
8 鲁新新;柴岩;;L2-SVM下的短文本情感分类动态CNN模型[J];计算机应用与软件;2018年01期
9 谭咏梅;郑迪;刘姝雯;吕学强;;基于重启随机游走的实体识别与链接方法[J];北京邮电大学学报;2017年06期
10 加日拉·买买提热衣木;;TensorFlow在人名识别中的应用前景[J];数字技术与应用;2017年12期
【二级参考文献】
中国期刊全文数据库 前6条
1 张林;钱冠群;樊卫国;华琨;张莉;;轻型评论的情感分析研究[J];软件学报;2014年12期
2 魏强;金芝;李戈;李力行;;物联网服务发现初探:传统SOA的可行性和局限性[J];计算机科学与探索;2013年02期
3 徐冰;赵铁军;王山雨;郑德权;;基于浅层句法特征的评价对象抽取研究[J];自动化学报;2011年10期
4 赵妍妍;秦兵;刘挺;;基于图的篇章内外特征相融合的评价句极性识别(英文)[J];自动化学报;2010年10期
5 周昌乐;游维;丁晓君;;一种宋词自动生成的遗传算法及其机器实现[J];软件学报;2010年03期
6 郑杰,茅于杭;一种基于词语搭配的语义消歧方法[J];清华大学学报(自然科学版);2001年03期
【相似文献】
中国期刊全文数据库 前10条
1 廖耀发 ,秦伯念;吉布斯小传[J];现代物理知识;1994年06期
2 杨建邺,段永法,肖明;吉布斯和他对科学的贡献[J];自然辩证法通讯;1992年02期
3 赵慕愚,肖良质;不求闻达、唯求真知的一生——美国物理学家吉布斯传略[J];自然杂志;1985年06期
4 张德端;;关于“吉布斯佯缪的热力学解决”的讨论[J];成都大学学报(自然科学版);1988年01期
5 林树坤;吉布斯悖论及其解[J];自然杂志;1989年05期
6 王爱丽;;关于物理化学吉布斯函数的几个问题[J];广东化工;2008年09期
7 刘亚强;偏摩尔量集合公式和吉布斯—杜亥姆公式推导的讨论[J];渭南师范学院学报;2005年05期
8 路莹;于凤军;;扩散过程最小吉布斯函数减少的研究[J];大学物理;2014年02期
9 刘亚强;刘艳;;吉布斯—杜亥姆公式应用的探讨[J];渭南师范学院学报;2008年02期
10 汪晓波,徐玲;标准吉布斯函数变氧化态图[J];安徽教育学院学报;2004年03期
中国重要会议论文全文数据库 前3条
1 马哈亚·艾斯江;巴哈尔古丽·别克吐尔汗;;吉布斯(Gibbs)自由能变化的原子平均值来判断铋矿物在硝酸溶液和氯水中的溶解顺序性[A];中国化学会第26届学术年会理论化学方法和应用分会场论文集[C];2008年
2 薛永强;崔子祥;杜建平;;纳米体系的化学反应热力学[A];中国化学会成立80周年第十六届全国化学热力学和热分析学术会议论文集[C];2012年
3 贺冠瑞;郑蝉金;;四参数逻辑斯蒂模型参数的快速MCMC估计方法[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年
中国重要报纸全文数据库 前10条
1 记者 冉维 易爱军;美称朝公开铀设施违背“保证和承诺”[N];新华每日电讯;2010年
2 本报驻上海记者 张斌;让主题产品引领中国游客赴爱尔兰旅游[N];中国旅游报;2013年
3 本报记者 滕瑾;美“专责小组”严查房屋止赎案[N];中华工商时报;2010年
4 仲智;美国加州穆瑞塔市市长瑞克·吉布斯 率团前来西安国际港务区考察项目[N];西安日报;2012年
5 记者 蒋国鹏 赵毅;美促伊朗答复铀外运案,否则制裁[N];新华每日电讯;2009年
6 特约记者 孙卓;从白宫记者到白宫发言人[N];第一财经日报;2011年
7 本报驻美国记者 王恬;美国的“稳妥思维”[N];人民日报;2011年
8 本报记者 朱周良;白宫拒施援手 加州破产进入倒计时[N];上海证券报;2009年
9 徐虹;教育是育人,不是造机器[N];四川日报;2004年
10 本报驻伊斯兰堡记者 周戎;一个巴掌拍不响[N];光明日报;2010年
中国博士学位论文全文数据库 前1条
1 周晓堂;主题模型的快速吉布斯采样主题推断算法研究[D];吉林大学;2018年
中国硕士学位论文全文数据库 前10条
1 于柑萍;品特戏剧《温室》英译汉实践报告[D];广西师范大学;2018年
2 匡斌;基于吉布斯采样算法的模体查找新方法的研究[D];电子科技大学;2007年
3 张景云;基于吉布斯采样推理算法的交通预测研究[D];云南大学;2011年
4 袁健芳;二元混合物流体相平衡吉布斯系综模拟[D];重庆大学;2004年
5 赵国强;基于吉布斯—马尔科夫转换模型的资本资产定价研究[D];宁夏大学;2017年
6 蒋国柱;吉布斯系综模拟流体汽液相平衡[D];重庆大学;2003年
7 邹吉利;基于吉布斯采样和典型相关分析的TWA检测算法研究[D];东北大学;2014年
8 刘佳;基于Gibbs算法的改进算法及其在识别MOTIF中的应用[D];吉林大学;2010年
9 刘自强;用最小最大熵吉布斯模型学习结构化吉布斯点过程以及随机向量分布的研究[D];浙江大学;2003年
10 李邵杰;着色算法解决数据聚集网络中多信道时隙调度问题[D];合肥工业大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026